数据仓库架构详细介绍和指南

2021年3月20日17:04:18 发表评论 1,312 次浏览

一种数据仓库是在统一模式下组织的不同数据源的异构集合。有两种构建数据仓库的方法：下面解释自顶向下方法和自底向上方法。

1.自上而下的方法：

基本组件讨论如下：

外部资源–

外部源是指无论数据类型如何都从中收集数据的源。数据也可以是结构化, 半结构化和非结构化的。

舞台区–

由于从外部源提取的数据没有遵循特定的格式, 因此需要验证此数据以加载到数据仓库中。为此, 建议使用ETL工具

数据仓库 -

清除数据后, 将其作为中央存储库存储在数据仓库中。它实际上存储元数据, 而实际数据存储在数据集市中。

注意

该数据仓库采用这种自顶向下的方法以最纯粹的形式存储数据。

数据集市–

数据集市也是存储组件的一部分。它存储由单个权限处理的组织特定功能的信息。一个组织中的功能取决于其数据集市的数量。我们也可以说数据集市包含存储在数据仓库中的数据的子集。

数据挖掘 -

分析数据仓库中存在的大数据的实践是数据挖掘。它用于借助数据挖掘算法查找数据库或数据仓库中存在的隐藏模式。

此方法定义为因门as –数据仓库作为完整组织的中央存储库, 并在创建完整数据仓库之后从中创建数据集市。

自上而下方法的优势–

自上而下方法的缺点–

2.自下而上的方法：

该方法由金球as –首先创建数据集市, 并在创建完整的数据集市后为分析和数据仓库创建一个精简视图。

自下而上方法的优势–

自下而上方法的缺点–

登录 注册 找回密码