数据仓库架构详细介绍和指南

2021年3月20日17:04:18 发表评论 1,148 次浏览

一种数据仓库是在统一模式下组织的不同数据源的异构集合。有两种构建数据仓库的方法:下面解释自顶向下方法和自底向上方法。

1.自上而下的方法:

数据仓库架构详细介绍和指南

基本组件讨论如下:

外部资源–

外部源是指无论数据类型如何都从中收集数据的源。数据也可以是结构化, 半结构化和非结构化的。

舞台区–

由于从外部源提取的数据没有遵循特定的格式, 因此需要验证此数据以加载到数据仓库中。为此, 建议使用ETL工具

  • E(提取):数据是从外部数据源中提取的。
  • T(转换):数据被转换为标准格式。
  • L(负荷)将数据转换为标准格式后, 将其加载到数据仓库中。

数据仓库 -

清除数据后, 将其作为中央存储库存储在数据仓库中。它实际上存储元数据, 而实际数据存储在数据集市中。

注意

该数据仓库采用这种自顶向下的方法以最纯粹的形式存储数据。

数据集市–

数据集市也是存储组件的一部分。它存储由单个权限处理的组织特定功能的信息。一个组织中的功能取决于其数据集市的数量。我们也可以说数据集市包含存储在数据仓库中的数据的子集。

数据挖掘 -

分析数据仓库中存在的大数据的实践是数据挖掘。它用于借助数据挖掘算法查找数据库或数据仓库中存在的隐藏模式。

此方法定义为因门as –数据仓库作为完整组织的中央存储库, 并在创建完整数据仓库之后从中创建数据集市。

自上而下方法的优势–

  1. 由于数据集市是从数据仓库创建的, 因此提供了数据集市的一致尺寸视图。
  2. 此外, 此模型被认为是业务变更的最强模型。因此, 大型组织更喜欢采用这种方法。
  3. 从数据仓库创建数据集市很容易。

自上而下方法的缺点–

  1. 设计的成本, 时间及其维护成本很高。

2.自下而上的方法:

数据仓库架构详细介绍和指南
  1. 首先, 从外部来源提取数据(与自顶向下方法相同)。
  2. 然后, 数据通过暂存区域(如上所述)并装入数据集市而不是数据仓库。首先创建数据集市并提供报告功能。它涉及单个业务领域。
  3. 然后将这些数据集市集成到数据仓库中。

该方法由金球as –首先创建数据集市, 并在创建完整的数据集市后为分析和数据仓库创建一个精简视图。

自下而上方法的优势–

  1. 由于首先创建了数据集市, 因此可以快速生成报告。
  2. 我们可以在此处容纳更多数量的数据集市, 这样就可以扩展数据仓库。
  3. 而且, 设计该模型所需的成本和时间相对较低。

自下而上方法的缺点–

  1. 这种模型不像自上而下的方法那样强大, 因为数据集市的维度视图与上述方法不一致。

木子山

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: