数据仓库 - 数据马丁


为什么我们需要数据集市?

下面列出了创建数据集市的原因 -

  • 对数据进行分区以实施访问控制策略。

  • 通过减少要扫描的数据量来加快查询速度。

  • 将数据分段到不同的硬件平台中。

  • 以适合用户访问工具的形式构建数据。

注意- 不要出于任何其他原因进行数据集市,因为数据集市的运营成本可能非常高。在数据营销之前,请确保数据营销策略适合您的特定解决方案。

经济高效的数据马丁

请按照以下步骤使数据营销具有成本效益 -

  • 确定功能划分
  • 确定用户访问工具要求
  • 识别访问控制问题

确定功能划分

在此步骤中,我们确定组织是否存在自然的职能划分。我们寻找部门划分,并确定部门使用信息的方式是否倾向于与组织的其他部门隔离。让我们举个例子。

考虑一个零售组织,其中每个商家都有责任最大化一组产品的销量。为此,以下是有价值的信息 -

  • 每日销售交易
  • 每周销售预测
  • 每日股票持仓
  • 每日股票走势

由于商家对他们不处理的产品不感兴趣,因此数据营销是处理感兴趣的产品组的数据的子集。下图显示了不同用户的数据营销。

数据马丁

以下是确定功能划分时要考虑的问题 -

  • 该部门的结构可能会发生变化。

  • 产品可能会从一个部门切换到另一个部门。

  • 商家可以查询其他商品的销售趋势,分析销售情况。

注意- 我们需要确定使用数据集市的商业利益和技术可行性。

确定用户访问工具要求

我们需要数据集市来支持需要内部数据结构的用户访问工具。这种结构中的数据不受数据仓库的控制,但需要定期填充和更新。

有些工具可以直接从源系统填充,但有些则不能。因此,未来需要确定该工具范围之外的其他要求。

注意- 为了确保所有访问工具之间的数据一致性,数据不应直接从数据仓库填充,而是每个工具必须有自己的数据集市。

识别访问控制问题

应该有隐私规则来确保只有授权用户才能访问数据。例如,零售银行机构的数据仓库可确保所有账户属于同一法人实体。隐私法可以迫使您完全阻止访问不属于特定银行的信息。

数据集市允许我们通过物理分隔数据仓库中的数据段来构建完整的墙。为了避免可能的隐私问题,可以从数据仓库中删除详细数据。我们可以为每个法人实体创建数据集市,并通过数据仓库加载它,其中包含详细的帐户数据。

设计数据集市

数据集市应设计为数据仓库内星片模式的较小版本,并应与数据仓库的数据库设计相匹配。它有助于维护对数据库实例的控制。

设计数据集市

摘要的数据集市方式与数据仓库中的设计方式相同。汇总表有助于利用星片模式中的所有维度数据。

数据马丁成本

数据营销的成本措施如下:

  • 硬件和软件成本
  • 网络接入
  • 时间窗口限制

硬件和软件成本

尽管数据集市是在相同的硬件上创建的,但它们需要一些额外的硬件和软件。为了处理用户查询,它需要额外的处理能力和磁盘存储。如果数据仓库内存在详细的数据和数据集市,那么我们将面临存储和管理复制数据的额外成本。

注意- 数据营销比聚合更昂贵,因此它应该用作附加策略而不是替代策略。

网络接入

数据集市可能位于与数据仓库不同的位置,因此我们应确保 LAN 或 WAN 有能力处理数据集市加载过程中传输的数据量。

时间窗口限制

数据集市加载过程占用可用时间窗口的程度取决于转换的复杂性和正在传输的数据量。确定有多少数据集市可能取决于 -

  • 网络容量。
  • 可用时间窗口
  • 传输的数据量
  • 用于将数据插入数据集市的机制