数据仓库 - 概述


“数据仓库”一词最早由 Bill Inmon 于 1990 年提出。根据 Inmon 的说法,数据仓库是面向主题的、集成的、时变的、非易失性的数据集合。这些数据可以帮助分析师在组织中做出明智的决策。

由于发生的事务,操作数据库每天都会发生频繁的更改。假设业务主管想要分析之前对任何数据(例如产品、供应商或任何消费者数据)的反馈,那么该主管将没有可用于分析的数据,因为之前的数据已因交易而更新。

数据仓库为我们提供多维视图中的通用且整合的数据。除了通用和统一的数据视图之外,数据仓库还为我们提供了在线分析处理(OLAP)工具。这些工具帮助我们在多维空间中对数据进行交互式和有效的分析。该分析导致数据概括和数据挖掘。

关联、聚类、分类、预测等数据挖掘功能可以与OLAP操作集成,增强多个抽象层次知识的交互式挖掘。这就是为什么数据仓库现在已经成为数据分析和在线分析处理的重要平台。

了解数据仓库

  • 数据仓库是一个数据库,与组织的操作数据库分开。

  • 数据仓库中不进行频繁的更新。

  • 它拥有整合的历史数据,有助于组织分析其业务。

  • 数据仓库帮助管理人员组织、理解和使用他们的数据来做出战略决策。

  • 数据仓库系统有助于集成多样性的应用系统。

  • 数据仓库系统有助于整合历史数据分析。

为什么数据仓库与操作数据库分开

由于以下原因,数据仓库与操作数据库分开:

  • 操作数据库是为众所周知的任务和工作负载而构建的,例如搜索特定记录、索引等。在合同中,数据仓库查询通常很复杂,并且它们呈现通用形式的数据。

  • 操作数据库支持多个事务的并发处理。运行数据库需要并发控制和恢复机制,以保证数据库的健壮性和一致性。

  • 操作数据库查询允许读取和修改操作,而 OLAP 查询只需要对存储的数据进行只读访问。

  • 操作数据库维护当前数据。另一方面,数据仓库维护历史数据。

数据仓库功能

下面讨论数据仓库的主要特征 -

  • 面向主题- 数据仓库是面向主题的,因为它提供围绕主题而不是组织正在进行的操作的信息。这些主体可以是产品、客户、供应商、销售、收入等。数据仓库不关注正在进行的操作,而是关注用于决策的数据建模和分析。

  • 集成- 数据仓库是通过集成来自异构源(例如关系数据库、平面文件等)的数据来构建的。这种集成增强了数据的有效分析。

  • 时间变量- 数据仓库中收集的数据以特定时间段进行标识。数据仓库中的数据提供历史角度的信息。

  • 非易失性- 非易失性意味着添加新数据时不会删除以前的数据。数据仓库与操作数据库分开,因此操作数据库的频繁更改不会反映在数据仓库中。

- 数据仓库不需要事务处理、恢复和并发控制,因为它是物理存储的并且与操作数据库分离。

数据仓库应用

如前所述,数据仓库可帮助业务主管组织、分析和使用数据进行决策。数据仓库是企业管理计划-执行-评估“闭环”反馈系统的唯一组成部分。数据仓库广泛应用于以下领域 -

  • 金融服务
  • 银行服务
  • 消费品
  • 零售业
  • 受控制造

数据仓库的类型

信息处理、分析处理和数据挖掘是下面讨论的三种类型的数据仓库应用程序 -

  • 信息处理- 数据仓库允许处理存储在其中的数据。可以通过查询、基本统计分析、使用交叉表、表格、图表或图形进行报告来处理数据。

  • 分析处理- 数据仓库支持对存储在其中的信息进行分析处理。可以通过基本的 OLAP 操作来分析数据,包括切片和切块、向下钻取、向上钻取和旋转。

  • 数据挖掘- 数据挖掘通过发现隐藏的模式和关联、构建分析模型、执行分类和预测来支持知识发现。这些挖掘结果可以使用可视化工具呈现。

先生。 数据仓库(OLAP) 运营数据库(OLTP)
1 它涉及信息的历史处理。 它涉及日常处理。
2 OLAP 系统由高管、经理和分析师等知识工作者使用。 OLTP 系统由文员、DBA 或数据库专业人员使用。
3 它用于分析业务。 它用于经营业务。
4 它专注于信息输出。 它专注于数据输入。
5 它基于星型模式、Snowflake模式和事实星座模式。 它基于实体关系模型。
6 它专注于信息输出。 它是面向应用的。
7 它包含历史数据。 它包含当前数据。
8 它提供汇总和整合的数据。 它提供原始且非常详细的数据。
9 它提供了数据的汇总和多维视图。 它提供了详细且平面的数据关系视图。
10 用户数量以数百计。 用户数量以千计。
11 访问的记录数量以百万计。 访问的记录数量有数十条。
12 数据库大小从100GB到100TB。 数据库大小为 100 MB 到 100 GB。
13 这些都非常灵活。 它提供高性能。