数据仓库 - 面试问题


亲爱的读者,这些数据仓库面试问题是专门为让您熟悉在面试数据仓库主题时可能遇到的问题的性质而设计的。

问:数据仓库的定义?

:数据仓库是一个面向主题的、集成的、时变的、非易失性的数据集合,支持管理决策过程。

问:面向主题的数据仓库意味着什么?

:面向主题是指数据仓库存储围绕特定主题的信息,例如产品、客户、销售等。

问:列出数据仓库的任意五个应用。

:一些应用包括金融服务、银行服务、消费品、零售行业、受控制造。

问:OLAP 和 OLTP 分别代表什么?

答:OLAP 是在线分析处理的缩写,OLTP 是在线事务处理的缩写。

问:数据仓库和操作数据库之间最根本的区别是什么?

:数据仓库包含可用于分析业务的历史信息,而操作数据库包含运行业务所需的当前信息。

问:列出数据仓库系统可以实现的Schema。

:数据仓库可以实现星型模式、Snowflake模式和事实星座模式。

问:什么是数据仓库?

:数据仓库是构建和使用数据仓库的过程。

问:列出数据仓库涉及的流程。

:数据仓库包括数据清理、数据集成和数据整合。

问:列出数据仓库工具和实用程序的功能。

:数据仓库工具和实用程序执行的功能是数据提取、数据清理、数据转换、数据加载和刷新。

问:数据提取是什么意思?

:数据提取是指从多个异构源收集数据。

问:定义元数据?

:元数据简单地定义为关于数据的数据。换句话说,我们可以说元数据是引导我们获得详细数据的汇总数据。

问:呼吸元数据包含什么?

:元数据呼吸包含数据仓库的定义、业务元数据、操作元数据、从操作环境到数据仓库的映射数据以及汇总算法。

问:数据立方体有何帮助?

A:数据立方体帮助我们以多个维度来表示数据。数据立方体由维度和事实定义。

问:定义维度?

:维度是企业保存记录的实体。

问:解释一下数据集市。

:数据集市包含组织范围数据的子集。该数据子集对于组织的特定组很有价值。换句话说,我们可以说数据集市包含特定于特定组的数据。

问:什么是虚拟仓库?

:操作数据仓库的视图称为虚拟仓库。

问:列出数据仓库交付过程中涉及的阶段。

:这些阶段包括 IT 战略、教育、业务案例分析、技术蓝图、构建版本、历史加载、即席查询、需求演变、自动化和扩展范围。

问:定义负载管理器。

:负载管理器执行提取和加载进程所需的操作。负载管理器的大小和复杂性因数据仓库的具体解决方案而异。

问:定义负载管理器的功能。

:负载管理器从源系统中提取数据。将提取的数据快速加载到临时数据存储中。对类似于数据仓库中结构的结构进行简单转换。

问:定义一名仓库管理员。

A : 仓库经理负责仓库管理流程。仓库管理器由第三方系统软件、C程序和shell脚本组成。仓库管理器的规模和复杂性因具体解决方案而异。

问:定义仓库管理员的职能。

A:仓库管理员执行一致性和引用完整性检查,针对基础数据创建索引、业务视图、分区视图,将源数据转换并合并到临时存储到发布的数据仓库中,备份数据仓库中的数据,并对已达到捕获寿命终点的数据进行归档。

问:什么是摘要信息?

:摘要信息是数据仓库中保存预定义聚合的区域。

问:查询经理负责什么?

:查询管理器负责将查询定向到合适的表。

问:列出OLAP服务器的类型

:OLAP 服务器有四种类型,即关系型 OLAP、多维 OLAP、混合 OLAP 和专用 SQL 服务器。

问:多维 OLAP 和关系 OLAP 哪一个更快?

:多维 OLAP 比关系 OLAP 更快。

问:列出 OLAP 执行的功能。

:OLAP 执行诸如上卷、下钻、切片、切块和透视等功能。

Q:切片操作选择多少个维度?

A:只选择一维进行切片操作。

问:骰子运算时选择多少个维度?

:对于骰子操作,为给定的立方体选择两个或多个维度。

问:星型模式中有多少个事实表?

:星型模式中只有一张事实表。

问:什么是标准化?

:标准化将数据拆分到附加表中。

Q:星型模式和Snowflake型模式中,谁的维度表被规范化了?

:Snowflake模式使用规范化的概念。

问:正常化有什么好处?

:规范化有助于减少数据冗余。

问:Schema Definition 使用什么语言来定义?

:数据挖掘查询语言(DMQL)用于模式定义。

问:DMQL 的基础是什么语言?

:DMQL 基于结构化查询语言 (SQL)。

问:分区的原因有哪些?

A : 分区的原因有很多,例如方便管理、协助备份恢复、提高性能等。

问:数据马丁化涉及哪些成本?

A:数据马丁化涉及到软硬件成本、网络接入成本、时间成本。