前 50 个数据仓库面试问题和答案

以下是数据仓库面试问题和答案,可以帮助新手和经验丰富的应聘者获得理想的工作。

1)什么是数据仓库?

数据仓库 (DW) 是数据的存储库,用于管理决策支持系统。数据仓库包含具有某一时间点高水平业务状况的各种数据。

简而言之,它是可供查询和分析的综合信息库。


2)什么是 商业智能?

商业智能也称为决策支持系统 (DSS),指的是用于收集、集成和分析业务相关信息或数据的技术、应用和实践。它甚至有助于查看信息本身的数据。

免费 PDF 下载:数据仓库面试问题与答案


3)什么是维度表?

维度表是包含事实表中存储的测量属性的表。该表由层次结构、类别和可用于在节点中遍历的逻辑组成。


4)什么是事实表?

事实表包含业务流程的测量,并且包含维度表的外键。

示例 – 如果业务流程是制造砖块

一个人/机器生产的平均砖块数量——业务流程的衡量标准


5)数据仓库有哪些阶段?

数据仓库分为四个阶段:

数据仓库
数据仓库
  • 离线操作数据库
  • 离线数据仓库
  • 实时数据仓库
  • 集成数据仓库

6)什么是数据挖掘?

数据挖掘是指从不同维度或角度对数据进行分析,并总结出有用信息的过程。可以以数据库本身的格式查询和检索数据。


7)什么是 OLTP?

OLTP 是 On-Line Transaction Processing 的缩写,是一种在收到数据时立即修改数据且同时有大量用户使用的应用程序。

数据仓库面试问题
数据仓库面试问题

8)什么是 OLAP?

OLAP 是联机分析处理的缩写,它是一种收集、管理和处理多维数据以进行分析和管理的系统。


9)OLTP 和 OLAP 有什么区别?

以下是 OLTP 和 OLAP 之间的区别:

OLTP OLAP
数据来自原始数据源 数据来自各种数据源
用户简单查询 系统复杂查询
规范化小型数据库 非规范化大型数据库
基本业务任务 多维度业务任务

10)什么是ODS?

ODS 是“操作数据存储”的缩写,它是实时操作数据而不是长期趋势数据的存储库。


11)视图和物化视图有什么区别?

视图不过是一个虚拟表,它接受查询的输出并可以代替表。

物化视图只不过是通过将查询结果存储在单独的模式中来间接访问表数据。


12) 什么是 ETL?

ETL 是提取、转换和加载的缩写。ETL 是一种用于从指定数据源读取数据并提取所需数据子集的软件。接下来,它使用规则和查找表转换数据并将其转换为所需状态。

然后使用load函数将结果数据加载到目标数据库。


13)什么是 VLDB?

VLDB 是“超大型数据库”的缩写,其大小设置为超过 1TB 的数据库。这些是用于为大量用户提供服务的决策支持系统。


14)什么是实时数据仓库?

实时数据仓库可随时捕获业务数据。当业务活动完成时,该数据将在流程中可用并可立即使用。


15)什么是聚合表?

聚合表是包含已按一定维度分组的现有仓库数据的表。与包含更多记录的原始表相比,从聚合表中检索数据更容易。

该表减少了数据库服务器的负载并提高了查询的性能。


16)什么是无事实事实表?

无事实事实表是事实表中不包含数字事实列的事实表。


17)如何加载时间维度?

时间维度通常通过一年中所有可能的日期加载,这可以通过程序完成。这里,可以用每天一行来表示 100 年。


18)什么是非加性事实?

非可加性事实是指事实表中任何维度都无法汇总的事实。如果维度发生变化,相同的事实仍然有用。


19)什么是一致事实?

一致事实表是可以与多个事实表结合使用并跨多个数据集市的表。


20)什么是数据集市?

数据集市是数据仓库的一个专门版本,它包含运营数据的快照,可帮助业务人员根据过去的趋势和经验进行分析,从而做出决策。数据集市有助于强调轻松访问相关信息。


21)什么是主动数据仓库?

主动数据仓库是一种使公司或组织内的决策者能够有效、高效地管理客户关系的数据仓库。


22)数据仓库和 OLAP 有什么区别?

数据仓库是存储整个数据以供分析的地方,而 OLAP 用于分析数据、管理聚合、将信息划分为较小级别的信息。


23)什么是 ER 图?

ER 图是实体关系图的缩写,它说明了数据库中实体之间的相互关系。此图显示了每个表的结构以及表之间的链接。

ER图
ER图

24)事实表和维度表中的关键列是什么?

维度表的外键是实体表的主键,事实表的外键是维度表的主键。


25)什么是SCD?

SCD 定义为缓慢变化维度,适用于记录随时间而变化的情况。


26)SCD 有哪些类型?

SCD 有三种类型,如下所示:

SCD 1 – 新记录取代原始记录

SCD 2 – 在现有客户维度表中添加新记录

SCD 3 – 修改原始数据以包含新数据


27)什么是 BUS 模式?

如果存在事实表,BUS 模式由一套已确认的维度和标准化的定义组成。


28)什么是星型模式?

星型模式只不过是一种组织表的方式,以便在数据仓库环境中可以快速从数据库中检索结果。

星图
星图

29)什么是雪花模式?

雪花模式具有主维度表,一个或多个维度可以连接到该表。主维度表是唯一可以与事实表连接的表。

雪花模式
雪花模式

30)什么是核心维度?

核心维度不过是专用于单个事实表或数据集市的维度表。


31)什么叫数据清理?

名称本身就意味着这是一个不言自明的术语。清除孤立记录、违反业务规则的数据、数据库中不一致的数据和缺失信息。


32)什么是元数据?

元数据被定义为有关数据的数据。元数据包含使用的列数、固定宽度和有限宽度、字段的顺序以及字段的数据类型等信息。


33)数据仓库中的循环是什么?

在数据仓库中,表之间存在循环。如果表之间存在循环,则查询生成将花费更多时间,并且会产生歧义。建议避免表之间出现循环。


34)维度表是否可以有数值?

是的,维度表可以具有数值,因为它们是我们业务的描述元素。


35)数据仓库中Cube的定义是什么?

立方体是多维数据的逻辑表示。立方体的边缘包含维度成员,立方体的主体包含数据值。


36)什么叫维度建模?

维度建模是一个概念,数据仓库设计人员可以使用它来构建自己的数据仓库。此模型可以存储在两种类型的表中 - 事实表和维度表。

事实表包含业务的事实和测量,维度表包含测量的背景。


37)维度建模的类型有哪些?

以下是 数据仓库中的维度类型:

  • 符合尺寸
  • 支腿尺寸
  • 缩小尺寸
  • 角色扮演维度
  • 维度到维度表
  • 垃圾维度
  • 退化维度
  • 可更换尺寸
  • 步进尺寸

38)什么是代理键?

代理键不过是自然主键的替代品。它被设置为每行的唯一标识符,可用作表的主键。


39)ER 建模和维度建模有什么区别?

ER 建模将具有逻辑模型和物理模型,但维度建模只有物理模型。

ER 建模用于规范化 OLTP 数据库设计,而维度建模用于非规范化 ROLAP 和 MOLAP 设计。


40)构建数据仓库的步骤是什么?

以下是构建数据仓库需遵循的步骤:

  • 收集业务需求
  • 确定必要的来源
  • 识别事实
  • 定义尺寸
  • 定义属性
  • 如果需要,重新定义维度和属性
  • 组织属性层次结构
  • 定义关系
  • 分配唯一标识符

41)数据仓库有哪些不同类型?

以下是不同类型的数据仓库:

  • 企业数据仓库
  • 操作数据存储
  • 数据库

42)启动数据库时需要做什么?

启动数据库需要执行以下操作:

  1. 启动实例
  2. 装载数据库
  3. 打开数据库

43)数据库关闭时需要做什么?

数据库关闭时需要执行以下操作:

  1. 关闭数据库
  2. 卸载数据库
  3. 关闭实例

44) 数据库打开时可以进行备份吗?

是的,我们可以在数据库打开时进行完整备份。


45)什么是部分备份?

部分备份 操作系统 是完整备份的简短备份,可以在数据库打开或关闭时完成。


46)优化器的目标是什么?

优化器的目标是找到执行任务的最有效方法 SQL 声明。


47)什么是执行计划?

执行计划是用于优化器选择步骤组合的计划。


48)优化器在执行计划过程中使用了哪些方法?

有两种方法:

  1. 基于规则
  2. 基于成本

49)有哪些工具可用于 ETL?

以下是可用的 ETL 工具:

Informatica的
数据阶段
神谕
仓库建造者
从头算起
数据连接


50)元数据和数据字典有什么区别?

元数据被定义为有关数据的数据。但是,数据字典包含有关项目信息、图表、abinito 命令和服务器信息的信息。

这些面试问题也会对你的口试有帮助

分享

21条评论

  1. 头像 迈丹·施瓦茨 说:

    感谢您的信息 :)

    1. 如何在我的 Windows10 中安装 DataStage etl 工具软件

  2. 希夫·高塔姆(Shiv Gautam) 说:

    感谢分享的信息

    1. 头像 赛斯里尼瓦斯 说:

      HII
      PLS
      数据仓库解释与理论

  3. 头像 埃克塔索尼 说:

    非常有用的信息...谢谢:)

  4. 头像 米尔·比拉尔 说:

    谢谢!非常有帮助。

  5. 头像 格拉希·帕玛 说:

    SCD 类型的顺序不正确。
    类型 0 – 固定尺寸
    不允许更改,尺寸永不改变
    第 1 类 – 无病史
    直接更新记录,没有历史值的记录,只有当前状态
    类型 2 – 行版本控制
    使用当前标志和活动日期以及其他元数据将变更作为版本记录来跟踪
    第 3 类 – 先前值列
    跟踪特定属性的变化,添加一列以显示先前的值,该值会随着进一步的变化而更新
    类型 4 – 历史表
    在维度表中显示当前值,但在单独的表中跟踪所有更改
    第 6 型——混合型 SCD
    利用 SCD 类型 1、2 和 3 中的技术来跟踪变化

    1. 斯里维迪亚·克里希纳莫蒂 说:

      谢谢..这很有帮助

  6. 头像 阿尔皮特·贾恩 说:

    對修改很有帮助:)

    1. 斯里维迪亚·克里希纳莫蒂 说:

      谢谢

  7. 头像 阿尼尔 说:

    与人们分享好东西非常有帮助。

  8. 头像 穆罕默德·阿布巴卡尔 说:

    我需要帮助来讨论这个问题!
    问:你被一家大型商场聘为数据仓库工程师。你如何使用数据挖掘的关联规则来增加这家大型商场的销售额?

  9. 头像 Darko Petrusic 博士 说:

    44. 数据库打开的时候可以进行备份吗?

    是的,我们可以在数据库打开时进行完整备份。这称为热备份……

  10. 中国林蛙 说:

    问题 37 不正确

    1. 亚历克斯西尔弗曼 亚历克斯西尔弗曼 说:

      您好,感谢您分享您的想法。已更新。

  11. 非常好,先生。
    感谢您提供有价值的问题和易于理解的答案

  12. 谢谢,这对我帮助很大

  13. 头像 普里蒂 说:

    这真的非常好,谢谢,这对我帮助很大。

  14. 头像 萨蒂什 说:

    谢谢你,这对我有帮助。

  15. 头像 阿斯拉尔·阿拉姆 说:

    总体来说非常有用的信息,谢谢

发表评论

您的电邮地址不会被公开。 必填项 *