数据分析-流程


数据分析是收集、转换、清理和建模数据的过程,其目的是发现所需的信息。传达由此获得的结果,提出结论并支持决策。数据可视化有时用于描绘数据,以便于发现数据中的有用模式。术语“数据建模”和“数据分析”的含义相同。

数据分析过程由以下迭代阶段组成 -

  • 数据需求规范
  • 数据采集
  • 数据处理
  • 数据清理
  • 数据分析
  • 沟通
数据分析流程

数据需求规范

分析所需的数据基于问题或实验。根据指导分析人员的要求,确定作为分析输入所需的数据(例如人口)。可以指定并获得关于人口的特定变量(例如,年龄和收入)。数据可以是数字的或分类的。

数据采集

数据收集是收集有关确定为数据要求的目标变量的信息的过程。重点是确保准确和诚实地收集数据。数据收集确保收集的数据准确,从而使相关决策有效。数据收集提供了衡量基准和改进目标。

数据是从各种来源收集的,从组织数据库到网页信息。由此获得的数据可能不是结构化的,并且可能包含不相关的信息。因此,需要对收集到的数据进行数据处理和数据清洗。

数据处理

必须对收集到的数据进行处理或组织以进行分析。这包括根据相关分析工具的要求构建数据。例如,数据可能必须放置在电子表格或统计应用程序内的表的行和列中。可能必须创建数据模型。

数据清理

处理和组织的数据可能不完整、包含重复项或包含错误。数据清理是预防和纠正这些错误的过程。数据清理有多种类型,具体取决于数据类型。例如,在清理财务数据时,可能会将某些总计与可靠的公布数字或定义的阈值进行比较。同样,定量数据方法可用于异常值检测,随后在分析中将其排除。

数据分析

经过处理、组织和清理的数据即可用于分析。可以使用各种数据分析技术来根据需求理解、解释并得出结论。数据可视化还可用于检查图形格式的数据,以获得有关数据内消息的额外见解。

统计数据模型(例如相关性、回归分析)可用于识别数据变量之间的关系。这些描述数据的模型有助于简化分析和传达结果。

该过程可能需要额外的数据清理或额外的数据收集,因此这些活动本质上是迭代的。

沟通

数据分析的结果将以用户要求的格式报告,以支持他们的决策和进一步的行动。用户的反馈可能会导致额外的分析。

数据分析师可以选择数据可视化技术,例如表格和图表,这有助于向用户清晰有效地传达信息。分析工具提供了通过颜色代码以及表格和图表中的格式来突出显示所需信息的工具。