数据分析 - 概述


数据分析是检查、清理、转换和建模数据的过程,目的是发现有用信息、提出结论和支持决策

数据分析的类型

存在多种数据分析技术,涵盖商业、科学、社会科学等各个领域,具有各种名称。主要的数据分析方法是 -

  • 数据挖掘
  • 商业智能
  • 统计分析
  • 预测分析
  • 文本分析

数据挖掘

数据挖掘是对大量数据的分析,以提取以前未知的、有趣的数据模式、异常数据和依赖性。请注意,目标是从大量数据中提取模式和知识,而不是提取数据本身。

数据挖掘分析涉及人工智能、机器学习、统计学和数据库系统交叉的计算机科学方法。

从数据挖掘中获得的模式可以被视为输入数据的摘要,可用于进一步分析或通过决策支持系统获得更准确的预测结果。

商业智能

商业智能技术和工具用于获取和转换大量非结构化业务数据,以帮助识别、开发和创造新的战略商机。

商业智能的目标是轻松解释大量数据以发现新机会。它有助于实施基于洞察力的有效战略,为企业提供竞争性市场优势和长期稳定性。

统计分析

统计学是对数据的收集、分析、解释、呈现和组织的研究。

在数据分析中,使用两种主要的统计方法 -

  • 描述性统计- 在描述性统计中,来自整个总体或样本的数据用数字描述符进行总结,例如 -

    • 连续数据的平均值、标准差

    • 分类数据的频率、百分比

  • 推论统计- 它使用样本数据中的模式来推断所代表的总体或解释随机性。这些推论可以是 -

    • 回答有关数据的是/否问题(假设检验)

    • 估计数据的数值特征(估计)

    • 描述数据内的关联(相关性)

    • 数据内的建模关系(例如回归分析)

预测分析

预测分析使用统计模型来分析当前和历史数据,以预测未来或其他未知事件。在商业中,预测分析用于识别有助于决策的风险和机遇。

文本分析

文本分析,也称为文本挖掘或文本数据挖掘,是从文本中获取高质量信息的过程。文本挖掘通常涉及结构化输入文本、使用统计模式学习等手段在结构化数据中导出模式以及最终评估和解释输出的过程。

数据分析流程

统计学家 John Tukey 在 1961 年将数据分析定义为“分析数据的程序、解释此类程序结果的技术、规划数据收集以使其分析更容易、更精确或更准确的方法,以及所有的机制”以及适用于分析数据的(数学)统计结果。”

因此,数据分析是从各种来源获取大量非结构化数据并将其转换为有用信息的过程 -

  • 回答问题
  • 检验假设
  • 决策
  • 反驳理论

使用 Excel 进行数据分析

Microsoft Excel 提供了多种分析和解释数据的手段和方法。数据可以来自各种来源。数据可以通过多种方式进行转换和格式化。可以使用相关的 Excel 命令、函数和工具进行分析 - 包括条件格式、范围、表格、文本函数、日期函数、时间函数、财务函数、小计、快速分析、公式审核、查询工具、假设分析、求解器、数据模型、PowerPivot、PowerView、PowerMap 等

您将学习这些使用 Excel 进行数据分析的技术,分为两部分:

  • 使用 Excel 进行数据分析
  • 使用 Excel 进行高级数据分析