大数据分析 - 方法论


在方法论方面,大数据分析与实验设计的传统统计方法有很大不同。分析从数据开始。通常我们以解释响应的方式对数据进行建模。此方法的目标是预测响应Behave或了解输入变量与响应的关系。通常,在统计实验设计中,会开发实验并检索数据作为结果。这允许以统计模型可以使用的方式生成数据,其中某些假设成立,例如独立性、正态性和随机化。

在大数据分析中,我们看到的是数据。我们无法设计一个满足我们最喜欢的统计模型的实验。在大规模的分析应用中,仅仅清理数据就需要大量的工作(通常是80%的工作量),因此它可以被机器学习模型使用。

在真正的大规模应用中,我们没有可以遵循的独特方法。通常,一旦定义了业务问题,就需要一个研究阶段来设计要使用的方法。然而,一般准则是值得提及的,并且适用于几乎所有问题。

大数据分析中最重要的任务之一是统计建模,这意味着有监督和无监督的分类或回归问题。一旦数据被清理和预处理,可用于建模,应注意使用合理的损失指标评估不同的模型,然后一旦模型被实施,应报告进一步的评估和结果。预测建模的一个常见陷阱是只实现模型而不测量其性能。