大数据分析 - 问题定义


通过本教程,我们将开发一个项目。本教程后续的每一章都涉及小型项目部分中较大项目的一部分。这被认为是一个应用教程部分,将提供对现实世界问题的接触。在这种情况下,我们将从项目的问题定义开始。

项目介绍

该项目的目标是开发一种机器学习模型,以使用简历 (CV) 文本作为输入来预测人们的时薪。

使用上面定义的框架,定义问题很简单。我们可以将X = {x 1 , x 2 , …, x n }定义为用户的 CV,其中每个特征可以以最简单的方式表示该单词出现的次数。那么响应是真实有价值的,我们试图预测个人的时薪(以美元为单位)。

这两个考虑因素足以得出结论,所提出的问题可以用监督回归算法来解决。

问题定义

问题定义可能是大数据分析流程中最复杂且最容易被忽视的阶段之一。为了定义数据产品要解决的问题,经验是必须的。大多数有抱负的数据科学家在这个阶段几乎没有经验。

大多数大数据问题可以按以下方式分类 -

  • 监督分类
  • 监督回归
  • 无监督学习
  • 学习排名

现在让我们详细了解这四个概念。

监督分类

给定特征矩阵X = {x 1 , x 2 , ..., x n }我们开发一个模型 M 来预测定义为y = {c 1 , c 2 , ..., cn }的不同类别。例如:给定保险公司客户的交易数据,可以开发一个模型来预测客户是否会流失。后者是一个二元分类问题,其中有两个类或目标变量:流失和非流失。

其他问题涉及预测多个类别,我们可能有兴趣进行数字识别,因此响应向量将定义为:y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9},最先进的模型将是卷积神经网络,特征矩阵将定义为图像的像素。

监督回归

在这种情况下,问题定义与前面的示例非常相似;差异取决于响应。在回归问题中,响应 y ∈ ℜ,这意味着响应是实值。例如,我们可以开发一个模型来根据个人简历的语料库来预测其时薪。

无监督学习

管理层常常渴望新的见解。细分模型可以提供这种洞察力,以便营销部门为不同细分市场开发产品。开发分割模型的一个好方法是选择与所需分割相关的特征,而不是考虑算法。

例如,在一家电信公司,根据手机使用情况对客户进行细分是很有趣的。这将涉及忽略与分割目标无关的特征并仅包含那些与分割目标相关的特征。在这种情况下,这将选择诸如一个月内使用的短信数量、入站和出站分钟数等特征。

学习排名

这个问题可以被认为是回归问题,但它有其特殊性,值得单独处理。该问题涉及给定文档集合,我们寻求在给定查询的情况下找到最相关的排序。为了开发监督学习算法,需要在给定查询的情况下标记排序的相关性。

值得注意的是,为了开发监督学习算法,需要对训练数据进行标记。这意味着,为了训练一个模型来识别图像中的数字,我们需要手动标记大量示例。有一些 Web 服务可以加速此过程,并且通常用于此任务,例如 amazon Mechanical Turk。事实证明,学习算法在提供更多数据时可以提高其性能,因此在监督学习中实际上必须标记相当数量的示例。