使用 PySpark 提取特征


在本章中,我们将了解 PySpark 提取特征在敏捷数据科学中的应用。

Spark概述

Apache Spark 可以定义为一个快速实时处理框架。它进行计算以实时分析数据。Apache Spark 被引入作为实时流处理系统,也可以处理批处理。Apache Spark 支持交互式查询和迭代算法。

Spark 是用“Scala 编程语言”编写的。

PySpark 可以被认为是 Python 与 Spark 的结合。PySpark 提供 PySpark shell,它将 Python API 链接到 Spark 核心并初始化 Spark 上下文。大多数数据科学家使用 PySpark 来跟踪特征,如上一章所述。

在此示例中,我们将重点关注构建名为 counts 的数据集并将其保存到特定文件的转换。

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

使用 PySpark,用户可以使用 Python 编程语言处理 RDD。内置库涵盖了数据驱动文档和组件的基础知识,对此有所帮助。