PySpark - 简介


在本章中,我们将了解 Apache Spark 是什么以及 PySpark 是如何开发的。

Spark – 概述

Apache Spark 是一个快如闪电的实时处理框架。它进行内存计算以实时分析数据。它的出现是因为Apache Hadoop MapReduce仅执行批处理,缺乏实时处理功能。因此,Apache Spark 被引入,因为它可以实时执行流处理,也可以处理批处理。

除了实时和批处理之外,Apache Spark 还支持交互式查询和迭代算法。Apache Spark 有自己的集群管理器,可以在其中托管其应用程序。它利用 Apache Hadoop 进行存储和处理。它使用HDFS(Hadoop 分布式文件系统)进行存储,也可以在YARN上运行 Spark 应用程序。

PySpark – 概述

Apache Spark 是用Scala 编程语言编写的。为了支持 Python 与 Spark,Apache Spark 社区发布了一个工具 PySpark。使用 PySpark,您还可以使用 Python 编程语言处理RDD 。正是因为有一个名为Py4j 的库,他们才能够实现这一目标。

PySpark 提供PySpark Shell,它将 Python API 链接到 Spark 核心并初始化 Spark 上下文。如今,大多数数据科学家和分析专家都使用 Python,因为它具有丰富的库集。将 Python 与 Spark 集成对他们来说是一个福音。