PySpark - 简介

在本章中，我们将了解 Apache Spark 是什么以及 PySpark 是如何开发的。

Spark – 概述

Apache Spark 是一个快如闪电的实时处理框架。它进行内存计算以实时分析数据。它的出现是因为Apache Hadoop MapReduce仅执行批处理，缺乏实时处理功能。因此，Apache Spark 被引入，因为它可以实时执行流处理，也可以处理批处理。

除了实时和批处理之外，Apache Spark 还支持交互式查询和迭代算法。Apache Spark 有自己的集群管理器，可以在其中托管其应用程序。它利用 Apache Hadoop 进行存储和处理。它使用HDFS（Hadoop 分布式文件系统）进行存储，也可以在YARN上运行 Spark 应用程序。

PySpark – 概述

Apache Spark 是用Scala 编程语言编写的。为了支持 Python 与 Spark，Apache Spark 社区发布了一个工具 PySpark。使用 PySpark，您还可以使用 Python 编程语言处理RDD 。正是因为有一个名为Py4j 的库，他们才能够实现这一目标。

PySpark 提供PySpark Shell，它将 Python API 链接到 Spark 核心并初始化 Spark 上下文。如今，大多数数据科学家和分析专家都使用 Python，因为它具有丰富的库集。将 Python 与 Spark 集成对他们来说是一个福音。