- PySpark Tutorial
- PySpark - Home
- PySpark - Introduction
- PySpark - Environment Setup
- PySpark - SparkContext
- PySpark - RDD
- PySpark - Broadcast & Accumulator
- PySpark - SparkConf
- PySpark - SparkFiles
- PySpark - StorageLevel
- PySpark - MLlib
- PySpark - Serializers
- PySpark Useful Resources
- PySpark - Quick Guide
- PySpark - Useful Resources
- PySpark - Discussion
PySpark - 简介
在本章中,我们将了解 Apache Spark 是什么以及 PySpark 是如何开发的。
Spark – 概述
Apache Spark 是一个快如闪电的实时处理框架。它进行内存计算以实时分析数据。它的出现是因为Apache Hadoop MapReduce仅执行批处理,缺乏实时处理功能。因此,Apache Spark 被引入,因为它可以实时执行流处理,也可以处理批处理。
除了实时和批处理之外,Apache Spark 还支持交互式查询和迭代算法。Apache Spark 有自己的集群管理器,可以在其中托管其应用程序。它利用 Apache Hadoop 进行存储和处理。它使用HDFS(Hadoop 分布式文件系统)进行存储,也可以在YARN上运行 Spark 应用程序。
PySpark – 概述
Apache Spark 是用Scala 编程语言编写的。为了支持 Python 与 Spark,Apache Spark 社区发布了一个工具 PySpark。使用 PySpark,您还可以使用 Python 编程语言处理RDD 。正是因为有一个名为Py4j 的库,他们才能够实现这一目标。
PySpark 提供PySpark Shell,它将 Python API 链接到 Spark 核心并初始化 Spark 上下文。如今,大多数数据科学家和分析专家都使用 Python,因为它具有丰富的库集。将 Python 与 Spark 集成对他们来说是一个福音。