讨论 PySpark


Apache Spark 是用 Scala 编程语言编写的。为了支持 Python 与 Spark,Apache Spark 社区发布了一个工具 PySpark。使用 PySpark,您还可以使用 Python 编程语言处理 RDD。正是因为有一个名为 Py4j 的库,他们才能够实现这一目标。这是一个介绍性教程,涵盖了数据驱动文档的基础知识,并解释了如何处理其各种组件和子组件。