- PySpark Tutorial
- PySpark - Home
- PySpark - Introduction
- PySpark - Environment Setup
- PySpark - SparkContext
- PySpark - RDD
- PySpark - Broadcast & Accumulator
- PySpark - SparkConf
- PySpark - SparkFiles
- PySpark - StorageLevel
- PySpark - MLlib
- PySpark - Serializers
- PySpark Useful Resources
- PySpark - Quick Guide
- PySpark - Useful Resources
- PySpark - Discussion
PySpark - 环境设置
在本章中,我们将了解PySpark的环境设置。
注意- 这是考虑到您的计算机上安装了 Java 和 Scala。
现在让我们按照以下步骤下载并设置 PySpark。
步骤 1 - 转到官方 Apache Spark下载页面并下载那里提供的最新版本的 Apache Spark。在本教程中,我们使用spark-2.1.0-bin-hadoop2.7。
步骤 2 - 现在,解压下载的 Spark tar 文件。默认情况下,它将下载到 Downloads 目录中。
# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz
它将创建一个目录spark-2.1.0-bin-hadoop2.7。在启动PySpark之前,您需要设置以下环境来设置Spark路径和Py4j路径。
export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7 export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH export PATH = $SPARK_HOME/python:$PATH
或者,要全局设置上述环境,请将它们放在.bashrc 文件中。然后运行以下命令以使环境正常工作。
# source .bashrc
现在我们已经设置了所有环境,让我们进入 Spark 目录并通过运行以下命令调用 PySpark shell -
# ./bin/pyspark
这将启动您的 PySpark shell。
Python 2.7.12 (default, Nov 19 2016, 06:48:10) [GCC 5.4.0 20160609] on linux2 Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.0 /_/ Using Python version 2.7.12 (default, Nov 19 2016 06:48:10) SparkSession available as 'spark'. <<<