- PySpark Tutorial
- PySpark - Home
- PySpark - Introduction
- PySpark - Environment Setup
- PySpark - SparkContext
- PySpark - RDD
- PySpark - Broadcast & Accumulator
- PySpark - SparkConf
- PySpark - SparkFiles
- PySpark - StorageLevel
- PySpark - MLlib
- PySpark - Serializers
- PySpark Useful Resources
- PySpark - Quick Guide
- PySpark - Useful Resources
- PySpark - Discussion
PySpark - SparkFiles
在 Apache Spark 中,您可以使用sc.addFile上传文件(sc 是默认的 SparkContext),并使用SparkFiles.get获取工作线程上的路径。因此,SparkFiles 解析通过SparkContext.addFile()添加的文件的路径。
SparkFiles 包含以下类方法 -
- 获取(文件名)
- 获取根目录()
让我们详细了解它们。
获取(文件名)
它指定通过 SparkContext.addFile() 添加的文件的路径。
获取根目录()
它指定根目录的路径,其中包含通过 SparkContext.addFile() 添加的文件。
----------------------------------------sparkfile.py------------------------------------ from pyspark import SparkContext from pyspark import SparkFiles finddistance = "/home/hadoop/examples_pyspark/finddistance.R" finddistancename = "finddistance.R" sc = SparkContext("local", "SparkFile App") sc.addFile(finddistance) print "Absolute Path -> %s" % SparkFiles.get(finddistancename) ----------------------------------------sparkfile.py------------------------------------
命令- 命令如下 -
$SPARK_HOME/bin/spark-submit sparkfiles.py
输出- 上述命令的输出是 -
Absolute Path -> /tmp/spark-f1170149-af01-4620-9805-f61c85fecee4/userFiles-641dfd0f-240b-4264-a650-4e06e7a57839/finddistance.R