Apache Pig - Grunt Shell


调用 Grunt shell 后,您可以在 shell 中运行 Pig 脚本。除此之外,Grunt shell 还提供了某些有用的 shell 和实用程序命令。本章介绍 Grunt shell 提供的 shell 和实用程序命令。

注意- 在本章的某些部分中,使用了诸如“加载”“存储”之类的命令。请参阅相应章节以获取有关它们的详细信息。

外壳命令

Apache Pig的Grunt shell主要用于编写Pig Latin脚本。在此之前,我们可以使用shfs调用任何 shell 命令。

sh 命令

使用sh命令,我们可以从 Grunt shell 调用任何 shell 命令。在 Grunt shell 中使用sh命令,我们无法执行 shell 环境中的命令 ( ex - cd )。

句法

下面给出sh命令的语法。

grunt> sh shell command parameters

例子

我们可以使用sh选项从 Grunt shell 调用 Linux shell 的ls命令,如下所示。在此示例中,它列出了/pig/bin/目录中的文件。

grunt> sh ls
   
pig 
pig_1444799121955.log 
pig.cmd 
pig.py

fs 命令

使用fs命令,我们可以从 Grunt shell 调用任何 FsShell 命令。

句法

下面给出的是fs命令的语法。

grunt> sh File System command parameters

例子

我们可以使用 fs 命令从 Grunt shell 调用 HDFS 的 ls 命令。在以下示例中,它列出了 HDFS 根目录中的文件。

grunt> fs –ls
  
Found 3 items
drwxrwxrwx   - Hadoop supergroup          0 2015-09-08 14:13 Hbase
drwxr-xr-x   - Hadoop supergroup          0 2015-09-09 14:52 seqgen_data
drwxr-xr-x   - Hadoop supergroup          0 2015-09-08 11:30 twitter_data

以同样的方式,我们可以使用fs命令从 Grunt shell 调用所有其他文件系统 shell 命令。

实用命令

Grunt shell 提供了一组实用命令。其中包括实用命令,例如clear、help、history、quitset;以及从 Grunt shell 中控制 Pig 的exec、killrun 等命令。下面给出了 Grunt shell 提供的实用命令的描述。

清除命令

clear命令用于清除Grunt shell的屏幕。

句法

您可以使用clear命令清除grunt shell的屏幕,如下所示。

grunt> clear

帮助命令

帮助命令为您提供 Pig 命令或 Pig 属性的列表。

用法

您可以使用帮助命令获取 Pig 命令列表,如下所示。

grunt> help

Commands: <pig latin statement>; - See the PigLatin manual for details:
http://hadoop.apache.org/pig
  
File system commands:fs <fs arguments> - Equivalent to Hadoop dfs  command:
http://hadoop.apache.org/common/docs/current/hdfs_shell.html
	 
Diagnostic Commands:describe <alias>[::<alias] - Show the schema for the alias.
Inner aliases can be described as A::B.
    explain [-script <pigscript>] [-out <path>] [-brief] [-dot|-xml] 
       [-param <param_name>=<pCram_value>]
       [-param_file <file_name>] [<alias>] - 
       Show the execution plan to compute the alias or for entire script.
       -script - Explain the entire script.
       -out - Store the output into directory rather than print to stdout.
       -brief - Don't expand nested plans (presenting a smaller graph for overview).
       -dot - Generate the output in .dot format. Default is text format.
       -xml - Generate the output in .xml format. Default is text format.
       -param <param_name - See parameter substitution for details.
       -param_file <file_name> - See parameter substitution for details.
       alias - Alias to explain.
       dump <alias> - Compute the alias and writes the results to stdout.

Utility Commands: exec [-param <param_name>=param_value] [-param_file <file_name>] <script> -
       Execute the script with access to grunt environment including aliases.
       -param <param_name - See parameter substitution for details.
       -param_file <file_name> - See parameter substitution for details.
       script - Script to be executed.
    run [-param <param_name>=param_value] [-param_file <file_name>] <script> -
       Execute the script with access to grunt environment.
		 -param <param_name - See parameter substitution for details.         
       -param_file <file_name> - See parameter substitution for details.
       script - Script to be executed.
    sh  <shell command> - Invoke a shell command.
    kill <job_id> - Kill the hadoop job specified by the hadoop job id.
    set <key> <value> - Provide execution parameters to Pig. Keys and values are case sensitive.
       The following keys are supported:
       default_parallel - Script-level reduce parallelism. Basic input size heuristics used 
       by default.
       debug - Set debug on or off. Default is off.
       job.name - Single-quoted name for jobs. Default is PigLatin:<script name>     
       job.priority - Priority for jobs. Values: very_low, low, normal, high, very_high.
       Default is normal stream.skippath - String that contains the path.
       This is used by streaming any hadoop property.
    help - Display this message.
    history [-n] - Display the list statements in cache.
       -n Hide line numbers.
    quit - Quit the grunt shell. 

历史命令

此命令显示自调用 Grunt sell 以来迄今为止执行/使用的语句列表。

用法

假设自从打开 Grunt shell 以来我们已经执行了三个语句。

grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',');
 
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',');
 
grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',');
 

然后,使用历史命令将产生以下输出。

grunt> history

customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(','); 
  
orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',');
   
student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',');
 

设置命令

set命令用于显示 Pig 中使用的键/为其分配值。

用法

使用此命令,您可以为以下键设置值。

钥匙 描述和值
默认并行 您可以通过将任何整数作为值传递给此键来设置映射作业的减速器数量。
调试 您可以通过将 on/off 传递给此键来关闭或打开 Pig 中的调试功能。
职位名称 您可以通过向此键传递字符串值来将作业名称设置为所需的作业。
工作优先级

您可以通过将以下值之一传递给此键来设置作业的作业优先级 -

  • 非常低
  • 低的
  • 普通的
  • 高的
  • 很高
流.跳过路径 对于流式传输,您可以通过将所需路径以字符串形式传递给此键来设置不传输数据的路径。

退出命令

您可以使用此命令从 Grunt shell 退出。

用法

从 Grunt shell 退出,如下所示。

grunt> quit

现在让我们看一下可以从 Grunt shell 控制 Apache Pig 的命令。

执行命令

使用exec命令,我们可以从 Grunt shell 执行 Pig 脚本。

句法

下面给出了实用程序命令exec的语法。

grunt> exec [–param param_name = param_value] [–param_file file_name] [script]

例子

假设HDFS的/pig_data/目录下有一个名为student.txt的文件,其内容如下。

学生.txt

001,Rajiv,Hyderabad
002,siddarth,Kolkata
003,Rajesh,Delhi

并且,假设我们在HDFS的/pig_data/目录中有一个名为sample_script.pig的脚本文件,其内容如下。

样本脚本.pig

student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',') 
   as (id:int,name:chararray,city:chararray);
  
Dump student;

现在,让我们使用exec命令从 Grunt shell 执行上述脚本,如下所示。

grunt> exec /sample_script.pig

输出

exec命令执行sample_script.pig中的脚本。按照脚本中的指示,它将Student.txt文件加载到 Pig 中,并为您提供显示以下内容的 Dump 运算符的结果。

(1,Rajiv,Hyderabad)
(2,siddarth,Kolkata)
(3,Rajesh,Delhi) 

杀命令

您可以使用此命令从 Grunt shell 终止作业。

句法

下面给出了kill命令的语法。

grunt> kill JobId

例子

假设有一个正在运行的 Pig 作业,其 ID 为Id_0055 ,您可以使用Kill命令从 Grunt shell 中终止它,如下所示。

grunt> kill Id_0055

运行命令

您可以使用run命令从 Grunt shell 运行 Pig 脚本

句法

下面给出了运行命令的语法。

grunt> run [–param param_name = param_value] [–param_file file_name] script

例子

假设HDFS的/pig_data/目录下有一个名为student.txt的文件,其内容如下。

学生.txt

001,Rajiv,Hyderabad
002,siddarth,Kolkata
003,Rajesh,Delhi

并且,假设我们在本地文件系统中有一个名为sample_script.pig的脚本文件,其中包含以下内容。

样本脚本.pig

student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING
   PigStorage(',') as (id:int,name:chararray,city:chararray);

现在,让我们使用 run 命令从 Grunt shell 运行上述脚本,如下所示。

grunt> run /sample_script.pig

您可以使用Dump 运算符查看脚本的输出,如下所示。

grunt> Dump;

(1,Rajiv,Hyderabad)
(2,siddarth,Kolkata)
(3,Rajesh,Delhi)

注意- execrun命令之间的区别在于,如果我们使用run,则脚本中的语句在命令历史记录中可用。