- Apache Storm 教程
- Apache Storm - 主页
- Apache Storm - 简介
- Apache Storm - 核心概念
- Apache Storm - 集群架构
- Apache Storm - 工作流程
- Storm - 分布式消息系统
- Apache Storm - 安装
- Apache Storm - 工作示例
- Apache Storm - 三叉戟
- Twitter 中的 Apache Storm
- 雅虎中的Apache Storm!金融
- Apache Storm - 应用程序
- Apache Storm 有用资源
- Apache Storm - 快速指南
- Apache Storm - 有用的资源
- Apache Storm - 讨论
Apache Storm - 工作示例
我们已经了解了 Apache Storm 的核心技术细节,现在是时候编写一些简单的场景了。
场景 – 移动呼叫日志分析器
移动呼叫及其持续时间将作为 Apache Storm 的输入给出,Storm 将处理和分组同一呼叫者和接收者之间的呼叫及其呼叫总数。
喷口创建
Spout是一个用于数据生成的组件。基本上,spout 将实现 IRichSpout 接口。“IRichSpout”接口有以下重要方法 -
open - 为 spout 提供执行环境。执行器将运行此方法来初始化 spout。
nextTuple - 通过收集器发出生成的数据。
close - 当 spout 将要关闭时调用此方法。
declareOutputFields - 声明元组的输出模式。
ack - 确认特定元组已被处理
failed - 指定特定元组不被处理并且不被重新处理。
打开
open方法的签名如下 -
open(Map conf, TopologyContext context, SpoutOutputCollector collector)
conf - 提供此 spout 的风暴配置。
context - 提供有关拓扑中 spout 位置、其任务 ID、输入和输出信息的完整信息。
收集器- 使我们能够发出将由螺栓处理的元组。
下一个元组
nextTuple方法的签名如下 -
nextTuple()
nextTuple() 从与 ack() 和 failed() 方法相同的循环中定期调用。当没有工作可做时,它必须释放线程的控制权,以便其他方法有机会被调用。因此 nextTuple 的第一行检查处理是否已完成。如果是这样,它应该在返回之前Hibernate至少一毫秒以减少处理器的负载。
关闭
close方法的签名如下 -
close()
声明输出字段
declareOutputFields方法的签名如下 -
declareOutputFields(OutputFieldsDeclarer declarer)
声明者- 用于声明输出流 ID、输出字段等。
该方法用于指定元组的输出模式。
确认
ack方法的签名如下 -
ack(Object msgId)
该方法确认特定元组已被处理。
失败
nextTuple方法的签名如下 -
ack(Object msgId)
此方法通知特定元组尚未完全处理。Storm 将重新处理特定的元组。
FakeCallLogReaderSpout
在我们的场景中,我们需要收集通话记录详细信息。通话记录包含的信息。
- 来电号码
- 接收者号码
- 期间
由于我们没有通话记录的实时信息,因此我们会生成虚假的通话记录。虚假信息将使用 Random 类创建。下面给出完整的程序代码。
编码 - FakeCallLogReaderSpout.java
import java.util.*;
//import storm tuple packages
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;
//import Spout interface packages
import backtype.storm.topology.IRichSpout;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.spout.SpoutOutputCollector;
import backtype.storm.task.TopologyContext;
//Create a class FakeLogReaderSpout which implement IRichSpout interface
to access functionalities
public class FakeCallLogReaderSpout implements IRichSpout {
//Create instance for SpoutOutputCollector which passes tuples to bolt.
private SpoutOutputCollector collector;
private boolean completed = false;
//Create instance for TopologyContext which contains topology data.
private TopologyContext context;
//Create instance for Random class.
private Random randomGenerator = new Random();
private Integer idx = 0;
@Override
public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
this.context = context;
this.collector = collector;
}
@Override
public void nextTuple() {
if(this.idx <= 1000) {
List<String> mobileNumbers = new ArrayList<String>();
mobileNumbers.add("1234123401");
mobileNumbers.add("1234123402");
mobileNumbers.add("1234123403");
mobileNumbers.add("1234123404");
Integer localIdx = 0;
while(localIdx++ < 100 && this.idx++ < 1000) {
String fromMobileNumber = mobileNumbers.get(randomGenerator.nextInt(4));
String toMobileNumber = mobileNumbers.get(randomGenerator.nextInt(4));
while(fromMobileNumber == toMobileNumber) {
toMobileNumber = mobileNumbers.get(randomGenerator.nextInt(4));
}
Integer duration = randomGenerator.nextInt(60);
this.collector.emit(new Values(fromMobileNumber, toMobileNumber, duration));
}
}
}
@Override
public void declareOutputFields(OutputFieldsDeclarer declarer) {
declarer.declare(new Fields("from", "to", "duration"));
}
//Override all the interface methods
@Override
public void close() {}
public boolean isDistributed() {
return false;
}
@Override
public void activate() {}
@Override
public void deactivate() {}
@Override
public void ack(Object msgId) {}
@Override
public void fail(Object msgId) {}
@Override
public Map<String, Object> getComponentConfiguration() {
return null;
}
}
螺栓创建
Bolt 是一个将元组作为输入、处理元组并生成新元组作为输出的组件。Bolts 将实现IRichBolt接口。在这个程序中,使用了两个bolt类CallLogCreatorBolt和CallLogCounterBolt来执行操作。
IRichBolt 接口有以下方法 -
准备- 为螺栓提供要执行的环境。执行器将运行此方法来初始化 spout。
执行- 处理单个输入元组。
cleanup - 当螺栓将要关闭时调用。
declareOutputFields - 声明元组的输出模式。
准备
准备方法的签名如下 -
prepare(Map conf, TopologyContext context, OutputCollector collector)
conf - 提供此螺栓的风暴配置。
context - 提供有关拓扑中螺栓位置、其任务 ID、输入和输出信息等的完整信息。
收集器- 使我们能够发出处理后的元组。
执行
执行方法的签名如下 -
execute(Tuple tuple)
这里的tuple是要处理的输入元组。
执行方法一次处理一个元组。可以通过Tuple类的getValue方法访问元组数据。不必立即处理输入元组。可以处理多个元组并将其输出为单个输出元组。可以使用 OutputCollector 类发出处理后的元组。
清理
清理方法的签名如下 -
cleanup()
声明输出字段
declareOutputFields方法的签名如下 -
declareOutputFields(OutputFieldsDeclarer declarer)
这里参数声明器用于声明输出流id、输出字段等。
该方法用于指定元组的输出模式
通话记录创建者 Bolt
呼叫日志创建者 Bolt 接收呼叫日志元组。通话记录元组包含呼叫者号码、接收者号码和通话时长。该螺栓只是通过组合呼叫者号码和接收者号码来创建一个新值。新值的格式为“主叫号码-接收号码”,并命名为新字段“call”。完整的代码如下。
编码 - CallLogCreatorBolt.java
//import util packages
import java.util.HashMap;
import java.util.Map;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;
import backtype.storm.task.OutputCollector;
import backtype.storm.task.TopologyContext;
//import Storm IRichBolt package
import backtype.storm.topology.IRichBolt;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.tuple.Tuple;
//Create a class CallLogCreatorBolt which implement IRichBolt interface
public class CallLogCreatorBolt implements IRichBolt {
//Create instance for OutputCollector which collects and emits tuples to produce output
private OutputCollector collector;
@Override
public void prepare(Map conf, TopologyContext context, OutputCollector collector) {
this.collector = collector;
}
@Override
public void execute(Tuple tuple) {
String from = tuple.getString(0);
String to = tuple.getString(1);
Integer duration = tuple.getInteger(2);
collector.emit(new Values(from + " - " + to, duration));
}
@Override
public void cleanup() {}
@Override
public void declareOutputFields(OutputFieldsDeclarer declarer) {
declarer.declare(new Fields("call", "duration"));
}
@Override
public Map<String, Object> getComponentConfiguration() {
return null;
}
}
通话记录 计数器螺栓
呼叫日志计数器 Bolt 以元组形式接收呼叫及其持续时间。该bolt在prepare方法中初始化一个字典(Map)对象。在执行方法中,它检查元组,并为元组中的每个新“调用”值在字典对象中创建一个新条目,并在字典对象中设置值 1。对于字典中已经可用的条目,它只是增加其值。简单来说,这个 Bolt 将调用及其计数保存在字典对象中。我们还可以将其保存到数据源中,而不是将调用及其计数保存在字典中。完整的程序代码如下 -
编码 - CallLogCounterBolt.java
import java.util.HashMap;
import java.util.Map;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;
import backtype.storm.task.OutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.IRichBolt;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.tuple.Tuple;
public class CallLogCounterBolt implements IRichBolt {
Map<String, Integer> counterMap;
private OutputCollector collector;
@Override
public void prepare(Map conf, TopologyContext context, OutputCollector collector) {
this.counterMap = new HashMap<String, Integer>();
this.collector = collector;
}
@Override
public void execute(Tuple tuple) {
String call = tuple.getString(0);
Integer duration = tuple.getInteger(1);
if(!counterMap.containsKey(call)){
counterMap.put(call, 1);
}else{
Integer c = counterMap.get(call) + 1;
counterMap.put(call, c);
}
collector.ack(tuple);
}
@Override
public void cleanup() {
for(Map.Entry<String, Integer> entry:counterMap.entrySet()){
System.out.println(entry.getKey()+" : " + entry.getValue());
}
}
@Override
public void declareOutputFields(OutputFieldsDeclarer declarer) {
declarer.declare(new Fields("call"));
}
@Override
public Map<String, Object> getComponentConfiguration() {
return null;
}
}
创建拓扑
Storm 拓扑基本上是 Thrift 结构。TopologyBuilder 类提供了简单易用的方法来创建复杂的拓扑。TopologyBuilder 类具有设置 spout (setSpout)和设置 Bolt (setBolt)的方法。最后,TopologyBuilder有createTopology来创建拓扑。使用以下代码片段创建拓扑 -
TopologyBuilder builder = new TopologyBuilder();
builder.setSpout("call-log-reader-spout", new FakeCallLogReaderSpout());
builder.setBolt("call-log-creator-bolt", new CallLogCreatorBolt())
.shuffleGrouping("call-log-reader-spout");
builder.setBolt("call-log-counter-bolt", new CallLogCounterBolt())
.fieldsGrouping("call-log-creator-bolt", new Fields("call"));
shuffleGrouping和fieldsGrouping方法有助于为 spout 和 Bolt 设置流分组。
本地集群
出于开发目的,我们可以使用“LocalCluster”对象创建本地集群,然后使用“LocalCluster”类的“submitTopology”方法提交拓扑。“submitTopology”的参数之一是“Config”类的实例。“Config”类用于在提交拓扑之前设置配置选项。该配置选项将在运行时与集群配置合并,并使用prepare方法发送到所有任务(spout和bolt)。一旦拓扑被提交到集群,我们将等待10秒让集群计算提交的拓扑,然后使用“LocalCluster”的“shutdown”方法关闭集群。完整的程序代码如下 -
编码 - LogAnalyserStorm.java
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;
//import storm configuration packages
import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.topology.TopologyBuilder;
//Create main class LogAnalyserStorm submit topology.
public class LogAnalyserStorm {
public static void main(String[] args) throws Exception{
//Create Config instance for cluster configuration
Config config = new Config();
config.setDebug(true);
//
TopologyBuilder builder = new TopologyBuilder();
builder.setSpout("call-log-reader-spout", new FakeCallLogReaderSpout());
builder.setBolt("call-log-creator-bolt", new CallLogCreatorBolt())
.shuffleGrouping("call-log-reader-spout");
builder.setBolt("call-log-counter-bolt", new CallLogCounterBolt())
.fieldsGrouping("call-log-creator-bolt", new Fields("call"));
LocalCluster cluster = new LocalCluster();
cluster.submitTopology("LogAnalyserStorm", config, builder.createTopology());
Thread.sleep(10000);
//Stop the topology
cluster.shutdown();
}
}
构建并运行应用程序
完整的应用程序有四个 Java 代码。他们是 -
- FakeCallLogReaderSpout.java
- CallLogCreaterBolt.java
- CallLogCounterBolt.java
- LogAnalyerStorm.java
可以使用以下命令构建应用程序 -
javac -cp “/path/to/storm/apache-storm-0.9.5/lib/*” *.java
该应用程序可以使用以下命令运行 -
java -cp “/path/to/storm/apache-storm-0.9.5/lib/*”:. LogAnalyserStorm
输出
一旦应用程序启动,它将输出有关集群启动过程、spout 和 Bolt 处理以及最后集群关闭过程的完整详细信息。在“CallLogCounterBolt”中,我们打印了呼叫及其计数详细信息。此信息将显示在控制台上,如下所示 -
1234123402 - 1234123401 : 78 1234123402 - 1234123404 : 88 1234123402 - 1234123403 : 105 1234123401 - 1234123404 : 74 1234123401 - 1234123403 : 81 1234123401 - 1234123402 : 81 1234123403 - 1234123404 : 86 1234123404 - 1234123401 : 63 1234123404 - 1234123402 : 82 1234123403 - 1234123402 : 83 1234123404 - 1234123403 : 86 1234123403 - 1234123401 : 93
非 JVM 语言
Storm 拓扑由 Thrift 接口实现,这使得以任何语言提交拓扑变得容易。Storm 支持 Ruby、Python 和许多其他语言。让我们看一下 python 绑定。
Python 绑定
Python 是一种通用解释型、交互式、面向对象的高级编程语言。Storm 支持Python 来实现其拓扑。Python 支持发射、锚定、确认和日志记录操作。
如您所知,螺栓可以用任何语言定义。用另一种语言编写的 Bolt 作为子进程执行,Storm 通过 stdin/stdout 使用 JSON 消息与这些子进程进行通信。首先获取支持 python 绑定的 Bolt WordCount 示例。
public static class WordCount implements IRichBolt {
public WordSplit() {
super("python", "splitword.py");
}
public void declareOutputFields(OutputFieldsDeclarer declarer) {
declarer.declare(new Fields("word"));
}
}
这里, WordCount类实现了IRichBolt接口,并使用 python 实现指定的超级方法参数“splitword.py”运行。现在创建一个名为“splitword.py”的 python 实现。
import storm
class WordCountBolt(storm.BasicBolt):
def process(self, tup):
words = tup.values[0].split(" ")
for word in words:
storm.emit([word])
WordCountBolt().run()
这是 Python 的示例实现,用于计算给定句子中的单词数。同样,您也可以与其他支持语言绑定。