Apache Flume - 配置

安装完 Flume 后，我们需要使用配置文件来配置它，该配置文件是一个具有键值对的 Java 属性文件。我们需要将值传递给文件中的键。

在 Flume 配置文件中，我们需要 -

命名当前代理的组件。
描述/配置源。
描述/配置接收器。
描述/配置通道。
将源和接收器绑定到通道。

通常我们在 Flume 中可以有多个代理。我们可以通过使用唯一的名称来区分每个代理。使用这个名称，我们必须配置每个代理。

命名组件

首先，您需要命名/列出代理的源、接收器和通道等组件，如下所示。

agent_name.sources = source_name 
agent_name.sinks = sink_name 
agent_name.channels = channel_name

Flume 支持各种源、接收器和通道。它们列于下表中。

来源	渠道	水槽
阿夫罗来源节俭源执行源 JMS源假脱机目录源 Twitter 1% 消防水带来源卡夫卡源码网猫来源序列发生器源系统日志来源系统日志 TCP 源多端口系统日志 TCP 源系统日志 UDP 源 HTTP 源应力源遗留资源 Thrift 遗留源代码自定义源抄写员来源	记忆频道 JDBC 通道卡夫卡频道文件通道可溢出内存通道伪交易通道	HDFS 接收器蜂巢水槽记录器接收器阿夫罗水槽节俭水槽 IRC 接收器文件卷水槽空水槽 HBaseSink 异步HBaseSink 吗啡啉Solr水槽弹性搜索接收器 Kite 数据集接收器卡夫卡水槽

您可以使用其中任何一个。例如，如果您使用 Twitter 源通过内存通道将 Twitter 数据传输到 HDFS 接收器，并且代理名称 id TwitterAgent，则

TwitterAgent.sources = Twitter 
TwitterAgent.channels = MemChannel 
TwitterAgent.sinks = HDFS

列出代理的组件后，您必须通过为其属性提供值来描述源、接收器和通道。

描述来源

每个源都有一个单独的属性列表。名为“type”的属性对于每个源都是通用的，它用于指定我们正在使用的源的类型。

除了属性“type”之外，还需要提供特定源的所有必需属性的值来配置它，如下所示。

agent_name.sources. source_name.type = value 
agent_name.sources. source_name.property2 = value 
agent_name.sources. source_name.property3 = value

例如，如果我们考虑twitter 源，则以下是我们必须为其提供值以对其进行配置的属性。

TwitterAgent.sources.Twitter.type = Twitter (type name) 
TwitterAgent.sources.Twitter.consumerKey =  
TwitterAgent.sources.Twitter.consumerSecret = 
TwitterAgent.sources.Twitter.accessToken =   
TwitterAgent.sources.Twitter.accessTokenSecret =

描述水槽

就像源一样，每个接收器都将有一个单独的属性列表。名为“type”的属性对于每个接收器都是通用的，它用于指定我们正在使用的接收器的类型。除了属性“type”之外，还需要为特定接收器的所有必需属性提供值以对其进行配置，如下所示。

agent_name.sinks. sink_name.type = value 
agent_name.sinks. sink_name.property2 = value 
agent_name.sinks. sink_name.property3 = value

例如，如果我们考虑HDFS sink ，则以下是我们必须提供值来配置它的属性。

TwitterAgent.sinks.HDFS.type = hdfs (type name)  
TwitterAgent.sinks.HDFS.hdfs.path = HDFS directory’s Path to store the data

描述频道

Flume 提供了各种通道在源和接收器之间传输数据。因此，除了来源和渠道之外，还需要描述代理中使用的渠道。

为了描述每个通道，您需要设置所需的属性，如下所示。

agent_name.channels.channel_name.type = value 
agent_name.channels.channel_name. property2 = value 
agent_name.channels.channel_name. property3 = value

例如，如果我们考虑内存通道，则以下是我们必须为其提供值以对其进行配置的属性。

TwitterAgent.channels.MemChannel.type = memory (type name)

将 Source 和 Sink 绑定到 Channel

由于通道连接源和接收器，因此需要将它们都绑定到通道，如下所示。

agent_name.sources.source_name.channels = channel_name 
agent_name.sinks.sink_name.channels = channel_name

以下示例显示如何将源和接收器绑定到通道。在这里，我们考虑twitter 源、内存通道和HDFS 接收器。

TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channels = MemChannel

启动 Flume 代理

配置完成后，我们必须启动Flume代理。其操作如下 -

$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf 
Dflume.root.logger=DEBUG,console -n TwitterAgent

其中 -

agent - 启动 Flume 代理的命令
--conf ,-c<conf> - 使用conf目录中的配置文件
-f<file> - 指定配置文件路径（如果缺少）
--name, -n <name> - twitter 代理的名称
-D property =value - 设置 Java 系统属性值。