Apache Flink - 批处理与实时处理


就大数据而言,有两种类型的处理 -

  • 批量处理
  • 实时处理

基于一段时间内收集的数据的处理称为批处理。例如,银行经理想要处理过去 1 个月的数据(随着时间的推移收集),以了解过去 1 个月内被取消的支票数量。

基于即时数据以获得即时结果的处理称为实时处理。例如,银行经理在欺诈交易(即时结果)发生后立即收到欺诈警报。

下表列出了批处理和实时处理之间的差异 -

批量处理 实时处理

静态文件

事件流

按分钟、小时、天等定期处理。

立即处理

纳秒

磁盘存储上的过去数据

内存存储

示例 - 账单生成

示例 - ATM 交易警报

如今,每个组织都大量使用实时处理。欺诈检测、医疗保健实时警报和网络攻击警报等用例需要实时处理即时数据;即使是几毫秒的延迟也会产生巨大的影响。

对于这种实时用例来说,一种理想的工具是能够以流而非批的形式输入数据的工具。Apache Flink 就是那个实时处理工具。