- Apache Flink 教程
- Apache Flink - 主页
- Apache Flink - 大数据平台
- 批处理与实时处理
- Apache Flink - 简介
- Apache Flink - 架构
- Apache Flink - 系统要求
- Apache Flink - 设置/安装
- Apache Flink - API 概念
- Apache Flink - 表 API 和 SQL
- 创建 Flink 应用程序
- Apache Flink - 运行 Flink 程序
- Apache Flink - 库
- Apache Flink - 机器学习
- Apache Flink - 用例
- Apache Flink - Flink、Spark、Hadoop
- Apache Flink - 结论
- Apache Flink 资源
- Apache Flink - 快速指南
- Apache Flink - 有用的资源
- Apache Flink - 讨论
Apache Flink - 批处理与实时处理
就大数据而言,有两种类型的处理 -
- 批量处理
- 实时处理
基于一段时间内收集的数据的处理称为批处理。例如,银行经理想要处理过去 1 个月的数据(随着时间的推移收集),以了解过去 1 个月内被取消的支票数量。
基于即时数据以获得即时结果的处理称为实时处理。例如,银行经理在欺诈交易(即时结果)发生后立即收到欺诈警报。
下表列出了批处理和实时处理之间的差异 -
批量处理 | 实时处理 |
---|---|
静态文件 |
事件流 |
按分钟、小时、天等定期处理。 |
立即处理 纳秒 |
磁盘存储上的过去数据 |
内存存储 |
示例 - 账单生成 |
示例 - ATM 交易警报 |
如今,每个组织都大量使用实时处理。欺诈检测、医疗保健实时警报和网络攻击警报等用例需要实时处理即时数据;即使是几毫秒的延迟也会产生巨大的影响。
对于这种实时用例来说,一种理想的工具是能够以流而非批的形式输入数据的工具。Apache Flink 就是那个实时处理工具。