- Apache Flink 教程
- Apache Flink - 主页
- Apache Flink - 大数据平台
- 批处理与实时处理
- Apache Flink - 简介
- Apache Flink - 架构
- Apache Flink - 系统要求
- Apache Flink - 设置/安装
- Apache Flink - API 概念
- Apache Flink - 表 API 和 SQL
- 创建 Flink 应用程序
- Apache Flink - 运行 Flink 程序
- Apache Flink - 库
- Apache Flink - 机器学习
- Apache Flink - 用例
- Apache Flink - Flink、Spark、Hadoop
- Apache Flink - 结论
- Apache Flink 资源
- Apache Flink - 快速指南
- Apache Flink - 有用的资源
- Apache Flink - 讨论
Apache Flink - Flink、Spark、Hadoop
这是一个综合表格,显示了三种最流行的大数据框架之间的比较:Apache Flink、Apache Spark 和 Apache Hadoop。
阿帕奇Hadoop | 阿帕奇火花 | 阿帕奇弗林克 | |
---|---|---|---|
原产地年份 |
2005年 | 2009年 | 2009年 |
发源地 |
MapReduce (谷歌) Hadoop (雅虎) | 加州大学伯克利分校 | 柏林工业大学 |
数据处理引擎 |
批 | 批 | 溪流 |
处理速度 |
比 Spark 和 Flink 慢 | 比 Hadoop 快 100 倍 | 比火花还快 |
编程语言 |
Java、C、C++、Ruby、Groovy、Perl、Python | Java、Scala、Python 和 R | Java 和 Scala |
编程模型 |
映射减少 | 弹性分布式数据集 (RDD) | 循环数据流 |
数据传输 |
批 | 批 | 流水线和批量 |
内存管理 |
基于磁盘 | JVM 管理 | 主动管理 |
潜伏 |
低的 | 中等的 | 低的 |
吞吐量 |
中等的 | 高的 | 高的 |
优化 |
手动的 | 手动的 | 自动的 |
应用程序编程接口 |
低级 | 高水平 | 高水平 |
流媒体支持 |
不适用 | 火花流 | Flink 流式传输 |
SQL支持 |
蜂巢、黑斑羚 | SparkSQL | 表 API 和 SQL |
图表支持 |
不适用 | 图X | 杰利 |
机器学习支持 |
不适用 | SparkML | FlinkML |