Spark Streaming与Flink的流处理特性对比

tamoadmin 热门赛事 2024-04-25 28 0

Spark

Streaming与Flink的流处理特性对比

编程模型

Spark

Streaming的编程模型主要基于DAG（Directed

Acyclic

Graph），即有向无环图。在运行时，Spark

Streaming会不断地接收输入的数据流，然后根据程序配置的时间，将时间范围内的所有数据打成一个RDD（弹性分布式数据集），发送给Spark

Core去进行处理。这种方式使得Spark

Streaming能够进行复杂的数据处理，支持从多种数据源获取数据。

相比之下，Flink的编程模型则是基于事件驱动的。事件可以理解为消息，应用程序会从一个或者多个流中注入事件，通过触发计算更新状态，或外部动作对注入的事件作出反应。Flink的本质只有stream的概念，batch被认为是special

stream。

任务调度

Spark

Streaming的任务调度主要包括Master和Worker两个角色。Master主要负责整体集群资源的管理和应用程序调度，而Worker则负责单个节点的资源管理，包括driver和executor的启动等。Driver是用户入口程序执行的地方，主要负责DAG生成、stage划分、task生成及调度，而Executor则负责执行task，反馈执行状态和执行结果。

Flink的运行时角色主要包括Jobmanager和Taskmanager。Jobmanager负责接收FlinkJob，调度组成Job的多个Task的执行，以及协调Task做checkpoint等。Taskmanager则是实际负责执行计算的Worker，其上执行FlinkJob的一组Task。每个TaskManager负责管理其所在节点上的资源信息，如内存、磁盘、网络。