Apache Beam大数据批处理和流处理标准

联合创作 · 2023-09-19 02:12

Apache Beam 是 Apache 软件基金会越来越多的数据流项目中最新增添的成员，是 Google 在2016年2月份贡献给 Apache 基金会的孵化项目。

这个项目的名称表明了设计：结合了批处理（Batch）模式和数据流（Stream）处理模式。它基于一种统一模式，用于定义和执行数据并行处理管道（pipeline），这些管理随带一套针对特定语言的SDK用于构建管道，以及针对特定运行时环境的Runner用于执行管道。

Apache Beam 的主要目标是统一批处理和流处理的编程范式，为无限，乱序，web-scale的数据集处理提供简单灵活，功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义，并不涉及具体执行引擎的实现，Apache Beam希望基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上。

浏览 3

点赞

收藏

分享

举报

评论

图片

表情

Apache Beam大数据批处理和流处理标准

ApacheBeam是Apache软件基金会越来越多的数据流项目中最新增添的成员，是Google在2016年2月份贡献给Apache基金会的孵化项目。这个项目的名称表明了设计：结合了批处理（Batch

Apache Apex流和批处理引擎

Apache Apex 是一个企业级的统一流和批处理引擎。提供高度可伸缩、高性能、容错、有状态、安全

Apache Apex流和批处理引擎

ApacheApex是一个企业级的统一流和批处理引擎。提供高度可伸缩、高性能、容错、有状态、安全和分布式的大数据处理，同时操作起来非常简单容易。

summingbird流计算和批处理

twitter 开源了summingbird ，一个流计算和批处理模式的融合体，用户编写的逻辑既可以

summingbird流计算和批处理

twitter开源了summingbird，一个流计算和批处理模式的融合体，用户编写的逻辑既可以运行在 Storm 上，也可以跑在#Hadoop#上，将来还计划支持Spark。听说是#storm#和h

基于Apache Flink的流处理

带你走近Apache Flink，一个为全世界多个最大规模级别的流处理应用提供支持的开源框架。通过本

Apache Samza分布式流处理框架

Samza是近日由LinkedIn开源的一项技术，它是一个分布式流处理框架，专用于实时数据的处理，非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop，而且使用了Linked

Apache Samza分布式流处理框架

Samza是近日由LinkedIn开源的一项技术，它是一个分布式流处理框架，专用于实时数据的处理，非

基于Apache Flink的流处理

基于Apache Flink的流处理

Spring Cloud Data Flow基于微服务的分布式流处理和批处理数据通道

Spring Cloud Data Flow 是基于原生云对 Spring XD 的重新设计，该项目

点赞

收藏

分享

举报