roman_日积跬步-终至千里

roman_日积跬步-终至千里

比较总览

一. Data Processing Architectures

数据处理架构被设计为处理数据摄入、处理、以及存储大数据量。这使得组织可以从数据中分析、抽取出有价值的洞察,这帮助他们提高决策,优化操作以及驱动生长。

如下有lamba和kappa架构,都可用于处理不同类型的数据。企业需要考虑他们的数据处理需求,以便找到合适的架构来实现他们的目标和需求。

 

1. Lambda Architecture

1.1. 架构说明

lambda架构提供了一个用于处理大数据的可拓展、容错和灵活的系统,这是Nathan Marz在2011提出的,主要用于解决处理实时需求。

lamba架构使用两个处理系统来处理实时和离线任务。离线系统处理批数据,并存储在例如数据仓库,或分布式文件系统中。实时系统用于处理实时数据,并存储在分布式数据层。

【大数据架构(3)】Lambda vs. Kappa Architecture-选择你需要的架构-LMLPHP

 

lamba架构中,有四层,用于处理和存储大数据,如下:

a. Data Ingestion Layer

这层用于收集和存储数据,比如log日志,传感器、消息队列和API等。数据通常是实时摄取的,并同时被送入批处理层和速度层。

 

b. Batch Layer (Batch processing)

批处理层用于处理大数据并存储到数据仓库、或分布式文件系统中。此层可以使用hadoop或spark来处理数据。批处理层用于处理大数据,并提供所有数据的完整视图。

 

c. Speed Layer (Real-Time Data Processing)

速度层用于处理实时数据,并存储到例如消息队列或者NoSQL数据库中。此层可以使用FLink或storm。流数据层用于处理大数据流,并提供最新的数据视图。

d. Serving Layer

服务层是 Lambda 架构的一个组件,负责实时向用户提供查询结果。通常作为批处理层和流处理层之上的一层实现。它通过查询层访问,该层允许用户使用查询语言(例如 SQL 或 Apache Hive 的 HiveQL)查询数据。

服务层旨在提供快速可靠的访问查询结果的能力,无论数据是从批处理还是流处理层访问。它通常使用分布式数据存储,如 NoSQL 数据库或分布式缓存,来存储查询结果并实时向用户提供。

服务层是 Lambda 架构的重要组成部分,因为它允许用户以一致的方式访问数据,而不受底层数据处理架构的影响。它还在支持实时应用程序方面发挥着关键作用,例如需要快速访问最新数据的仪表板和分析应用程序。

 

1.2. Lambda Architecture的优缺点

优点:

 

缺点:

 

1.3. 使用案例

Lambda 架构是一种适用于各种数据处理工作负载的数据处理架构。

 

2. Kappa Architecture

2.1. Kappa Architecture特点

Kappa 架构是一种数据处理架构,旨在为实时处理大量数据提供可伸缩、容错和灵活的系统。它作为 Lambda 架构的一种替代方案而开发,Lambda 架构使用两个独立的数据处理系统来处理不同类型的数据处理工作负载。

与 Lambda 不同,Kappa 架构使用单一的数据处理系统来处理批处理和流处理工作负载,因为它将所有内容都视为流。这使其能够提供更简化、更流畅的数据处理管道,同时仍然能够快速可靠地访问查询结果。

【大数据架构(3)】Lambda vs. Kappa Architecture-选择你需要的架构-LMLPHP

 

Speed Layer (Stream Layer)

在 Kappa 架构中,只有一个主要层:流处理层。该层负责收集、处理和存储实时流数据。

您可以将其视为 Lambda 方法的演进,去除了批处理系统。通常使用流处理引擎实现,如 Apache Flink、Apache Storm、Apache Kinesis、Apache Kafka(或许多其他流处理框架),旨在处理高容量的数据流并快速可靠地提供。

在 Kappa 架构中,流处理层分为两个主要组件:摄取组件和处理组件。

【大数据架构(3)】Lambda vs. Kappa Architecture-选择你需要的架构-LMLPHP

 

2.2. 优缺点

优点:

缺点:

【大数据架构(3)】Lambda vs. Kappa Architecture-选择你需要的架构-LMLPHP

 

2.3. 使用场景

a. 大量实时场景

Kappa 架构是一种数据处理架构,旨在为实时处理大量数据提供灵活、容错和可扩展的架构。它非常适用于各种实时数据处理、机器学习模型和实时数据分析、物联网系统等许多使用情况,都可以通过单一技术堆栈实现。

【大数据架构(3)】Lambda vs. Kappa Architecture-选择你需要的架构-LMLPHP
 

b. 实时数仓

【大数据架构(3)】Lambda vs. Kappa Architecture-选择你需要的架构-LMLPHP

和lambda架构相比,kappa架构没有离线数仓,通过kafka实现了实时数仓。kafka的存储代替了lambda架构中的批处理部分。

此架构优点:

 

此架构缺点:

 

二. Comparison of Lambda and Kappa Architectures

1. Data Processing Systems

 

2. Data Storage

 

3. Complexity

然而,Kappa 架构需要一种思维方式的转变,将所有数据都视为流,并且需要对流处理和分布式系统有丰富的经验

 

三. The Importance of Choosing the Right Data Processing Architecture for a Business

数据处理架构的选择对企业至关重要,因为它影响数据处理管道的可伸缩性、性能和灵活性。企业选择一种满足其特定需求的大数据架构,并在做出决策之前仔细考虑每种选择的优缺点是非常重要的。

 

参考:
https://nexocode.com/blog/posts/lambda-vs-kappa-architecture/

02-29 06:00