简体中文

2024

Apache 社区

存储

hadoop
hbase

权限

ranger

数据血缘

atlas

调度

消息队列

kafka
pulsar

数据集成

计算引擎

计算中间件

数据湖

hudi
iceberg
paimon
delta。非 apache 项目。
XTable。原 OneTable 项目，进入 apache 孵化更名为 XTable
openhouse。非 apache 项目。湖仓的表控制面
amoro。网易开源，数据湖管理系统

文章列表

一文详细对比三大数据湖产品-Hudi，Delta Lake ，Iceberg
当流计算邂逅数据湖：Paimon 的前生今世。里面有非常好的 iceberg、hudi 的分析，Flink 先是做了与 iceberg 和 hudi 的集成后，发现流式数仓目标依然遥远，开始探索新的数据湖，后面才有了 paimon。
构建 Streaming Lakehouse：使用 Paimon 和 Hudi 的性能对比。基于阿里云 EMR 和 spark 的一个使用对比
paimon 系列文章
- 基于 Apache Paimon 的 Append 表处理。对于 paimon 的 append 表应用场景做了非常细致的介绍
- 快速上手使用 Paimon MySQL CDC
- Apache Paimon CDC集成|Kafka篇
- 流式数据湖 Paimon 0.7 的研发进展
hudi 系列文章
其他
- 数据存储中的z-ordering与Partitioning
- 几张图弄懂 Z-order clustering

数据平台

streampark
amoro。正在走 apache 孵化流程
nifi
zeppelin

数据格式

avro
orc
parquet
arrow
fury。蚂蚁开源的数据序列化框架

shuffle 服务

OLAP

文章列表

目录