发布于 : Nov 05, 2025
Nov 2025
试验
Apache Paimon 是一种开源数据湖格式,旨在支持 数据湖仓一体架构。它可与 Flink 和 Spark 等处理引擎无缝集成,支持流处理与批处理操作。Paimon架构的一大核心优势在于将标准数据湖格式与 LSM (日志结构合并树) 结构相融合。这一组合解决了数据湖在高性能更新和低延迟读取方面的传统难题。 Paimon 支持主键表以实现高吞吐、实时更新,并内置可定制的合并引擎,支持去重、部分更新和聚合。这一设计使得在数据湖中直接进行高效的流数据写入及可变状态管理成为可能。除此之外,Paimon 还提供成熟的数据湖能力,包括可扩展的元数据、ACID 事务、时间穿梭、模式演进,以及通过压缩与 Z-ordering 实现的优化数据布局。我们建议在需要统一存储层以实现高效处理大规模追加式数据和复杂实时流更新的项目中评估使用 Paimon。