数据系统经典论文阅读

阅读数据系统的经典论文, 不仅能从中了解相关系统的实现原理, 更重要的是能了解系统产生的前因后果和来龙去脉. 笔者认为对于需要深入学习的系统而言, 理解其架构和实现原理固然重要, 更重要的是能够理解其产生原因, 能解决的问题以及在真实场景下的局限性, 只有了解这些才能真正将对系统的理解转化为生产力. 本合集是对笔者总结的数据系统经典论文阅读笔记的整理.

Lakehouse三驾马车

Lakehouse(湖仓一体)架构由Databricks首次提出, 它是一个通用的数据平台架构. 为了实现Lakehouse架构, 需要一个存储, 一个计算. Databricks发表了三篇论文, 分别描述Lakehouse架构, 存储引擎Delta Lake和计算引擎Photon, 笔者将其统称为Lakehouse三驾马车. 论文阅读总结如下(Photon论文总结暂未完成):

Comments

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×