HTAP 是 Gartner 在 2014 年提出的概念,是为满足实时性业务分析场景而存在的融合型数据库,可以同时支持 OLTP 和 OLAP 场景,在一份数据上保证事务的同时支持实时分析,也省去费时的 ETL 过程。
现代数据栈是近几年刚刚兴起的一个概念,通常是指一系列围绕数据仓库而构建的、目的为简化数据集成的工具,其根本出发点是节省工程师和分析师的时间。
这两者的联系可谓是微弱而又密切。微弱在于概念层面,密切则体现在实践落地中。
“现代数据栈是云上数据中台架构的新一代提法,但它的定义并未包含融合型数据库体系。”矩阵起源资深研发工程师徐鹏指出,HTAP 实际上并不包含在现代数据栈概念体系中。
但纵观二者的最终目标,其实都是为了解决新时代海量数据带来的系列问题。而数据的存储和应用成为企业决策的重要依据,HTAP 浪潮势不可挡。同时现代数据栈必然也是当下传统数据栈更新中的重要路径。两者相融,势必有益于新一代的数据存储、处理、分析等。
因此,徐鹏在刚刚过去的 GOTC 2023 峰会上,以 HTAP 为例,探讨了现代数据栈应用架构及场景演进的相关内容。
现代数据栈要求下的 HTAP
徐鹏介绍,现代数据栈的核心特征是以云数据仓库为核心,数据管理更简单,具体表现在数据库的云原生化,以及从 ETL 到 ELT 的变化。
HTAP 在业务中台的场景中,作为支持 AP 的 TP,不需要复杂的 Transformer,同时分析面向的是 Operational 类,可以应对高并发、实时场景。在数据中台或离线运营业务中台中,作为支持 TP 的 AP,其事务的主要目的在于保证可靠性和实时更新能力,不需要对事务过度设计影响分析性能,而最终对标的产品主要是各类实时 OLAP。面对 TP+AP 结合的场景,则需要内置 Transformer 能力(增量物化视图)——HSTAP,其核心价值是实时化与简化,如云上内置 ELT 替代多项 Pipeline,云下内置 ELT 解决端到端的实时一致性。
在 HTAP 本身的特质之上,徐鹏介绍,实时现代数据栈要求下的 HTAP 需要具备覆盖云原生、Transformers、多云三方面的相关特性。具体如下图所示:
MatrixOne 现状和演进
为了能如何打造一款 HTAP 数据库,适应未来的变化,矩阵起源打造了一款开源的超融合 HTAP 云原生数据库 MatrixOne。MatrixOne 与业内诸多数据库产品非常不同的点是,MatrixOne 的自研之路是从第一行代码开始的。MatrixOne 的目标是打造一款极简、高扩展性、高灵活性、高性价比的全新数据库。
在过去的两年里,MatrixOne 经历了一次架构的演进。早期,MatrixOne 更多的是承载了研发团队早期的探索和研究,通过实验架构,逐步探索出一条面向未来的架构。随着开发进度的不断推进,旧架构的问题开始凸显出来,主要集中在拓展性不足、性能问题、成本问题。
这三大难题让 MatrixOne 团队开始思考,到底什么样的架构才能满足未来 HTAP 的需求。最终他们决定重构存算体系,具体从 4 个方面展开:
● 同时从 Share Nothing 迁移到云原生架构
● 从 Append Only 存储切换到 TAE
● 重写计算引擎(TPCC/TPCH 可同时执行)
● 删除 40 万行,新增 30 万行,累计 50 万行代码
最终,历时 12 个月,1.0 新版本在 2023 年 GA。新的 MatrixOne 实现了从存算一体到计算、事务、存储三层解耦;从多引擎到单一 TAE 的 HTAP 融合引擎;从因子化算法到 DAG 的计划构建;从多副本存储到对象存储与 Logtail 的引入;灵活调整节点分配带来的资源隔离。
徐鹏总结,HTAP 本身应该从现代数据栈升级到实时现代数据栈;具体来看,TP/AP 不是 HTAP 的核心,T(Transformer)才是 HTAP 成功的关键;此外,云原生数据库天然可以降低数据栈的复杂度。
在生态圈中成长
MatrixOne 是一款面向未来的超融合异构云原生数据库管理系统。通过全新设计和研发的统一分布式数据库引擎,能够同时灵活支持OLTP、OLAP、Streaming等不同工作负载的数据管理和应用,用户可以在公有云、自建数据中心和边缘节点上无缝部署和运行。
为了能够让更多开发者参与到 MatrixOne 项目中来,与开发者进行交流和互动,矩阵起源还在 GOTC 大会现场设立了展台,全方位展示 MatrixOne 的优秀性能和丰富的实例。期待更多开发者能够加入 MatrixOne 的生态圈,不断推动 MatrixOne 的发展壮大。
此外,矩阵起源全新推出 MatrixOne Beta Program 计划,希望与客户、用户一起持续提升 MatrixOne 产品和性能体验优化。加入 MatrixOne Beta Program,可以享受到新功能内测权益、产品设计参与权益、新功能本地环境优先测试权益、开发过程的直接发言权益、专家端到端专业支持权益。无论是对开源感兴趣的开发者,还是对现代数据栈、HTAP 数据库感兴趣的开发者,加入一个开源社区共同成长,现在正是行动时刻!
全球开源技术峰会(Global Open-source Technology Conference),简称 GOTC,是由开放原子开源基金会、上海浦东软件园、Linux 基金会亚太区和开源中国联合发起的,面向全球开发者的一场盛大开源技术盛宴。 5 月 27 日至 28 日,GOTC 2023 于上海张江科学会堂举办为期 2 天的开源行业盛会。大会以行业展览、主题发言、专题论坛、开源市集的形式展现,与会者一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及开源社区、AIGC、汽车软件、AI 编程、开源教育培训、云原生等热门话题,探讨开源未来,助力开源发展。
回顾峰会精彩内容,请访问: https://gotc.oschina.net/