近日,由中国软件行业协会主办的“中国程序员节”在北京、深圳、宁波多地同时召开,其中数据库技术高峰论坛在北京举办,偶数科技亮相本次论坛并分享了题为《大模型、实时需求推动湖仓平台走向开放》的主题演讲。
国际局势复杂、科技竞争加速,数据库作为科技发展的根技术之一,在信息管理、决策支持、数据挖掘等方面的重要性日益凸显。为了进一步推动国产数据库技术的发展和应用,本次论坛汇聚了业界专家、学者,围绕多模态、分布式、国产迁移、湖仓一体、开源社区等数据库技术话题开展交流与探讨,增进广大程序员对前沿新技术及应用的深入了解,拓展知识深度。
当下,AI和实时场景的需求不断扩展,AI+实时俨然成为了企业数据平台无法避免的技术焦点。偶数市场总监杨哲就如何让企业如何通过开放的数据平台拥抱AI+实时的双重能力,进行了分享。
偶数给出的破局之道首先是在数据的存储方面采用开放格式的一份数据(如Parquet、ORC、Hudi等)。各个计算引擎都使用开放的数据格式,数据以开放文件格式被写入数据平台,之后就能被多个引擎多次直接读取和使用。
有了存储的开放性,在计算引擎方面,可以尽量优化和减少计算引擎的数量,并针对结构化数据、非结构化数据和流式数据,选用各具优势的计算引擎:
针对流数据的计算,采用常见的Flink;
针对非结构化数据和机器学习,可以采用Spark;
针对结构化数据,需要兼容开放数据格式,兼顾实时查询、离线分析、高并发和高可用的分析引擎,比如偶数的OushuDB。
至此,开放格式,一份数据,多个引擎的架构初步形成,这样的“一数多擎”架构形成了可以破局当前企业数据困境的方案——实时湖仓(Realtime Lakehouse)。“一数多擎”是偶数在多个行业的湖仓一体项目落地中不断迭代的最佳实践,企业在选择多个引擎时一定需要基于“化繁为简”和“扬长避短”原则。