“有没有一个OLAP引擎,能完美适配所有场景?”
2023年的回答依旧是“没有”。
因此,我们今年再度测评了各大主流OLAP(Online Analytical Processing,联机分析处理)数据库引擎,并于不久前发布了《OLAP数据库引擎选型白皮书》(2023),希望为企业的数据引擎选型提供客观、真实、可执行的参考,满足实际场景所需。
相较去年发布的白皮书,你将在2023版看到这些“新货”:
新增引擎测评,数据湖引擎又有何不同?
新增国内研发软硬件环境对比测评,它们在国产环境的表现究竟行不行?
测评维度再迭代!这五大行业客户最看重哪些方面?
测评八大数据引擎
数据湖引擎要“搞特殊”
在主流数据引擎(MySQL、Apache Doris、ClickHouse、Hive、TiDB等)的基础上,2023版还多了2个“新面孔”,即ClickHouseof DataKun、Hudi。其中,对于Hudi——典型的数据湖引擎代表,制定了更具针对性的测评维度。
ClickHouseof DataKun
ClickHouse是为OLAP查询而设计的开源列式数据库,允许分析实时更新的数据,以高性能为目标。
为满足UBA(增长分析)等分析云产品更高强度的分析需求,奇点云DataKun团队在ClickHouse社区版基础上进行了二次开发(我们把这个版本称为“ClickHouseof DataKun”)。
与社区版不同的是:ClickHouseof DataKun实现逻辑上更新写操作;在漏斗分析、留存分析、归因分析、间隔分析、用户圈选、用户画像等场景,该版本的性能更提升了2倍。
Hudi
ApacheHudi是一款极具代表性的事务性数据湖方案,通过强大的增量处理框架,重构了原本缓慢的传统批处理数据处理方式,从而实现低延迟、分钟级别的分析能力。
不同于传统数仓,数据湖在数据存储架构设计上更为灵活,适合处理原始的、多样化的数据。因此针对数据湖引擎,我们设计了不同的评测维度,包括离线/实时数据入湖、查询、稳定性等。
结果显示,Hudi的优势体现在:支持多数据源类型快速入湖,具备快速跨分区更新写能力,与Flink组合使用表现出了优秀的流计算能力,能有效解决历史源数据结构化存储和历史分区数据快速更新等场景痛点。
↑测评总表节选,完整版详见白皮书↑
新增国内研发软硬件环境测评
性能表现达非国内环境的90.8%以上
适配国产环境,已成为金融、政企等多个领域企业对大数据系统选型的硬性要求。然而,因操作系统、芯片架构等存在差异,同一个数据引擎在不同软硬件环境往往有不同的性能表现。
本次测评,分别选取了在数仓离线处理和查询分析领域极具代表性的Hive和ClickHouse(及ClickHouseofDataKun),结合历史调研与行业客户最佳实践,选择了具有代表性的维度进行对比测试:选择事实表/宽表查询性能、TP查询性能、AP计算性能三个维度,共128条测试用例。
测试过程中,保持操作系统位数、服务器配置、CPU算力、SSD读写IO等技术指标在双环境一致。
结果显示:
Hive在国内研发软硬件环境综合性能表现为非国内环境的90.8%,其中事实表和宽表查询性能维度达99.9%,TP查询性能维度达89%,AP计算性能维度达88.5%。
ClickHouse国内研发软硬件环境综合性能表现为非国内环境的92.2%,其中事实表和宽表查询性能维度达85.7%,TP查询性能维度达90.7%,AP计算性能维度达94.7%。
在国内研发软硬件环境,从即席查询、TP查询性能、AP计算性能等11大项对比结果看,ClickHouse社区版与ClickHouseof DataKun无评分差异。切入细项,从亿级别规模业务表在join和union查询的12条测试用例来看,ClickHouseof DataKun结果较社区版提升30%+。
测评维度再更新
贴合五大行业最佳实践所需
不同行业的数据业务场景不同,对OLAP数据库引擎的关键要求也往往不同。基于客户调研与过去7年的实践经验,我们得出了以下五大行业在引擎选型时的核心关注指标:
品牌零售:着重关注极致性能和高可靠性;
地产物业:着重关注AP能力与大批量数据写和更新能力;
智能制造:着重关注AP能力与大批量历史数据更新能力;
金融证券:着重关注稳定性、安全合规及数十亿级别表查询计算;
政企:着重关注稳定性与安全合规。
我们将上述指标纳入到了本轮测试中,最终形成了11个维度、41个测评指标、267条测试用例的最终测试方案及通用的选型步骤参考。
八大引擎最终测评结果?
OLAP引擎选型步骤?
流、批、湖等各场景推荐什么引擎?
完整评测,尽在《OLAP数据库引擎选型白皮书》。
One More Thing
奇点云数据存算引擎DataKun支持多类型数据库引擎,来支撑客户实现引擎的“自主可控”;同时,基于自研的大规模多引擎混合调度技术,能帮助客户综合应用不同引擎,自动调整资源使用情况,满足复杂的数据分析场景。
进一步,作为独立第三方,我们也有义务对OLAP数据库引擎做系统化的、全面客观的评测,分享大数据实践的方法论和评测结果,为更多客户和工程师们提供选型参考。
《OLAP数据库引擎选型白皮书》是一份年度报告,奇点云将持续把更多引擎加入评测,并每年迭代评测维度及评测结果,祝大家都能找到“理想型”!