近日, 偶数发布了最新的实时湖仓数据平台 Skylab 5.3 版本。Skylab包含七大产品,分别为云原生分布式数据库 OushuDB、数据分析与应用平台 Kepler、数据资产管理平台 Orbit、自动化机器学习平台 LittleBoy、数据工厂 Wasp、数据开发与调度平台 Flow、系统管理软件Lava,在本次的新版本升级中以上全线产品都进行了更新。
在已经具备完整生态组件的基础上,Skylab 本次升级进一步提升了生态扩展能力,在数据的开放存储格式、应用分析的多数据源接入等方面都做了优化,比如新增对 Hudi 开放存储格式的原生支持,以及接入更多数据库类型作为数据分析和应用的数据源。
接下来让我们一起了解下 Skylab 5.3 各组件的更新情况。
云原生分布式数据库 OushuDB 5.2 更新
继上一个版本可以原生使用 Hive 存储在 HDFS 的数据,OushuDB 5.2 实现了原生支持 Hudi 存储格式,提供了更多开放的数据格式,实现了“一数多擎”,即多个引擎共享同一份数据,也为客户在落地湖仓一体提供了更多可选方案。
存算分离的数据库架构必然需要在计算节点做数据缓存,OushuDB 5.2 的 Magma 表实现了计算节点数据缓存,极大提升查询速度。
OushuDB 的客户端 Worksheet 在本次升级中对性能、功能和交互体验都做了优化。功能方面,Worksheet 支持同时展示多条 SQL 查询结果,支持在创建对象时选择表空间、表压缩及压缩比;支持数十万表的查询与展示,客户端性能进一步提升;Worksheet 在导入导出数据及脚本、SQL 语法提示、历史版本搜索、报错方式等方面都进行了交互优化。
OushuDB 5.2 还完善了数据库审计功能,此外还支持自动统计信息收集,用户可以不再通过 Analyze 来发数据统计信息。
数据工厂 Wasp 5.3 更新
新版本的 Wasp 在产品易用性上进行了大幅提升,用户可以仅配置一次任务就将整个库的数十万张表进行同步,极大的提升效率,同时,Wasp 还支持可视化数据清洗与流计算的配置,提升了产品易用性。
除了已经支持的Oracle、MySQL、DB2、PostgreSQL等数据源,还新增支持 Sybase、KingBase等数据源。CDC 支持无主键源表同步场景,规避了数据同步可能面临的数据冲突和重复问题。
数据资产管理平台 Orbit 2.2 更新
Orbit 新增主数据管理模块。主数据管理模块是一种关键的企业管理工具,通过主数据模型和主数据服务,集中管理和维护企业中的主数据,提高数据一致性、准确性和可用性,帮助组织整合不同的业务流程和系统,各个部门和系统可以基于相同的数据进行工作,从而提高业务流程的协同效率。
此外,相较上一个版本,Orbit在元数据采集、数据资产发布及撤销、元数据删除等方面做了进一步优化,大幅提升处理性能和操作体验。
数据资产目录和元数据目录“主页”展示可视化的统计信息
数据分析与应用平台 Kepler 4.0 更新
新版本 Kepler 在多数据源接入、血缘详情展示和报表开发几个方面做了大幅优化。
支持 MySQL 和 OushuDB 等多种数据源,为用户提供了更多的接入方式,并根据不同数据源对指标、标签、报表、数据可视化、数据工厂等功能进行优化。血缘节点增加指标、事实、维度、数据库表等详情展示,让用户迅速了解血缘信息。
报表开发方面,新增单元格批量设置、字段生成表头、表级节点拖入。
数据可视化模块添加水球图、数据文字云类型图表。
自动化机器学习平台 LittleBoy 5.0 更新
新版本 LittleBoy 在现有的丰富算子的基础上,形成了特殊算子的定制能力,如对数据字段进行加密算子和解密算子,这也意味着 LittleBoy 对不同行业和场景的生态扩展能力逐步增强。
数据开发与调度平台 Flow 5.3 更新
提供批次相关功能,支持追批、自定义批次标签。用户可以通过批次来管理任务的周期执行(如以天、周为周期),更好的应对业务分批执行需求的支持,为作业调度的开发提供便利。
系统管理软件 Lava 5.3 更新
Lava 提供了升级框架,用户可以通过升级脚本一键升级 Wasp、Flow、Worksheet。新版本增加了 OushuDB 监控页面,展示集群拓扑结构、执行中的SQL、会话和锁信息等。
偶数 Skylab 是一个拥有海量数据存储、计算、分析、应用和 AI 能力的实时湖仓数据平台,提供完整的数据管理生态闭环,帮助用户实现批流一体、实时数据处理、自动化机器学习、自助可视化分析和数据资产管理。依托 Skylab,用户可以轻松实现智慧营销、智能风控、智慧审计、智慧监管等数据应用场景。