多模态数据趋势下,滴普科技助力AIGC实现高质量数据治理

2023-05-26 10:31:22     来源:

在ChatGPT的带动下,大模型概念越来越火热,仅国内就有包括百度、阿里、腾讯、京东、科大讯飞在内的多家互联网、AI公司陆续宣布对大模型展开探索。不过,也有另外一种声音表示,虽然大模型在推进产业智能化升级中已表现出巨大潜力,但目前距离大规模产业应用依然存在诸多未知。

回归大模型本身,其主要依赖算法、算力和数据的综合支撑,这三大要素缺一不可,特别是数据质量的高低,往往决定AI算法模型的性能上限。大模型训练一般需要经过预训练、强化学习、应用三个阶段,期间需要对数据进行获取、清洗、训练、调优、对齐等数据管理。因此,大规模原始数据的获取,高质量的数据清洗,对模型训练至关重要。

湖仓一体作为一种新型的数据架构,为解决数据高质量问题提供了可能性。那么,大模型为什么需要湖仓一体架构的的数据平台来支撑呢?

从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到万亿级的突破,数据量极大,比如GPT-1是上亿规模的参数量,数据集就使用了1万本书的BookCorpus,25亿单词量,GPT-2参数量达到了15亿规模,GPT-3模型数据量更是超过百亿。如此巨大规模的数据量,必然面临数据质量参差不齐、有效数据难以抓取的问题。

从数据类型上来看,除了语言之外,图像、视频、音频、语义文本等多模态数据的出现,对数据采集、数据处理的技术也提出了更高的要求。

然而,大多数企业采用的数据仓库无法实现存算分离,数据湖的计算能力又明显不足,而湖仓一体结合了数据湖和数据仓库优势,存储和计算分别使用单独的群集,这样系统能够扩展到更多并发用户和更大数据量,且支持底层多种数据模型并存,支持异构数据的实时查询和分析,流数据分析、机器学习等,可以有效提升数据管理水平。

目前,国内外各大厂商都在研发“湖仓一体”架构,如亚马逊云科技的Redshift Spectrum、微软的Azure Data Lake、Databricks、华为云的FusionInsight、滴普科技的FastData等,赋能到各行业数据平台建设,实现海量、高维多源多模态的实时数据处理。。

滴普科技实时湖仓平台FastData,采用存算分离架构,提供多种数据类型的统一存储能力,具备数据入湖、实时计算、即席分析、湖仓管理、统一元数据管理等核心功能,支持PB级多模数据存储与处理,并基于DLink Mesh架构扩展支持分布式多级数据湖,具备统一的多租户权限和安全管控机制,支持流批一体数据处理、数据分析、数据科学等多工作负载。

特别是对于大模型存在的多个数据源集成带来的数据错误、重复内容,实时湖仓平台FastData可以覆盖数据资产化全流程进行质量监管和检验,通过数据治理体系建设,帮助企业沉淀标准的专业服务和数据资产分析场景库,保证数据口径的一致性,提升数据资产的完整性、准确性、一致性。

作为 “Data+AI”数据智能领域的领先实践者,滴普科技十分重视数据智能技术的创新价值,积极在AI大模型领域进行产品创新,逐渐构建了数据基础设施+数据治理的产品服务模式,为大模型产业提供数据底层基础设施建设。

在此基础上,滴普科技在基础产业与垂直领域进行数据智能模型创新,探索产业大模型体系。滴普科技成立了专门的FastAGI产品线,通过将开源模型本地化,以及基于行业知识形成行业领域模型,赋能到客户的业务领域中。

当前,大模型主要分为通用模型、垂直模型,如垂直的AI大模型就是针对某个特定领域或者场景,利用行业的数据和知识,提供更精准和高效的解决方案。未来,滴普科技也将继续发挥湖仓一体数据智能技术优势支持大模型发展,并提供业务垂直领域的数据智能模型创新服务,以模型+算力驱动企业数据智能决策。

标签:

猜你喜欢

从阿里巴巴数据治理到瓴羊Dataphin
TCL为何能稳居618 Mini LED销量榜首?技术实力是关键
金华义乌秒杀节,领取商家专属扶持资源,上抖音左滑发现更多神奇好物
多位院士领衔 2023中国智能车大会暨国家智能车发展论坛即将盛大开幕
荣耀时刻!亿图脑图助力22508团队荣获世界机器人大赛亚军
摩尔线程携手威星智能和贵安新区管委会,共建贵安智算中心
诚迈科技子公司智达诚远通过 ASPICE CL2 认证,研发能力再升级!
再助乡村振兴 北京非零和科技有限公司出席乌兰察布市京津冀地区招商引资推介会
引领显示行业场景变革!海信智慧办公2023新品发布会落幕
2023全球智博会重磅奖项揭晓 “中国人工智能年度十大创新企业”花落同盾
不止是4ms@99.999%!高全中详解5G-A的神奇魅力……
润建股份携手钉钉,引领组织数字化能力与业务转型发展
2023微博手机影像年拉开序幕 多主题赛道面向大众全面开启
更精准、更专业!中科万国发布保险科技领域大模型——万国通识大模型
智能驾驶打响城市争夺战,特华蔚小理毫末就争一城一池
夏天总要拍张写真,荣耀携手小红书定格夏日瞬间
荣耀首推手机防摔标准,荣耀X50将带来无死角抗摔体验
技能树点满 三星Galaxy S23 Ultra实力出圈
慕尼黑上海分析生化展,赛智科技在2.2F237展位与您不见不散
登上产业之巅,俯览AI前沿 ——从2023全球智博会看人工智能产业增长极
TT语音使用每日互动数智运营服务,APP运营实现高质量增长
百度爱企查发布《2023年中投融资分析报告》
IoT场景时序数据库性能对比报告出炉,TDengine 远超 InfluxDB & TimescaleDB
BrainCo强脑科技上榜“2022年中国独角兽企业”
2023PAGC大会圆满落幕 每日瑜伽荣获金帆奖“年度卓越出海产品”
TCL华星加速显示科技创新,释放未来显示巨大想象力
不吃早饭竟然会这样?若返NNK畅络因守护心脑血管健康
打造世界级智慧校园!海信中央空调助力福耀科技大学建设
我爱我家品牌蜕变,从中介服务者变为多元生活助力者
知行合一求大道 赤子情深报国恩