山海新升级：OpenCompass大模型评测全球厂商排名第六，多项能力超越GPT-4

近日，山海大模型完成新一轮迭代升级，并在最新的OpenCompass大模型评测中取得综合性中英文双语客观评测得分53.6、综合性中文主观评测得分42.2的优异成绩，在参与测评的全球大模型厂商中排名第六。评测结果显示，其在中英文双语客观评测中的语言、知识、推理能力，在综合性中文主观评测中的创作能力已超越GPT-4。

综合性中英文双语客观评测排名

综合性中文主观评测排名

作为上海人工智能实验室开源的大模型评测体系，OpenCompass致力于探索最先进的语言与视觉模型，为工业界和研究社区提供全面、客观、中立的评测参考，从而根据不同能力维度的评测分数指导大模型的优化与进步。

OpenCompass 月度榜单从基础能力和综合能力的设计出发，构造了一套高质量的中英文双语评测基准，涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话六个方面二十余项细分任务，力图对近期的主流开源模型和商业 API 模型进行全面评测分析。

此次榜单囊括了国内外 40 个大语言模型，评测数据集采用中英文闭源数据集，包括综合性中文主观评测和综合性中英文双语客观评测。云知声山海大模型综合性中英文双语客观评测得分53.6，综合性中文主观评测得分42.2，排名国产大模型厂商第四、全球大模型厂商第六。从各项数据看，其在语言、知识、推理、创作等方面表现优异，显现出强劲的综合实力。

综合性中英文双语客观评测得分

综合性中文主观评测得分

而山海大模型之所以能够在众多大模型中脱颖而出，得益于其在技术上的一系列创新和优化——在本次大模型升级中，云知声引入了自我演进偏好学习技术，使得大模型能够通过自我对弈微调（SPIN）实现自我提升。在高质量数据生成方面，云知声结合RLHF和RLAIF方法，生成大量偏好数据，并采用k-Center Greedy算法确保数据的多样性和覆盖度。此外，云知声还建立了一个全面的自动化评测体系，以此实现对模型效果的快速评测，进而支持大模型的迭代和优化。

自2023年5月发布以来，山海大模型始终保持高速迭代，其在C-Eval全球大模型综合性评测、CCKS 2023医疗大模型评测等权威赛事上屡获佳绩，展现出全面的通用能力和卓越的专业能力，成功跻身大模型第一梯队。此次评测，是山海大模型出色实力的又一次印证，也将鞭策其继续加速迭代，持续引领大模型研发与落地。

作为中国AGI技术产业化的先行者，云知声于2016年开始打造Atlas人工智能基础设施，并以此为基础，构建云知大脑(UniBrain)技术中台——以山海（UniGPT）通用认知大模型为核心，结合多模态感知与生成、知识图谱、物联平台等智能组件，为云知声智慧物联、智慧医疗、智慧交通等业务提供高效的产品化支撑，持续推动“U(云知大脑)+X(应用场景)”战略布局。

云知声全栈AGI技术与产业化布局

山海大模型作为云知大脑的核心，其能力体系涵盖语言生成、语言理解、知识问答、逻辑推理、代码能力、数学能力等。此外，为提高大模型在具体场景的应用落地水平，山海大模型在通用能力基础上，增强物联、医疗、交通等行业能力，致力为客户提供更智能、更灵活的解决方案，加速千行百业的智慧化升级。

目前，云知声正依托山海大模型技术能力的加速迭代，逐步深入到智慧医疗、智慧座舱、智慧轨交、智慧政务等具体场景，不断释放AGI的更多可能。

在智慧医疗领域，云知声基于山海大模型打造的门诊病历生成系统已落地北京友谊医院，有效提升了病历撰写效率与质量；在智慧政务领域，云知声率先开发出深圳首个政务大模型“龙知政”,全场景赋能提升政府治理水平；在智慧座舱领域,云知声通过山海大模型赋能吉利睿蓝汽车打造情感型虚拟助手,为用户带来全车全场景的情感化智能交互体验；在智慧轨交场景,云知声山海大模型“入驻”南宁火车东站,打造更具人性化的智能客服,助力实现换乘节点无缝高效换乘,为乘客带来更快捷、更便利的出行体验，相关案例也于近期被央视《焦点访谈》栏目报道。

随着大模型技术的不断进步和创新，我们有理由相信，世界将变得更加智能和互联。我们期待，山海大模型能够实现更多新的突破，开辟更广更深的技术边界，拓展更多尚未触及的应用场景。

标签：

猜你喜欢

构建AI时代强大基石！天翼云再获国际AI顶会ABAW三项大奖

金融科技的未来：人与AI的共生关系

炬芯科技赵新中：无线音频SoC的AI算法未来和应用

商汤如影联合发布《大模型赋能下的AI 2.0数字人平台》白皮书，提出业界首个“AI 2.0数字人平台评估体系”

反诈活动持续展开，《蛋仔派对》坚决打击网络诈骗

三安集成于EDICON24展示新一代砷化镓射频器件制造工艺

易车App完成鸿蒙原生应用Beta版本开发，打造更智慧的车生活

以AI辅助社交，Soul创始人团队真正实现交互效率与质量提升

新品发布 | MediaComm美凯AI大数据全光KVM全计算平台，亮相北京InfoComm2024

香港城大创新学院全港首个创新创业理学硕士课程招生助有志者创业启航塑造未来

CentOS替换不发愁，国产操作系统迁移测试自动化

MFG携手星河湾集团共铸琶洲CBD商务新标杆

ARCHE-2024第三届上海国际智慧档案展览会暨高峰论坛即将开幕

信仰联动！QQ飞车手游官宣ROG 8 Pro成为S联赛官方比赛用机

轻薄高颜值+高性能，ROG幻14 Air专业轻薄本春季好价10999元

春季新品重磅集结，礼献迅达40周年庆！

新品全球首发！思看科技NimbleTrack灵动式三维扫描系统！

轻装上阵，以简驭繁！AM-CELL C系列自动化3D检测系统全新发布

新品上市丨华为智选哈尔斯智能咖啡杯 “智”在享受

QQ音乐业内率先推出“AI助手”，以AI技术全新打造陪伴式音娱体验

五代传承非遗美味，百年阳坊涮肉再踏新征程

「天工SkyMusic」：AI音乐浪潮下的诗乐交融

业界排名超过谷歌、Meta，2023年腾讯ESG评分位列行业全球前五

新拓软讯与华为云签署全面合作协议，携手迈向教育医疗数智新未来

重磅发布：aiXcoder-7B正式开源

中国餐饮连锁十大消费者喜爱品牌：阳坊涮肉的口碑力量

65岁大妈跳着广场舞竟然漏尿了！

全栈技术，开放生态！拓维信息全面赋能智慧高速快速发展

运动蚂蚁：开潮玩运动馆有哪些需要必备的攻略？

一步到位，本地&上云纵享丝滑！华为iFTTR星光F50开启家庭存储新时代

热点图片

要闻

盛业科技荣获两项国家发明专利证书，科技创新成果获肯定
近日，盛业控股集团有限公司（简称盛业，股份代号：6069 HK）旗下全资子公司盛业信息
ACE 技术将有更多应用：利用逼真数字人 AI 技术增强游戏体验
NVIDIA ACE 微服务提供的工具可让开发者创造出栩栩如生的非玩家角色。编者注:本文属
显示技术创新成焦点，TCL荣获CITE2024多项大奖
4月9日，第十二届中国电子信息博览会（CITE2024）在深圳福田会展中心开幕。TCL通过两
财富是认知的变现| 第三届亚洲高净值人群财富管理论坛在东京举行
2024年3月31日，东京举办了备受关注的第三届亚洲高净值人群财富管理论坛，吸引了来自
一个女人，一个家庭，一张十年的营业执照，一段“绿皮火车”之旅，一段财富的开启……
过去20年，大多企业是靠时代红利和社会资源崛起，但伴随着商业的飞速发展，企业的稳健
看个推《APP数智运营实战手册》提升用户生命周期价值
想快速构建精细化运营体系，有效提升用户生命周期价值？想深入学习数智运营方法论，从
情绪波动大，“心”力不足，若返畅络因，重拾血管年轻态
现代人面临着前所未有的压力,这些压力可能来自工作、学习、家庭、人际关系等多个方面
春华秋实满庭芳栉风沐雨砥砺行
——记上海市劳模集体上海市中西医结合医院脉管病诊疗中心上海市中西医结合医院成立于
个推发布《APP数智运营实战手册》拆解用户付费转化提升妙招
想快速构建精细化运营体系，有效提升用户生命周期价值？想深入学习数智运营方法论，从
轻薄游戏本华硕天选5 Pro百亿补贴好价！7998元入手16大核7940HX与RTX4060
近期备受瞩目的游戏大作——《重装前哨》与玩家见面，这款游戏凭借独特的游戏世界观、

山海新升级：OpenCompass大模型评测全球厂商排名第六，多项能力超越GPT-4

相关阅读

猜你喜欢

热点图片

要闻