山海新升级:OpenCompass大模型评测全球厂商排名第六,多项能力超越GPT-4

2024-04-10 14:23:06     来源:

近日,山海大模型完成新一轮迭代升级,并在最新的OpenCompass大模型评测中取得综合性中英文双语客观评测得分53.6、综合性中文主观评测得分42.2的优异成绩,在参与测评的全球大模型厂商中排名第六。评测结果显示,其在中英文双语客观评测中的语言、知识、推理能力,在综合性中文主观评测中的创作能力已超越GPT-4。

https://img2.danews.cc/upload/images/20240410/3c7c5067dab03cba96636ca2a891e21a.png

综合性中英文双语客观评测排名

https://img2.danews.cc/upload/images/20240410/5eb2b4f89769baa0b05d4fc9b9c26bb3.png

综合性中文主观评测排名

作为上海人工智能实验室开源的大模型评测体系,OpenCompass致力于探索最先进的语言与视觉模型,为工业界和研究社区提供全面、客观、中立的评测参考,从而根据不同能力维度的评测分数指导大模型的优化与进步。

OpenCompass 月度榜单从基础能力和综合能力的设计出发,构造了一套高质量的中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话六个方面二十余项细分任务,力图对近期的主流开源模型和商业 API 模型进行全面评测分析。

此次榜单囊括了国内外 40 个大语言模型,评测数据集采用中英文闭源数据集,包括综合性中文主观评测和综合性中英文双语客观评测。云知声山海大模型综合性中英文双语客观评测得分53.6,综合性中文主观评测得分42.2,排名国产大模型厂商第四、全球大模型厂商第六。从各项数据看,其在语言、知识、推理、创作等方面表现优异,显现出强劲的综合实力。

https://img2.danews.cc/upload/images/20240410/91d42e3892f4db5caa13cc108e0f9a55.png

综合性中英文双语客观评测得分

https://img2.danews.cc/upload/images/20240410/2d6ab5ff4a77fba6a8dd3b506b8b23a6.png

综合性中文主观评测得分

而山海大模型之所以能够在众多大模型中脱颖而出,得益于其在技术上的一系列创新和优化——在本次大模型升级中,云知声引入了自我演进偏好学习技术,使得大模型能够通过自我对弈微调(SPIN)实现自我提升。在高质量数据生成方面,云知声结合RLHF和RLAIF方法,生成大量偏好数据,并采用k-Center Greedy算法确保数据的多样性和覆盖度。此外,云知声还建立了一个全面的自动化评测体系,以此实现对模型效果的快速评测,进而支持大模型的迭代和优化。

自2023年5月发布以来,山海大模型始终保持高速迭代,其在C-Eval全球大模型综合性评测、CCKS 2023医疗大模型评测等权威赛事上屡获佳绩,展现出全面的通用能力和卓越的专业能力,成功跻身大模型第一梯队。此次评测,是山海大模型出色实力的又一次印证,也将鞭策其继续加速迭代,持续引领大模型研发与落地。

作为中国AGI技术产业化的先行者,云知声于2016年开始打造Atlas人工智能基础设施,并以此为基础,构建云知大脑(UniBrain)技术中台——以山海(UniGPT)通用认知大模型为核心,结合多模态感知与生成、知识图谱、物联平台等智能组件,为云知声智慧物联、智慧医疗、智慧交通等业务提供高效的产品化支撑,持续推动“U(云知大脑)+X(应用场景)”战略布局。

https://img2.danews.cc/upload/images/20240410/23ed68af2239dc80b0ea876f5e557d32.png

云知声全栈AGI技术与产业化布局

山海大模型作为云知大脑的核心,其能力体系涵盖语言生成、语言理解、知识问答、 逻辑推理、代码能力、数学能力等。此外,为提高大模型在具体场景的应用落地水平,山海大模型在通用能力基础上,增强物联、医疗、交通等行业能力,致力为客户提供更智能、更灵活的解决方案,加速千行百业的智慧化升级。

目前,云知声正依托山海大模型技术能力的加速迭代,逐步深入到智慧医疗、智慧座舱、智慧轨交、智慧政务等具体场景,不断释放AGI的更多可能。

在智慧医疗领域,云知声基于山海大模型打造的门诊病历生成系统已落地北京友谊医院,有效提升了病历撰写效率与质量;在智慧政务领域,云知声率先开发出深圳首个政务大模型“龙知政”,全场景赋能提升政府治理水平;在智慧座舱领域,云知声通过山海大模型赋能吉利睿蓝汽车打造情感型虚拟助手,为用户带来全车全场景的情感化智能交互体验;在智慧轨交场景,云知声山海大模型“入驻”南宁火车东站,打造更具人性化的智能客服,助力实现换乘节点无缝高效换乘,为乘客带来更快捷、更便利的出行体验,相关案例也于近期被央视《焦点访谈》栏目报道。

随着大模型技术的不断进步和创新,我们有理由相信,世界将变得更加智能和互联。我们期待,山海大模型能够实现更多新的突破,开辟更广更深的技术边界,拓展更多尚未触及的应用场景。

 

标签:

猜你喜欢

构建AI时代强大基石!天翼云再获国际AI顶会ABAW三项大奖
金融科技的未来:人与AI的共生关系
炬芯科技赵新中:无线音频SoC的AI算法未来和应用
商汤如影联合发布《大模型赋能下的AI 2.0数字人平台》白皮书,提出业界首个“AI 2.0数字人平台评估体系”
反诈活动持续展开,《蛋仔派对》坚决打击网络诈骗
三安集成于EDICON24展示新一代砷化镓射频器件制造工艺
易车App完成鸿蒙原生应用Beta版本开发,打造更智慧的车生活
以AI辅助社交,Soul创始人团队真正实现交互效率与质量提升
新品发布 | MediaComm美凯AI大数据全光KVM全计算平台,亮相北京InfoComm2024
香港城大创新学院 全港首个创新创业理学硕士课程招生 助有志者创业启航 塑造未来
CentOS替换不发愁,国产操作系统迁移测试自动化
MFG携手星河湾集团 共铸琶洲CBD商务新标杆
ARCHE-2024第三届上海国际智慧档案展览会暨高峰论坛即将开幕
信仰联动!QQ飞车手游官宣ROG 8 Pro成为S联赛官方比赛用机
轻薄高颜值+高性能,ROG幻14 Air专业轻薄本春季好价10999元
春季新品重磅集结,礼献迅达40周年庆!
新品全球首发!思看科技NimbleTrack灵动式三维扫描系统!
轻装上阵,以简驭繁!AM-CELL C系列自动化3D检测系统全新发布
新品上市丨华为智选 哈尔斯智能咖啡杯 “智”在享受
QQ音乐业内率先推出“AI助手”,以AI技术全新打造陪伴式音娱体验
五代传承非遗美味,百年阳坊涮肉再踏新征程
「天工SkyMusic」:AI音乐浪潮下的诗乐交融
业界排名超过谷歌、Meta,2023年腾讯ESG评分位列行业全球前五
新拓软讯与华为云签署全面合作协议,携手迈向教育医疗数智新未来
重磅发布:aiXcoder-7B正式开源
中国餐饮连锁十大消费者喜爱品牌:阳坊涮肉的口碑力量
65岁大妈跳着广场舞竟然漏尿了!
全栈技术,开放生态!拓维信息全面赋能智慧高速快速发展
运动蚂蚁:开潮玩运动馆有哪些需要必备的攻略?
一步到位,本地&上云纵享丝滑!华为iFTTR星光F50开启家庭存储新时代