MedBench最新评测：山海大模型医疗专业能力全球第一，各项指标力压GPT-4

2024-06-13 16:33:54 来源：

近日，由上海AI实验室和上海市数字医学创新中心联合推出的MedBench评测更新榜单，继4月份夺冠后，云知声山海大模型医疗行业版（UniGPT-Med）再次以综合得分82.2的优异成绩位列全球第一，各项指标全面超越GPT-4，充分展现出山海大模型在拥有业内一流的通用能力之外，更具备打造世界领先的行业大模型的能力。

MedBench致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台，其基于医学权威标准，不断更新维护高质量的医学数据集，全方位多维度量化模型在各个医学维度的能力。

MedBench的五大评测维度——医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理，构成了其专业评测框架的核心。这一框架吸纳了海量医学知识库和医院医学专家的丰富经验，涵盖8个公开数据集和12个自建数据集，总计约30万道中文医疗专业测评题目，覆盖了从医学考试题库到患者服务、医学问诊、病例分析以及病历生成等广泛的医学任务，致力为中文医疗大模型提供客观科学的性能评测参考。

今年5月，MedBench平台全面升级，不仅引入API评测方式，丰富了参评途径，还优化了开放域问答的评估指标。通过医学专家的精准标注，平台进一步提升了评测结果的公正性和专业性。同时，平台在数据集、评测方法和系统功能等方面也进行了升级，旨在为医疗大模型评测构建一个更加完善的社区环境，并提供更加丰富、真实的实践场景。

此次评测，云知声山海大模型医疗行业版（UniGPT-Med）通过API提交方式，不仅以82.2的综合得分刷新了MedBench评测记录，更是在各个维度上力压GPT-4，排名全球第一。这一成绩的取得，是山海大模型医疗专业能力的集中展现，也标志着其技术迭代和创新发展达到了一个新的高度。

目前，山海大模型通用能力已超越GPT-3.5，并在SuperCLUE 4月评测中跻身国内大模型Top10；与GPT-4的对战中，山海综合胜率与和率为75.55%。

在医疗专业能力上，山海大模型于2023年6月的MedQA任务中超越Med-PaLM 2，取得87.1%的优异成绩；在临床执业医师资格考试中以523分（总分600分）的优异成绩，超过99%的考生水平；其基于山海大模型孵化的医疗行业版大模型，也在CCKS 2023 PromptCBLUE医疗大模型评测中夺得通用赛道一等奖。

随着医疗行业对智能化、精准化服务需求的不断增长，云知声山海大模型医疗行业版（UniGPT-Med）有望在医疗健康领域扮演更加关键的角色，为提升医疗服务效率、优化患者体验、推动医疗科技进步提供强有力的支持。

标签：

相关阅读

MedBench最新评测：山海大模型医疗专业能力全球第一，各项指标力压GPT-4

用短视频打破信息差，清华学霸组团讲课走红抖音

轻巧灵动旗舰品格三星Galaxy S24演绎夏日新风尚

引领家庭能源革命，美的开拓别墅独立绿电新篇章

IET与清华大学共办 ACDC 2024七月上海召开

CHIP高分推荐榜前三占二！华为全新PC产品获海外媒体高度赞誉

对话HAIVIVI团队：一家未来的AI玩具公司

WiFi万能钥匙持续助力网络普及，为数亿网民提供便捷连网服务

抖音房产平台在上海举办CPS达人沙龙吸引60余位头部达人参与

AP勘讯：赞助广告的一半成效源自长期品牌建设

猜你喜欢

精臣新品发售，3英寸B31热敏智能标签打印机

Soul App举办多媒体数字艺术展，用AI与历史的伟大灵魂对话

专业健康平台燕荚已上线，一对一顾问服务太精准！

宿迁职业技术学院紧随社会发展占据技术中心点

新壹科技“AI数字人”赋能北京西城区政务服务中心

大模型高考落幕，讯飞星火位列多学科综合成绩榜首

6·18消费大爆发，Cleer显露AI产品硬实力

海棠友伴品牌华丽升级，璀璨启幕银发兴趣社交下半场！

真实才有价值网红探店正走向规范发展

正泰新能与Enpal达成战略合作，推动欧洲户用光伏发展

14年华 | 快递物流行业大模型头号玩家，快递100的AI底气

太康道情戏《王钝》抖音直播开演，稀有剧种吸引超348万网友观看

IBM：能力出海和企业出海的数字化能力

光峰科技再次荣膺6项阿拉丁神灯奖

追逐有AI的空间与生活三星BESPOKE缤色铂格系列新品让一切恰到好处

多职业战争策略手游《三国:谋定天下》今日公测多重好礼海量福利送不停

一粒好蜂胶的成长史：中宏26载的坚守与传承

XREAL 创始人聊 AR 和空间计算：先过中场，再想终局

广东海丰白字戏抖音直播开演，超80万人次在线欣赏非遗戏剧魅力

2024夏日游戏节，Level Infinite 及腾讯全球工作室伙伴发布多款游戏更新

中国（上海）机器视觉展VisionChina2024观众预登记进行中！

中国软件定义计算软件市场增速全球领先！华为云Stack蝉联第一

科大讯飞“听见AI的声音”公益项目五周年，与万茜携手关注听障群体

跨平台联合打造雷霆荣耀杯，斗鱼自制赛事体系再升级

以匠心致初心——米达屋将携单粒速冻炒饭技术亮相成都餐博会

星环科技与14家合作伙伴签约，携手助力企业打造人工智能基础设施快速应用AIGC

中科通量携 RISC-V 产品亮相上海国际嵌入式展|中关村智用研究院战略伙伴

三星电视618嘉年华：年中钜惠，升级家庭视听娱乐体验的好时机

每日互动通过DCMM贯标等级认证，数据管理能力行业领先

KIOSK系统亮相三亚，国产操作系统再显身手

热点图片

要闻

「数字风洞」护航海南省数字安全建设丨永信至诚入选“海南省网络安全应急技术支撑单位”
中共海南省委网信办与国家计算机网络应急技术处理协调中心海南分中心公布2024年海南省
主动安全构网，携手迈入光风储发电机新时代 ——2024华为智能光伏战略与新品发布会
[中国，上海，2024年6月12日] 在SNEC 2024期间，华为智能光伏战略与新品发布会于6月
从“一骑红尘”到一键送达，运满满守护今夏荔枝自由
小满已过，夏日渐长，又到了时令鲜果上市的季节。在广东茂名的果园里，红绿相间的荔枝
杭州铭师堂科学助力志愿填报，帮助学子实现大学梦
全国各地的高考纷纷落幕，而紧随其后的志愿填报环节，是关乎考生人生规划的关键一步，
复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠
近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024 年高考数学大模型评测
恒天海龙自研飞控系统强势进入低空经济赛道
在家里等无人机送外卖、上班乘上飞行汽车直接到公司、在海边给家人来个浪漫的无人机灯
西部首个鸿蒙生态创新中心落地成都！
蓉城锦绣鸿蒙新,6月12日, 鸿蒙生态(成都)创新中心正式成立!揭幕仪式在成都白鹭湾科技
超级设备指纹上线邦盛科技成华为鸿蒙生态安全风控领域合作伙伴
近日,邦盛科技设备指纹Pro完成了对HarmonyOS NEXT的适配,在安全风控领域对所有鸿蒙生
网易严选推出白蛇系列香氛：千年等一回，国风开运香
传统佳节推陈出新，端午经济尽显活力。近日，网易严选推出了国风灵感香·白蛇系列浴室
网易严选推出白蛇系列香氛：千年等一回，国风开运香
传统佳节推陈出新，端午经济尽显活力。近日，网易严选推出了国风灵感香·白蛇系列浴室