GPT-5败下阵，这款中国AI拿下全球第一，众多医生已在用它做诊断

衡宇发自凹非寺

量子位出品 | 公众号 QbitAI

在多数基层门诊里，一个医生往往要从早忙到晚，患者一拨接一拨。

病种繁杂、节奏飞快，查文献、请会诊这些理想中的操作，根本挤不进大夫有限的工作时间。

与此同时，慢病患者增多、随访任务越来越重，也让诊室之外的工作变得越来越难应付。

就在这样的日常困境里，一条政策落地了。

本月，国家卫健委发布了《促进和规范“人工智能+医疗卫生”应用发展的实施意见（以下简称“实施意见”）》。其中，“人工智能+基层应用”被列为八大重点方向之首。

国家层面还点明：

>到2030年，基层诊疗智能辅助要“基本实现全覆盖”。

而将其转化为临床实效，才是真正的考验。政策在推进，临床仍然拥堵；科研在进步，基层依旧高负荷。

基层医生真正需要的AI，一定不是炫技的AI，而是能在临床真正派上用场的助手。

可怎样的AI才能做到后者？

量子位走访多名专家，得到了一个统一的答案——能真正帮到中国基层医生的AI，关键在于能否精准赋能两个场景：

1.在诊中，能辅助临床决策，要安全、有效；

2.在诊后，能支撑患者随访，要规范、可持续。

可目前的AI，能在诊中给出有依据、可溯源、不误判的建议了吗？能在诊后帮忙顶住随访的压力、把慢病管得住吗？

最近，不少专家和基层医生，都在使用一个AI系统来把这两件事真正跑通。

它的名字，叫未来医生AI工作室。

一、安全、有效性击败GPT，夺得全球第一

AI 能背指南、能写病历，并不代表能真正走进临床。

能否用于真实诊疗，医生只看两件事：安全 & 有效。

北京大学第三医院运动医学科江东教授说得很直接——“医疗 AI 的第一性原理，不是聪明，而是安全。”

可“安全有效”不是一句口号，得让医生来检验。

就在今年，一次由32位国内顶尖临床专家组织的“多模型临床实战测评”中，未来医生AI工作室的核心模型MedGPT，以明显优势击败OpenAI-o3、Deepseek-R1、Gemini-2.5-Pro、Claude-3.7-Sonnet、Qwen3-235B等当时国际最前沿的知名大模型，夺得临床“安全”与“有效”性评测的全球第一。

这项测评已于 7 月正式公开发布，并接受学术同行评议。

图源：arXiv:2507.23486

这场测评的意义非同一般。

过去几年，模型之间比的是“知识竞赛”——谁背得快、论文写得好，谁的名字在评测榜单上更亮。

但真正到了临床现场，医生最在意的不是模型偶尔答对，而是 “每次都不能出错”。

这也是国家卫健委《实施意见》中明确写出的底线：要坚持安全可控的原则，促进人工智能在医疗卫生领域的规范应用。

具体回到测试这场测试，本次比赛中，专家们首先围绕「安全性 / 有效性」，搭建了一套可量化的临床评估标准；然后从真实病历中抽丝剥茧，整理出 2,069 道开放式问题，对所有模型进行了测试。

结果发现：AI 们总体不错，但「安全」上，却拉开了明显差距：

1.比如高风险问题上（药物相互作用、危重识别、并发症预警等），多款通用大模型得分明显下滑；

2.在涉及婴儿、儿童、免疫低下、慢病等易损人群时，有的模型会「偶尔很聪明，偶尔很危险」。

而在同一标准下的 MedGPT ，表现则是另一种风格：

1.总分第一，领先第二名 15.3%；

2.安全性得分比全部模型平均水平高出近 70%；

3.在儿童、孕产妇、老年人等复杂人群场景中也很稳健，鲜少翻车；

图源：arXiv:2507.23486

为什么差别会这么大？

因为路线完全不同。

GPT-5 这一类通用大模型，本质是语言模式学习： “根据概率生成最可能的那句话”。

而 MedGPT 从底层架构开始，就围绕临床推理、安全风控、循证链可追溯来打造。它的目标不是“回答得像人”，而是 “每一句话都安全、可验证、能复盘”。

这才是临床要的东西。

二、诊中怕误判，诊后怕失管？这两位AI助手接住了最吃力的环节

走访的专家和医生告诉我们，在真实临床现场，最让人压力陡增的地方往往出现在两个环节：

1.诊中，不只怕病人多，更担心在海量问诊中漏掉关键风险；

2.诊后，不只怕病情复杂，更担心患者出院后失去有效管理；

任何一环的疏漏，都是医疗质量的风险点。

围绕这两个最容易掉链子的关键时刻，未来医生AI工作室的破题思路很直接：用两个场景化的AI助手，一前一后，精准卡位。

1、诊中：怕误判？临床决策AI助手当你的「智能参谋」

诊室如战场，关键的几分钟往往决定全局。信息有限，病情复杂，时间分秒流逝——医生必须在巨大压力下快速厘清：风险在哪？用药是否安全？有没有被遗漏的关键？还缺什么检查？

这时，基层医生最需要的不是一个冷冰冰的知识库，而是一个真正懂临床、能并肩作战的「智能参谋」——未来医生AI工作室·临床决策AI助手

图注：邓春华在日常工作中使用未来医生·临床决策AI助手(已获得教授本人授权)

它的工作方式极其贴合临床实际：

1.输入极简：医生用口语描述病情都能被精准理解，无需规范术语

2.思考可视：自动梳理症状链、风险点及缺失信息

3.风险预警：实时提示药物冲突、高危体征、特殊人群禁忌，高度注重“安全性”

4.循证支撑：只引用高等级医学证据，每项建议都附证据卡，注明指南出处和证据等级

更重要的是——它不是靠宣传赢得认同，而是靠实战医生的检验赢得口碑。

多位专家与基层门诊的医生向我们反馈，未来医生AI工作室·临床决策AI助手特别适合在高强度高负荷的节奏中，帮助医生更快看到风险点，理清复杂病例。

更值得一提的是，临床决策AI助手还曾参与由多位专家共同开展的临床实测研究。通过专业严谨的同题测评方式，它在实际应用中的表现得到了进一步验证，这为产品的可靠性和实用性提供了有力支持：

他们曾从真实病例中抽取出一批分歧较大的典型疑难病历，分别交由 GPT-5、OpenEvidence，以及未来医生·临床决策AI助手进行分析和决策，再从 8 个临床最关键的维度进行盲评。

结果发现：未来医生AI工作室·临床决策AI助手，在所有临床决策维度上优于GPT-5和OpenEvidence。

图源：https://ai.doctorwork.com/comparison

“它会帮我看到盲区，启发思考。”邓春华教授说，“这类思维链式的AI，能让基层医生也像专家那样看病例——有理、有据、有边界。”

这句话，也成了许多医生对这款工具最常见的反馈。

因为临床上最让人疲惫的不是“不会”，而是面对复杂病情时，怕遗漏、怕踩雷、怕不够稳。如果有一个经过专家验证的工具，能帮你先把思路理顺，把风险点亮出来，那种心里的“底气”，是实实在在的。

未来医生·临床决策 AI 助手真正做到的，就是——让医生少一点焦虑，多一份把握。

诊中不易，但很多医生都清楚，真正容易出事的，往往发生在诊后。

尤其是慢病管理。

一个基层社区医生动辄要负责几百名患者，谁今天有点不舒服、谁症状悄悄变化了——很难有人能第一时间捕捉到。

医生嘴上不说，心里其实一直揪着。

未来医生·患者随访 AI 助手，就是专为这个阶段设计的。它代替医生“盯着”每一个随访中的患者。

它像一位「懂事的助理」：

1.自动提醒患者复查、记录症状、调整生活方式；

2.对普通健康咨询即时答复；

3.一旦出现药物调整、症状加重等「医疗问题」，会自动上浮医生确认。

4.当患者提到「胸闷」「头晕」等高危词时，会自动识别风险进行高危预警

不少社区医生体验后，都惊喜地说了同一句话：“原来随访也能这么省心。”

这种感受，在大医院同样出现。

解放军总医院第六医学中心（海军总医院）内分泌科主任医师、全科教研室主任郭启煜在连续使用一段时间后，给出了非常朴素却分量极重的评价：：“它帮我看到那些已经出院、但仍需要被关注的人。”

这句话说出来很轻，但每一位经历过慢病管理的医生都懂——真正让人担心的，从来不是在病房里的那几天，而是患者回家后的那几个月、几年。

能让这些人重新被“看见”，就是随访价值的核心。

诊中帮你“想得更全”，诊后帮你“看得更远”。

就这样一前一后，未来医生AI工作室的两款助手，接住了医生每天最吃力的两个环节。

好AI的标准很简单——医生愿意用、放心用。

这种“少即是多”的设计理念，恰恰是未来医生AI工作室抓住了医疗AI落地的关键，没有追求花哨的功能，而是深耕临床最痛的两个环节。

不是替代医生，而是放大医生的价值——当AI真正融入工作流，成为医生敢依赖、离不开的伙伴，这场人机协同的变革才真正开始。

三、为什么主委们说：这是「基层 + AI」目前看到的最佳实践？

很多医生跟我们说过一句很真实的话：

“不是不想用 AI，是一直找不到能放心托付的那一个。”

未来医生 AI 工作室能在一线快速用起来，其实靠的不是“功能多”，而是解决了最朴素、也是最关键的几个临床疑问：

1.我能看懂它是怎么想的吗？

2.它的建议，能让我一眼判断：用 or 不用？

3.它是不是在我掌控下工作，而不是越界替我决策？

这三点，是医生判断一款 AI 能不能用的底线。一句话总结就是：安全不安全？有效不有效？能不能掌控？

① 未来医生 AI 工作室，先把“安全有效”拉满了

从底层技术出发，未来医生AI工作室的大模型MedGPT就在安全性、有效性上大幅领先，并且还在临床推理实战中依然全面超越，被多位专家点赞。

这就让医生有了第一重安全感：它的建议，是安全有效、可信的。

② 产品层面，又把“安全有效”拆成了医生能直接看懂的三层

在产品设计上，未来医生AI工作室更把“安全有效”具体拆解为三层机制：可回溯、可解释、可预警。

这三点，精准击中医生最在意的东西：不允许 AI 自作主张，不允许黑箱，不允许模棱两可。

这是第二重安全感：它说的每句话都有出处、有边界。

③ 最关键的一点：它一直坚持“人机协同”，而非取代医生

不管是诊中还是诊后的协同过程，未来医生AI工作室的底层哲学都很明确：医生是所有医疗行为的核心。

在整个诊疗链路中，AI的角色都是底层的思路提示、证据索引和风险提示支撑，只有医生牢牢掌握最终判断权。

这就带来了第三重安全感：不是“AI 带着医生走”，而是“医生多了一双可靠的眼睛”。

三重安全感叠在一起，就构成了很多医生给我们的真实反馈：“它不是替我做决定，而是让我做决定更稳。”

这句话，也解释了为什么未来医生 AI 工作室能在一线快速落地——因为它不是在炫技，是给医生每天真正需要的那份放心感与掌控感。

目前，未来医生AI工作室已被数十位全国学科主委纳入日常使用，他们的使用反过来也在推动产品更贴近临床。

这次走访中，我们向所有专家都抛出了同一个问题：“在您心里，AI 赋能基层医疗的最佳实践是什么？”几乎所有人的回答都指向了同一个名字——未来医生 AI 工作室。

它的路径很简单：从临床中来，往临床里走。不浮夸，不炫技，也从不试图替代谁。

它关乎着每一位医生——无论身处顶尖医院还是基层卫生站——当面对复杂、模糊、容易踩雷的病情时，能让医生多一分从容、少一分不安。

未来医生AI工作室的价值，始终由临床现场的真实使用来定义，我们期待这样的AI助手能走进更多诊室，让AI真正融入基层医生的日常节奏，成为医疗现场里那份悄悄托底的力量。

小结

1、「AI+基层医疗」是国家重点政策导向场景，被放在「人工智能+医疗卫生」的八大重点方向的首位。

2、临床主委专家们一致认为：能真正帮到基层的 AI，一定要满足 2 点：安全有效+人机协同。

3、未来医生的 MedGPT 在安全有效与临床实战评测中全面领先美国的 OpenAI-GPT5 以及 OpenEvidence。

4、「未来医生 AI 工作室」的临床决策辅助与智能随访能力，被临床主委专家们一致认为是AI 赋能基层医疗的「最佳实践」，也得到了大量的一线基层医生的好评反馈。

如需体验，微信搜索“未来医生AI工作室（drxingren）”，即可进入超级医生个体时代。

参考文献：

[1]Shirui Wang, Zhihui Tang.A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains.

https://doi.org/10.48550/arXiv.2507.23486

[2]未来医生AI工作室与美国 OpenEvidence、GPT5 临床决策辅助场景评测对比.

https://ai.doctorwork.com/comparison(来源：新浪财经）

GPT-5败下阵，这款中国AI拿下全球第一，众多医生已在用它做诊断

相关阅读

猜你喜欢

热点图片

要闻