云知声山海多模态大模型登顶MMMU权威评测榜,通用能力、医疗能力排名全球第一

2024-10-09 10:06:43     来源:

近日,多模态人工智能模型基准评测集MMMU更新榜单,云知声山海多模态大模型UniGPT-mMed以通用能力、医疗专业能力双双排名第一的优异成绩登顶榜首,力压GPT-4V,充分彰显其硬核实力。

https://img2.danews.cc/upload/images/20241008/61e51496f8617df34cf03fa161f18b6e.png

作为国内权威多模态基准评测,MMMU由IN.AI Research等多家机构联合构建,专注于考量人工智能在解决大学层次多学科问题时的多模态理解与推理能力。

该评测集涉及艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个常见学科,包含 1.15 万个精心选取的多模态问题,涵盖 30 个不同的科目和183 个子领域。同时,MMMU 中许多问题都需要专家级的推理能力,例如,使用傅立叶变换或均衡理论来推导问题的解,这在满足评测内容广泛性的同时,也确保了其深度。

此外,MMMU还提出了两个独特的挑战:一是其涵盖多种图像格式,从照片和绘画等视觉场景到图表和表格,可用于测试 LMM 的感知能力;二是MMMU的输入形式是文本和图像的混合,要求AI模型能够将图像和文本信息结合起来进行深入理解,并在此基础上执行复杂推理。这不仅考验了模型的学科知识储备,也对其综合分析和应用能力提出了更高要求。

评测结果显示,云知声山海多模态大模型UniGPT-mMed以总分57的优异成绩登顶榜首,并在健康与医学细分赛道超越GPT-4V,力压一众大模型拔得头筹,充分展现出其在拥有业内一流的通用能力之外,更具备打造世界领先的行业大模型的能力。

https://img2.danews.cc/upload/images/20241008/cc6769974104d6d7f9e584d6dc78805b.png

UniGPT-mMed是云知声基于山海大模型底座构建的多模态大模型。其通过分析和整合海量论文、书籍及网站数据,利用精细化数据处理技术,自动识别并提取图片及其相关文本描述,并通过多模态分析技术评估图片的质量和图文之间的匹配度,筛选出最优数据。与此同时,系统能够参考图片和上下文信息对图片进行重新描述,使得图文数据更加对齐。

通过预设问答场景,UniGPT-mMed能够将图文对齐数据转化为高质量的场景问答数据集,并采用思维链和自我反思技术,进一步优化生成数据,最终构建起一个包含数亿条高质量图文问答的数据集,进而为用户提供更加丰富、准确和可靠的信息检索和问答服务。

此次评测,是云知声在多模态大模型赛道持续深耕、不断技术创新的成果体现。

作为中国AGI技术产业化的先行者,云知声于2016年开始打造Atlas人工智能基础设施,并以此为基础,构建云知大脑(UniBrain)技术中台——以山海(UniGPT)通用认知大模型为核心,结合多模态感知与生成、知识图谱、物联平台等智能组件,为云知声智慧物联、智慧医疗、智慧座舱、智慧交通等业务提供高效的产品化支撑,持续推动“U(云知大脑)+X(应用场景)”战略布局,致力推动千行百业的智慧化升级。

作为云知大脑的核心,山海大模型具备语言生成、语言理解、知识问答、逻辑推理、代码能力、数学能力、安全合规能力七项通用能力及插件扩展、领域增强、企业定制三项行业落地能力,能够满足更多场景的应用需求。今年8月,云知声推出山海多模态大模型,通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出,带来实时多模态拟人交互体验,开启AGI新范式。

目前,山海大模型已相继在OpenCompass大模型评测、SuperCLUE中文大模型基准测评、MedBench评测、Flageval大模型评测、SuperBench等多个权威评测中屡创佳绩,稳居国内大模型第一梯队;在医疗专业能力上,其基于山海大模型孵化的医疗大模型在CCKS 2023 PromptCBLUE医疗大模型评测中夺得通用赛道一等奖,并在MedBench评测中位列全球第一,各项指标全面超越GPT-4。

登顶MMMU评测榜,充分印证了云知声山海多模态大模型在通用能力、专业能力层面的突出实力,也将鞭策云知声持续迭代多模态大模型技术底座,实现大模型技术在多领域场景下的渗透和应用,以技术创新为各行各业带来更多智能化变革。

 

标签:

猜你喜欢

APAI亚太人工智能青少年科创大赛即将迎新加坡决赛启幕
24小时负载稳定运行!云彣亦逍遥内存开箱评测体验
为畅玩黑神话怒换电脑,8000MT/s墨云藏镜内存使用体验
如凤凰携欧俪芳高浓度Ⅲ型胶原蛋白亮相重庆WRG现场
赞晨租创新租赁模式 行业赋能交流峰会圆满举行
恒昌公益首次携手成武县在京流动党委启动“大学圆梦金”助学计划
金秋十月 换机推荐 这几款三星Galaxy旗舰手机综合实力强悍
支付向新,助推数实融合——联通支付参展2024中国国际信息通信展览会
Arm Cortex-X925 实现15% IPC提升,领跑高性能 CPU 领域
免费领票!Aquatech China 2024 水展与您探索水处理行业前沿技术
碱克再引领辅材行业革新!地砖铺贴材料地面专用背胶上市!
H1美妆行业细分市场研究报告| 双十一前瞻:美妆市场新机遇与品牌策略解析
汽车有积碳怎么办?不妨试试全网销量领先的车仆燃油宝
海陆空天·向心聚力·智胜未来 ——中国工程院工程科技学术研讨会航天航空航海工程科技研讨成功举办
官宣:ROG联手索尼影业 与毒液共舞 10月23日全球领先上映
零零后满绣传承人耗时四年 复原“红楼十二钗”服饰
智联招聘王昊出席2024云栖大会:将大模型视为“人”进行应用探索
《新质生产力下制造业质量管理数字化转型白皮书》正式发布,引领制造业高质量发展新篇章
商汤科技亮相2024中国算力大会,携手联通共推AI基础设施建设
Arm Cortex-X925 实现15% IPC提升,领跑高性能 CPU 领域
深开鸿探路数智时代:如何打造“万物智联”新图景
亿达科创AI智慧仓储解决方案助力制造业开启AI时代
捷顺科技受邀出席万物云2024年全国供应商大会,荣获“长期成就奖”!
宝宝巴士旗下多款应用正式上架,引领全场景早教新体验
APAI亚太人工智能青少年科技创新大赛 ——将在新加坡再次见证青少年科技创新潜力
释放数据价值!永洪科技第八届全国用户大会,正式定档!
薛志强博士受邀出席中西医结合医美大会,分享3D鼻面综合设计与手术呈现
小豆苗携手华为鸿蒙,“打疫苗”即刻步入全场景生态服务
热爱驱动丨朝阳凯文的阅读魔法,让你爱不释手!
年轻人的城市公园!OPPO全国最大旗舰店开业,潮流创新设计风格