Baichuan 3 通用能力评测国内第一，知识百科能力超越GPT-4-Turbo

4月30日，国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告选取国内外具有代表性的32个大模型4月份的版本，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。报告显示，Baichuan 3在国内大模型中排名第一，以总分73.32的优异成绩超越文心一言4.0、通义千问2.1、GLM-4、Moonshot(Kimi)等大模型。

SuperCLUE是国内权威的通用大模型综合性测评基准，其前身是第三方中文语言理解测评基准CLUE（The Chinese Language Understanding Evaluation）。致力于科学、客观、中立评测的CLUE自2019年成立起，陆续推出了CLUE、FewCLUE、KgCLUE、DataCLUE等被业界广为引用的测评基准。在CLUE的基础上，SuperCLUE依托多年测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性大模型测评基准。

不同于传统测评通过选择题形式的测评，SuperCLUE纳入了开放主观问题的测评。通过多维度、多视角、多层次的评测体系以及对话的形式，模拟大模型应用场景，真实有效的考察模型生成能力。同时，SuperCLUE通过构建多轮对话场景，更深层次考察大模型在真实多轮对话场景的应用效果，对大模型的上下文、记忆、对话能力全方位评测。

为更真实反映大模型通用能力，SuperCLUE本次测评由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等，题目为多轮开放式简答题。评测集共2194题。

测试结果显示，Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo，在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus，也力压一众国内大模型拔得头筹。此外，在计算、代码、工具使用能力上Baichuan 3表现同样不俗，均排名国内前三。

在评测国内外模型通用能力和专项能力的基础上，SuperCLUE还对国内模型发展现状及竞争格局进行了分析和研判。SuperCLUE认为，Baichuan 3可应用的场景相对广泛，尤其在专业技能类的任务上表现优异，重点推荐数学推理、数据分析、信息处理、智能客服/语音助手以及任务拆解规划等场景。另外，Baichuan 3还可以在相对复杂的行业场景中落地，可应用于教育、医疗、金融等垂直行业。

标签：

猜你喜欢

摩尔线程闪耀亮相2024中国移动算力网络大会，展示多项合作创新成果

全面智能化升级！中国移动算网大脑推动算力网络点亮 AI新时代

老WOWer的“魔兽”情怀，天工AI竟然都懂！

耀星计划丨2024年4月最新进展

持续贡献开源国产系统孵化项目加入CNCF Landscape

飞书，陪伴泡泡玛特向全球潮流文化进击

霄云科技助力淄博某三级医院信息化建设：融合存储方案推动行业变革

Valens与黑芝麻智能科技合作，将MIPI A-PHY与黑芝麻智驾和跨域计算平台对接

北京市支付机构反洗钱同业合作研讨会第二期反洗钱沙龙在易宝支付成功举办

打造人才培养新高地！达梦数据与华中师范大学共建“精英班”

北京面部馒化修复中心接诊001号顾客，数字化科技赋能解决馒化难题

智联招聘、天眼查等7家应用完成鸿蒙核心版本，引领企业级商务新体验

海思科：努力十年只为终止千万糖友的“痛”

华为旗舰店·上海南京东路重磅焕新，城市客厅体验升级

蛋仔派对关注未成年身心健康，积极开展公益活动引导健康消费价值观

为数智化安全护航华为云能源行业思享会成功举办！

年轻人最爱的Hi nova 12 SE正式开售，4月30日开售2199元起！

飞猪与松赞集团签署年度战略合作协议围绕品牌营销、会员等深入合作

AI新时代，金融新业态中移金科携多款创新产品亮相2024移动算力网络大会

推动Micro-LED商业化四项核心技术

精倍莱健康贴士：男士减少久坐加强锻炼，有助机体蓄能，笑对挑战

中国移动云•星辰安全云能力中心正式启动！

TCL ESG实践向“绿”前行，武汉制造基地三年水回收量可再造一个武汉东湖

推陈出新陈心陈意——科技赋能广陈皮，铺就新会致富路

芯片性能比肩国际水平！仁芯科技车载SerDes芯片R-LinC强在哪？

统信软件荣获2024年“北京市独角兽企业”授牌

开放原子校源行（西安站）顺利开幕

超声波创始人杨子超：AI融合地方产业是大机遇，邯郸等城市将会全面升级

纬亚智能入驻企知道科创空间，引领PCBA市场数字化变革风潮！

健力宝携手飞书，开启数智化变革时代

热点图片

要闻

京东E卡的回收方法？怎么兑现？
临近五一了，公司又发京东E卡了。往年这个时候，小雷的公司老板给每个人发了一张京东E
钉钉AI通过国家网信办大模型服务备案
4月29日晚，浙江省网信办发布生成式人工智能服务已备案信息公告（以下简称：公告），
八位堂携手ASUS华硕、Cup Couple春日快闪活动在山城重庆圆满结束
春日开场，桃气登场！自4月1日开始，八位堂携手 ASUS 华硕，Cup Couple 在山城重
武汉凤煌购科技有限公司与君凤煌签署产业数字化战略合作
2024年4月29日，在这个春暖花开阳光明媚的季节，迎来了武汉凤煌购科技有限公司与广东
三六零与华为合作再添新作：360协同办公App推推启动鸿蒙原生应用开发
在科技飞速发展的当下，全场景及数智化办公已成为提升企业运作效率的重要驱动力，众多
首个中文语义结构化国家标准立项通过
日前，由联著实业全资子公司——文灵科技(北京)有限公司和新华通讯社通信技术局联合牵
四维图新财报亮点：NOP Lite与HD Lite实现落地
四维图新（SZ002405）近日发布了2023年全年财报，公司整体营收超过31亿元，其中智驾业
抖音生活服务助力假日消费，团购门店生意火爆筹备万件汉服
4月23日，幻唐·幻裳汉服城的抖音直播间里，汉服妆造师向观众展示着不同款式的汉服所
2024年数字化转型服务能力提升暨数字专员专题培训班第四期（德州专场）成功举办
2024年4月28日，在山东省工业和信息化厅指导下，德州市工业和信息化局、山东信息职业
技术创新，方舟健客让智慧慢病服务跑出“加速度”
2024年开年以来，已有北京、上海、广东、浙江等提出大力发展新质生产力。在提到新质生

Baichuan 3 通用能力评测国内第一，知识百科能力超越GPT-4-Turbo

相关阅读

猜你喜欢

热点图片

要闻