百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

2024-06-25 16:49:40     来源:

近日,昆仑万维携手新加坡南洋理工大学成功开发了一个名为Q*的算法,能够显著提升现有大模型的推理能力。在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

Q*能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,这一算法不仅大幅提升了小模型的性能,还显著降低了计算资源的需求,为人工智能的广泛应用带来了全新可能,开创了高效智能的新纪元。

项目论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》已公开发布。

论文链接:https://arxiv.org/abs/2406.14283

打破OpenAI封锁 提升现有模型能力

自OpenAI的Q*项目曝光后,引发业内众多讨论。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

(英伟达科学家Jim Fan、图灵奖得主Yann LeCun等参与讨论OpenAI的Q*实现方式)

(Meta科学家田渊栋则认为Q*是Q-learning和A*的结合,且天然地适合推理任务,尤其在数学推理方面)

不过迄今为止OpenAI没有公开关于Q*算法的具体细节,其效果究竟如何我们并不得而知。

昆仑万维自Q*项目曝光以来,一直密切关注Q*的动向,且在第一时间就成立研究小组尝试开发自己的Q*算法,希望打破OpenAI的封锁,提升现有开源模型的推理能力。经过数月的尝试,团队提出了一种新颖的Q*框架,并且帮助现有开源模型在GSM8K、MATH和MBPP数据集上,分别超越了ChatGPT和Gemini Ultra。

复杂推理任务全盘规划

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态,对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。

其中g(s_t)表示当前轨迹中的多个历史状态,既{s1,...,s_t},的聚合收益。

具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建process reward model进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。

为了获得状态-动作对(s_t, a_t)的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型Q̂。训练过程中的真实标签ŷ(s_t, a_t)可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。

实验结果表明,昆仑万维本次所提出的Q*框架,可以显著地提升LLM的推理能力,在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra; 在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

研究证明,Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显著降低了计算资源的需求。目前,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。未来,昆仑万维会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为人工智能前沿技术发展带来全新可能。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

BPAA第四届全球应用算法典范大赛TOP50榜单出炉
打通AI应用最后一公里,中软国际模型工场助力千行百业智能升级
共启全新AI时代!拓维信息精彩亮相华为开发者大会2024
乘数智之风,再添新“羽翼”——绵阳·华为数字经济联合创新中心揭牌、绵阳科技城AI智能算力云项目签约
胜牌全球与途虎联合推出高端全合成机油PETROPOWER(奢金和铂金系列)
迅达厨电:传承匠心,引领厨电创新潮流
迅达集团:四十年匠心独运,创新铸就厨电辉煌
全新理念,持续绽放|2024帕金森病专科中心建设经验分享及学术交流会 徐州站(江浙沪区域)成功举办
数智化全场景赋能,护航跨境电商稳增长
迅达四十年创新驱动,引领中国厨电行业新篇章
助力汽车消费,懂车帝成为全国汽车以旧换新信息服务指定平台
政产学齐聚HDC2024主题圆桌 共探AI大模型在城市与产业的落地路径
上海祺鲲科技携手中国欧盟商会 以能源转型方案助力欧盟企业实现供应链绿色合规
华为云首发AI原生应用引擎,为AI应用创新而生
赢在起跑线!超级队长引领AI教育新潮流
再签重磅协议!四维图新与华为终端云服务共推HMS for Car业务出海
专注诺奖得主赋能,赢诺脉得助力企业诺奖邀约
诺奖得主合作成为品牌突围的重点
鸿蒙生态20家先锋伙伴奖横空出世 星河璀璨星光熠熠
全球充电模块增速第 一品牌,易能时代到底强在哪里?
WhaleStudio 2.6重磅发布!调度模块WhaleScheduler更新78项核心功能
聚焦云上安全,华为云安全专题销售伙伴思享会圆满落幕
SAS推动医疗创新:AI和数据解决方案的扩展与临床数据管理革新
回应每一个奇思妙想!跃然创新发布全球首款AI玩具——BubblePal
钉钉携手Moka合作再升级,探索「钉钉人事旗舰版」最新落地实践
第四届健康长三角峰会:共筑健康中国,携手推动健康长三角建设迈上新台阶
EBPM流程管理平台助力华为云咨询数字化转型
拾肆年华 | 快递100用户超2.7亿,连接快递公司2100+
让云无处不在,华为云分布式云加速政企全面云化转型
万兴科技旗下HiPDF海外版焕新 AI翻译与校对等功能助力文档处理效率提升