清华瑞莱联合团队推出“安全增强版DeepSeek”——RealSafe-R1大模型

2025-02-24 18:17:17     来源:

2月23日,清华大学与瑞莱智慧联合团队推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,实现了安全性的显著提升,表现优于被认为安全性较好的闭源大模型Claude3.5、GPT-4o等,为开源大模型安全发展与风险治理提供了创新性解决方案。

连日来,国产开源大模型DeepSeek的优异表现令人惊艳,其在自然语言处理和多任务推理方面的能力展现了强大的技术实力,尤其是在复杂问题解决和创造性任务中表现出色。然而,DeepSeek R1和V3在面对越狱攻击等安全性挑战时仍存在一定的局限性。例如,模型可能会被恶意设计的输入误导,生成不符合预期或不安全的响应。这一安全短板并非DeepSeek所独有的难题,而是当前开源大模型的通病,其根本缺陷源于安全对齐机制的深度不足。

为此,清华瑞莱联合团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化,可以应用于多种开源、闭源模型。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间“跷跷板”现象,表现优于被认为安全性较好的闭源大模型Claude3.5、GPT-4o等,不仅为DeepSeek生态添砖加瓦,也为大语言模型树立了新的安全标杆。

据悉,RealSafe-R1各尺寸模型及数据集,将于近期向全球开发者开源。“大模型的安全性瓶颈是本质的,只有通过持续投入和攻坚补齐短板弱项,人工智能产业才能真正实现高质量发展。”瑞莱智慧首席执行官田天表示,这一创新成果将为开源大模型的安全性加固提供有力支持,也为政务、金融、医疗等严肃场景的应用提供更为可靠的坚实基座。

 

标签:

猜你喜欢

世界首发三重融合感知系统、池边实时遥控技术 浪涌未来泳池机器人获权威认证
点击解锁2025慕尼黑上海电子展同期论坛,各大精彩论坛等您赴约!
以优质内容驱动增长,查博士荣膺“抖音年度优质店铺”殊荣
三星Galaxy S25系列:新品热卖礼遇多 国补至高优惠500元
清华G20创业研究中心研讨闲鱼副业生态:数字平台为青年创业就业提供新机会
同款图书京东价相当于天猫4折 下单前多比价不花冤枉钱
启明星辰发布“大模型应用安全服务组合”——后DeepSeek智能时代,安全即基建
宏碁GDC大会发布优跃Pro,正式宣布A星人专业版接入DeepSeek
宏碁GDC大会发布优跃Pro,正式宣布A星人专业版接入DeepSeek
第二届vivo蓝河操作系统创新赛收官,打造最具影响力Rust赛事
六大功能上新,体验全面进化,腾势Z9GT迎重磅OTA
苹果创新破局,立讯精密迈向发展新高度
立讯精密:收购闻泰科技ODM业务 完善消费电子业务拼图
长波铸盾 智造报国 ——清华大学工程物理系研究员赵自然
耐用折叠屏时代 三星Galaxy Z Fold6如何引领行业技术进化
爱诗科技PixVerse V4 正式上线!音效匹配、人声配音......全球最快的AI视频生成!
华为发布智能交通首款鸿蒙摄像机
YY接入DeepSeek上线“YYDS” 未来将打造智能体社区
船舶行业大模型接入DeepSeek,中关村科金联手中国船舶赋能央国企“AI”+专项行动
第八届中国企业改革发展峰会平行会议“深化改革 价值创造”专题研讨会聚焦精益全价值链转型
齐绘未来领航:AI重构央国企求职新生态
OPPO I海外电商订单、库存、业财一体化,伯俊科技助力 OPPO 全球化业务蓬勃发展
港中大商学院崔成宇教授:酒店业应用人工智能 解人手之窘兼顾人性温度
Web3+AI 融合开启数字世界新纪元
创新赋能数字经济新质生产力 重庆邮电大学教授王小洁
思必驰正式接入DeepSeek-R1 671B模型
中科可控W50惊鸿首发 新旗舰诠释“神机”妙算!
字节跳动 ByteIntern 实习生招聘启动,面向全球高校招聘超4000人
讯飞AI会议耳机接入满血版DeepSeek,viaim助理核心能力再升级
恒脑人工智能安全大模型智能体荣获2024年度吴文俊人工智能科技进步奖