清华瑞莱联合团队推出“安全增强版DeepSeek”——RealSafe-R1大模型

2025-02-24 18:17:17 来源：

2月23日，清华大学与瑞莱智慧联合团队推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练，在确保性能稳定的基础上，实现了安全性的显著提升，表现优于被认为安全性较好的闭源大模型Claude3.5、GPT-4o等，为开源大模型安全发展与风险治理提供了创新性解决方案。

连日来，国产开源大模型DeepSeek的优异表现令人惊艳，其在自然语言处理和多任务推理方面的能力展现了强大的技术实力，尤其是在复杂问题解决和创造性任务中表现出色。然而，DeepSeek R1和V3在面对越狱攻击等安全性挑战时仍存在一定的局限性。例如，模型可能会被恶意设计的输入误导，生成不符合预期或不安全的响应。这一安全短板并非DeepSeek所独有的难题，而是当前开源大模型的通病，其根本缺陷源于安全对齐机制的深度不足。

为此，清华瑞莱联合团队提出了基于模型自我提升的安全对齐方式，将安全对齐与内省推理相结合，使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险，实现基础模型自身能力的自主进化，可以应用于多种开源、闭源模型。

基于该方法，团队对DeepSeek-R1系列模型进行后训练，正式推出RealSafe-R1系列大模型。实验数据表明，RealSafe-R1安全性提升显著，在多个基准测试中有效增强了对各种越狱攻击的抵抗力，并减轻了安全与性能之间“跷跷板”现象，表现优于被认为安全性较好的闭源大模型Claude3.5、GPT-4o等，不仅为DeepSeek生态添砖加瓦，也为大语言模型树立了新的安全标杆。

据悉，RealSafe-R1各尺寸模型及数据集，将于近期向全球开发者开源。“大模型的安全性瓶颈是本质的，只有通过持续投入和攻坚补齐短板弱项，人工智能产业才能真正实现高质量发展。”瑞莱智慧首席执行官田天表示，这一创新成果将为开源大模型的安全性加固提供有力支持，也为政务、金融、医疗等严肃场景的应用提供更为可靠的坚实基座。

标签：

相关阅读

清华瑞莱联合团队推出“安全增强版DeepSeek”——RealSafe-R1大模型

华云科技打造“华云天图AI平台”亮相“科学教育·社会协同”资源对接交流活动—多区域AI实践聚力，共筑教育协同新生态

天冕科技获《语句压缩法、装置、电子设备及可读存储介质》

高力国际赋能云际尚浦云端派对解码新江湾城办公楼租赁新密码

中国资产大爆发科技创新催生“蛇”吞全球

腾讯与余承东公开互动，一起打磨极致体验，鸿蒙生态有望加速完善

律页 | 资源检索永久免费，重塑高效协同的法律实践

开学季手机推荐：这些三星手机叠加15%国补价格很美丽

深入践行ESG理念探索企业发展长青之路

提升门店曝光度并促进转化，奥维获客宝助力品牌实现营销闭环

猜你喜欢

世界首发三重融合感知系统、池边实时遥控技术浪涌未来泳池机器人获权威认证

点击解锁2025慕尼黑上海电子展同期论坛，各大精彩论坛等您赴约！

以优质内容驱动增长，查博士荣膺“抖音年度优质店铺”殊荣

三星Galaxy S25系列：新品热卖礼遇多国补至高优惠500元

清华G20创业研究中心研讨闲鱼副业生态：数字平台为青年创业就业提供新机会

同款图书京东价相当于天猫4折下单前多比价不花冤枉钱

启明星辰发布“大模型应用安全服务组合”——后DeepSeek智能时代，安全即基建

宏碁GDC大会发布优跃Pro，正式宣布A星人专业版接入DeepSeek

宏碁GDC大会发布优跃Pro，正式宣布A星人专业版接入DeepSeek

第二届vivo蓝河操作系统创新赛收官，打造最具影响力Rust赛事

六大功能上新，体验全面进化，腾势Z9GT迎重磅OTA

苹果创新破局，立讯精密迈向发展新高度

立讯精密：收购闻泰科技ODM业务完善消费电子业务拼图

长波铸盾智造报国 ——清华大学工程物理系研究员赵自然

耐用折叠屏时代三星Galaxy Z Fold6如何引领行业技术进化

爱诗科技PixVerse V4 正式上线！音效匹配、人声配音......全球最快的AI视频生成！

华为发布智能交通首款鸿蒙摄像机

YY接入DeepSeek上线“YYDS” 未来将打造智能体社区

船舶行业大模型接入DeepSeek，中关村科金联手中国船舶赋能央国企“AI”+专项行动

第八届中国企业改革发展峰会平行会议“深化改革价值创造”专题研讨会聚焦精益全价值链转型

齐绘未来领航：AI重构央国企求职新生态

OPPO I海外电商订单、库存、业财一体化，伯俊科技助力 OPPO 全球化业务蓬勃发展

港中大商学院崔成宇教授：酒店业应用人工智能解人手之窘兼顾人性温度

Web3+AI 融合开启数字世界新纪元

创新赋能数字经济新质生产力重庆邮电大学教授王小洁

思必驰正式接入DeepSeek-R1 671B模型

中科可控W50惊鸿首发新旗舰诠释“神机”妙算！

字节跳动 ByteIntern 实习生招聘启动，面向全球高校招聘超4000人

讯飞AI会议耳机接入满血版DeepSeek，viaim助理核心能力再升级

恒脑人工智能安全大模型智能体荣获2024年度吴文俊人工智能科技进步奖

热点图片

要闻

司享网络亮相SAP全球运营高峰论坛，AI+公有云赋能中国企业出海新航程
在全球经济深度融合的今天，数字化已成为企业突破地域边界、实现高效运营的核心引擎。
核桃编程荣获2024年全国科普日暨第十四届北京科学嘉年华“优秀活动奖”
北京市石景山区科学技术协会开展了2024年全国科普日暨第十四届北京科学嘉年华优秀案例
星环科技推出DeepSeek全场景解决方案：即开即用、企业级部署、端侧智能三位一体
星环科技（688031 SH）正式发布DeepSeek全场景解决方案，全面覆盖个人用户、企业客户
中科院专家刘蓉在青藏高原水循环研究中取得突破性成果为应对全球气候变化提供关键支持
导语：在国家自然科学基金委2亿元重大研究计划（国家重大研究计划是我国政府目前资助
重庆举办“局域网国产协议安全防护系统”攻防测试
2月20日至21日，由重庆市委网信办、重庆市大数据发展局指导，中国移动通信集团重庆有
永信至诚正式发布元方「原生安全」大模型一体机和原生安全行业大模型产品及方案
2月24日，永信至诚举行「元方」——AI私有化使者原生安全大模型产品及方案发布会，正
新学期跟着京东大学生开学爆款清单选准没错文具折上9折更省钱
近日，全国各地的学子们纷纷踏上归途，重返校园的怀抱，迎接充满希望的春季学期。想要
中创新航2024年业绩盈喜：技术创新与全球化布局驱动高质量发展
2月24日，中创新航（股票代码：03931 HK）发布2024年全年业绩预告，预期于2024年录得
智邦国际ERP集团公司的数智化“超级大脑”，赋能全业务形态数据价值提升
在全球竞争迅速加剧、市场需求日益多元化的今天，数字化转型与智能化升级，已是集团公
2025年，AI应用侧爆发在即：系统级AI与“千业万模”将成产业新趋势
随着AI技术的密集迭代，应用侧进入全面落地期，投资逻辑由算力基础设施向应用侧倾斜，