2025年9月18日,由浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室常务副主任任奎教授团队联合华为技术有限公司计算产品线共同研发的国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型在“华为全联接大会2025”正式发布。此次发布标志着我国在大模型内生安全技术领域取得重大突破,为解决开源大模型安全防护能力不足的行业共性难题提供了关键技术方案,显著提升了我国AI系统的自主安全防控水平。任奎教授因在该项目中的开创性贡献与技术引领,被华为计算产品线授予“科研创新卓越贡献奖”。
当前,以大模型为代表的人工智能技术在全球范围内加速演进,其发展水平和应用深度,已然成为衡量国家创新能力和综合国力的关键指标。在我国,数字化发展进入快车道,人工智能技术深度赋能千行百业,大模型作为关键驱动力,已成为推动我国经济发展和产业升级的新动能。统计显示,截至2025年1月,中国市场上共有约197个大模型,覆盖金融、医疗、教育、制造、汽车、能源等多个重要行业领域。面对日益复杂的网络环境与数据应用场景,大模型的安全性已成为关乎国家安全、社会稳定和公众利益的核心议题。我国高度重视大模型安全治理,坚持统筹发展与安全,习近平总书记在中共中央政治局第二十次集体学习时强调,“构建技术监测、风险预警、应急响应体系,确保人工智能安全、可靠、可控”,为大模型安全治理指明了发展方向,凸显了构建自主可控安全能力的紧迫性。李强总理在2025世界人工智能大会上指出,“人工智能带来的风险挑战引发广泛关注,如何在发展和安全之间寻求平衡,亟需进一步凝聚共识”;国务院发布的《关于深入实施“人工智能+”行动的意见》中将“提升安全能力水平”列为人工智能基础支撑能力之一,标志着我国人工智能安全治理迈入强化基础支撑能力、建设国家级基础设施的新阶段。
人工智能安全治理问题已成为行业公认的普遍性挑战。全球主流大模型频现包括虚假/有害内容生成、数据偏见、信息泄露等安全问题。例如,谷歌公司发布报告揭示,伊朗支持的攻击者利用Gemini大模型发动网络攻击,开展钓鱼攻击活动,对防务专家及机构的网络与云环境进行渗透,监视与窃取机密信息,严重威胁了国家信息安全;三星公司在引入ChatGPT后,短时间内便曝出多起机密资料外泄事件,导致三星公司半导体设备测量资料、源代码、产品良率等机密内容瞬间外泄,且无法收回,严重影响了企业运营。我国同类人工智能模型的安全问题同样不容忽视。当前,政府部门、华为等科技企业正积极推动国产大模型生态建设,并取得了显著成效。然而,国产平台在框架健全性、开发者社区成熟度以及开源生态发展等方面仍然面临诸多挑战,整体尚处于起步阶段。据研究显示,部分国产大模型早期版本在面对越狱攻击时的失守率高达100%。这不仅暴露了当前大模型在安全技术层面的普遍脆弱性,也对产业发展乃至国家安全构成潜在威胁。针对这一全球性挑战,浙江大学联合华为计算产品线重磅推出DeepSeek-R1-Safe基础大模型。模型基于昇腾千卡集群,依托全流程自主可控后训练框架完成训练,整体安全防御能力提升至83%,较原模型越狱防御增幅115%,普通问题安全率近100%,且通用性能接近零损耗,实现了安全性与通用性能的有效均衡。DeepSeek-R1-Safe已在ModelZoo、GitCode、Github、Gitee及ModelScope 等多个社区全面开源,遵循DeepSeek同样的开源策略,采用MIT License开放共享。【地址在文末】
DeepSeek-R1-Safe围绕“安全语料构建”、“安全模型训练”、“软硬件环境搭建”三个维度实现了关键技术突破。
团队从底层入手,构建了一套覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架,将安全能力深度嵌入模型的“思考”与“表达”之中。
[图1:DeepSeek-R1-Safe 内生安全训练系统框架图] 图注:DeepSeek-R1-Safe的卓越安全能力,源于自主可控的全栈式后训练框架,包括安全语料构建、安全模型训练、软硬件环境搭建三个维度上的关键突破
研发团队整合HarmBench、AdvBench、JailBreakBench、S-Eval等主流安全基准评测数据,并针对现有基准在维度覆盖与攻击模式方面的不足,补充缺失风险维度数据和引入新型越狱数据,对DeepSeek-R1-Safe的安全性能进行系统化评估,结果表明DeepSeek-R1-Safe的安全性能表现突出。
一方面,DeepSeek-R1-Safe可提供多维度全面安全防护,针对有毒有害言论、政治敏感内容、违法行为教唆等14个维度的普通有害问题整体防御成功率近100%,在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型4%~13%。
[图2:DeepSeek-R1-Safe多维度安全防护能力] 图注:针对有毒有害言论、政治敏感内容、违法行为教唆等维度防御成功率近100%
另一方面,DeepSeek-R1-Safe的越狱防御能力显著提升,针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过40%,在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型16%~23%。
[图3:DeepSeek-R1-Safe越狱防御能力] 图注:针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过40%
此外,在MMLU、GSM8K、CEVAL等公认通用能力基准测试中,DeepSeek-R1-Safe相比于DeepSeek-R1的性能损耗在1% 以内,通用性能基本无损,与Qwen-3-235B、Kimi K2-1T等同期模型性能相当。
[图4:DeepSeek-R1-Safe 通用性能] 图注:DeepSeek-R1-Safe相比于 DeepSeek-R1 的性能损耗在 1% 以内,通用性能基本无损
面对“人工智能安全治理”这一时代课题,DeepSeek-R1-Safe提供了一个中国答案——我们不仅追求大模型的先进性能,更致力于让大模型具备可控制、可信赖的安全防护能力。这不仅是国产大模型安全能力的一次跃升,更是对人工智能安全治理路径的一次深入探索与实践。
未来,浙大团队依托区块链与数据安全全国重点实验室,与华为及所有志同道合的产业伙伴携手,推动内生安全人工智能的发展,努力实现人工智能大模型算力、数据与算法的全面自主、安全与可控。
发布地址:
文章来自于微信公众号 “AI大模型应用实践”,作者 “浙江大学”