360 360大模型安全白皮书

让AI世界更安全更美好安全·向善·可信·可控据IDC预测，到2030年，人工智能将为全球带来22.3万亿美元经济收入，大模型正驱动百行千业智能化变革，而开源大模型在性能提升、部署成本降低的推动下，加速向政务、金融、能源等重点行业落地，安全风险也随之渗透到全生命周期：从模型层的提示注入、越狱攻击，到数据层的敏感信息泄露，再到应用层的智能体越权，任何一处漏洞都可能威胁个人、企业国家的财产安全，甚至是生命安全。清晰的网络安全边界正不断消融、趋于模糊，并延伸至大模型的全链路安全，传统基于规则和特征匹配的防御体系已然失效。我们正在从传统的“网络安全”时代，迈入以“大模型安全”为核心挑战的新阶段。当前威胁呈现指数级演化态势：一方面，攻击面急剧扩大，针对算力基础设施的劫持、供应链中的恶意模型文件、以及利用LangChain等框架漏洞的新型攻击，表明风险已深度嵌入技术底座。另一方面，攻击主体高度“平民化”，自然语言取代专业代码成为攻击武器，提示注入、越狱攻击让“全民黑客”从概念走向现实，极大降低了网络犯罪门槛。与此同时，模型固有的“幻觉”问题、智能体在工具调用中的越权风险、以及数据泄露与知识污染，共同构成了一个多维、动态、交织的复杂威胁矩阵。在此背景下，360主张：必须采用以AI对抗AI、原生融合安全的新范式来应对大模型时代的安全挑战。我们提出“外筑‘以模治模’动态屏障，内固‘平台原生’安全底座的核心理念，将安全能力内嵌于大模型的构建、训练、部署与运营的全过程。通过构建一个纵深防御、动态演化的全景框架，从基础设施安全、内容与价值对齐、幻觉缓解到智能体行为管控，实现从“网络安全”到“大模型安全”的范式升维，为人工智能时代提供一个“安全、向善、可信、可控” 的底座。面对这一全球性挑战，中国开创了“发展与安全并重”的敏捷治理之路，以《生成式人工智能服务管理暂行办法》为代表的“包容审慎、分类分级”原则，为技术创新与风险防控提供了动态平衡的框架。 01 02 本白皮书系统性地论证了大模型安全正经历从传统网络边界防御到原生、全栈、智能动态防御的范式转移，并提出“外筑"以模治模"动态屏障，内固"平台原生"安全底座”的核心理念，覆盖“安全、向善、可信、可控”四大支柱的全景安全框架，构建智能时代的核心免疫系统。 5. 生存之道：开放共生，生态共治大模型安全的复杂性、全局性，决定了仅靠单一力量的技术或资源难以实现全链路、全场景的大模型安全治理。必须通过标准共建、产学研协同——例如开源安全模型、共建联合平台，以及组建产业联盟等形式，汇聚各方力量，共同打造智能时代可信、向善的安全基底。这既是产业发展的必然要求，也是国家层面的战略需求。4. 应对之道：以模治模+平台原生安全 360提出的“以模治模+平台原生安全”是应对新范式的技术必然。它通过专用安全大模型，例如风险检测、幻觉纠正与红蓝对抗模型，对抗通用大模型风险，它既具备“外挂式”插件的灵活快速，又兼具“原生式”的深度安全能力，实现了双向赋能的协同防御，构筑起从模型、数据、内容到行为的全链路深度防护体系。1. 风险之变：从边界防御到全栈免疫大模型安全风险是系统性、全栈式的。它贯穿基础设施、模型层、数据层、智能体层及用户端五大层次，具体表现为算力劫持、供应链投毒、内容越狱、模型幻觉、知识污染、隐私泄露、行为失控以及工具滥用等诸多方面，共同构成了一个传统安全方案无法应对的复杂威胁立体空间。 2. 攻击之变：从专业黑客到全民黑客攻击技术持续向高端化演进，例如针对框架和基础设施的深度利用；与此同时，攻击主体则日趋平民化，“自然语言黑客” 的出现极大降低了攻击门槛。这导致攻防不对称性加剧，必须发展出同等智能、动态感知的防御体系。 3. 治理之智：中国特色的“发展与安全”平衡术中国的治理模式采用“发展与安全并重”的动态平衡策略。通过“包容审慎、分类分级”的监管框架，既划定安全底线，又为技术快速迭代预留了弹性空间，为产业创新提供了关键的政策窗口期。核心观点引言：外筑内固，构建大模型安全全链路防护体系大模型安全白皮书安全·向善可信·可控让AI世界更安全更美好三六零数字安全科技集团有限公司（或称“360”）提醒您在阅读或使用本文档之前，仔细阅读、充分理解本法律声明的全部内容。您对本文档的任何阅读或使用行为，即视为您已认可并同意接受本声明的全部约束。 5.遵守法律您在使用本文档及其中所述技术时，应严格遵守《网络安全法》、《数据安全法》、《个人信息保护法》及生成式人工智能相关法规等中华人民共和国法律法规，并承担因使用不当所引发的一切法律责任。6.反馈与联络如您发现本文档存在任何错误、疑问或可能的侵权内容，请通过官方指定渠道与我们联系: [email protected] 4.免责声明本文档仅作为技术参考与指引提供，所有内容按“现状”、“包含可能缺陷”及“当前功能”状态呈现。尽管360已力求文档内容的准确性与可靠性，但不对其准确性、完整性、适用性、及时性作任何明示或默示的保证。任何单位或个人因依赖或使用本文档而直接或间接遭受的任何损失（包括但不限于数据、收入、商誉损失），360及关联方均不承担法律责任。本文档内容仅供参考，不构成法律、政策建议；不构成投资、商业决策依据；本文档引用的数据和观点不代表360立场；360不对引用资料的准确性、完整性承担保证责任。1.文档获取与使用您应通过360官方指定网站或360授权的其他正式渠道下载、获取本文档。本文档仅可为自身合法、合规的非商业性活动之目的而使用。 2.知识产权未经360事先书面许可，任何单位或个人不得擅自对本文档的任何内容（包括但不限于文字、图表、数据、架构设计）进行包括但不限于篡改、翻译、复制、发行、或以其他任何形式传播。本文档所涉及的所有内容，包括但不限于商标、专利、著作权、商业秘密等知识产权，均归360或其关联公司依法所有。 3.文档更新鉴于技术、产品、法律与政策的持续演进，360保留在不事先通知的情况下，对本文档内容进行更新、修订或替换的权利。360保留本文档中未明确列明的所有权利。法律声明让AI世界更安全更美好 03 04 大模型安全白皮书安全·向善可信·可控360解决方案：可全链路的安全防护大模型安全威胁全景透视生态共治：构建可信AI生态范式迁移：从网络安全到大模型安全的时代挑战源于实战：大模型安全的应对新思路让AI世界更安全更美好 07 08 目录范式迁移：从网络安全到大模型安全的时代挑战 1.1 安全升维：安全边界从网络扩展到模型全栈 1.2 挑战交织：技术、数据与国际化构成安全核心阵地 1.3 治理路径：中国走出发展与安全并重的敏捷治理之路11 12 13 源于实战：大模型安全的应对新思路 3.1 核心理念：外筑“以模治模”动态屏障，内固“平台原生”安全底座 3.2 能力落地：通过安全、向善、可信、可控四大原则实现闭环 3.3 架构革新：“外挂式安全 + 平台原生安全”的双轨安全防护体系25 27 29大模型安全威胁全景透视 2.1 大模型安全呈多维复杂态势，挑战超越传统安全边界 2.2 大模型基础设施层风险：算力与框架的“地基”隐患 2.3 大模型内容风险：大模型的失控与越轨 2.4 大模型数据与知识库风险：知识“源泉”的污染与泄露 2.5 智能体行为风险：失控的“数字员工” 2.6 用户端与入口风险：最后一道防线的失守17 18 19 20 21 22360解决方案：可全链路的安全防护 4.1 外挂式安全 4.1.1 大模型卫士算力主机安全系统 4.1.2 大模型卫士检测系统 4.1.3 大模型卫士防护系统 4.1.4 大模型幻觉检测与缓解系统 4.2 平台原生安全 4.2.1 企业级知识库 4.2.2 智能体构建与运营平台 4.2.3 智能体客户端33 33 35 37 39 41 43 45 48 源于实战：大模型安全的应对新思路 5.1 生态力量：以标准共建与产业联盟夯实安全基础 5.2 联合实践：通过产学研协同将安全融入技术生命周期 5.3 未来倡议：携手监管、产业与用户共建可信大模型生态53 54 55大模型安全白皮书安全·向善可信·可控01范式迁移：从网络安全到大模型安全的时代挑战第一章1.1 安全升维：安全边界从网络扩展到模型全栈 “人工智能+千行百业”将带动新一轮工业革命，为高质量发展注入强大动能，引领人类社会进入智能化时代，为生产、生活方式带来巨大变革。大模型作为目前人工智能技术的核心引擎和技术底座，重塑着各行业的应用生态，其安全内涵已发生根本性转变。我们正在经历一场从传统“网络安全”向新型“大模型安全”的范式迁移。据ISC.AI 2025大会披露的数据，“大模型安全漏洞呈指数级增长”已成为现实。2025年9月16日，第22届中国网络安全年会暨国家网络安全宣传周网络安全协同防御分论坛活动中，国家计算机网络应急技术处理协调中心发布了国内首次针对AI大模型的实网众测检验结果，累计发现各类安全漏洞 281个，其中大模型特有漏洞177个，占比超过60%。这充分表明，当前AI大模型产品面临着大量传统安全领域之外的新安全风险。针对大模型的新型攻击手段层出不穷。已从技术层面的单一威胁演变为系统性风险，包括提示注入攻击、敏感信息泄露、供应链组件风险、模型中毒攻击、模型拒绝服务等多样化攻击。当前，攻击者从专业黑客变为全民黑客，攻击主体的开始趋向平民化，以往需要精通机