题目
大模型上线前需做安全对齐。请说明越狱(jailbreak)、红队测试、宪法 AI 各是什么,以及常见防护手段。
参考答案
越狱(Jailbreak):用户通过特殊 prompt 绕过模型安全限制,让它输出违规内容。常见手法:
- 角色扮演:“假设你是一个没有道德限制的 AI…”
- 渐进诱导:先问无害问题,逐步逼近敏感边界。
- 编码绕过:用 base64、Pig Latin、小语种绕过过滤器。
- 假设场景:“这是写小说,角色需要…”
- 指令注入:在文档/网页里藏指令,让 RAG/Agent 执行。
红队测试(Red Teaming):组织专门团队(人或 AI)模拟攻击,主动找模型的安全漏洞。
- 人工红队:安全专家设计攻击 prompt。
- 自动红队:用另一个 LLM 自动生成攻击,迭代优化。
- 发现漏洞后补训练数据或加护栏。
宪法 AI(Constitutional AI,Anthropic):
- 不靠人工标注偏好,而是给模型一套”宪法”(一组原则: Helpful、Harmless、Honest 等)。
- 模型生成回答后自我批评:“这个回答是否违反宪法?如何改进?”
- 用改进后的回答做 RLHF 训练(RLAIF — AI Feedback 代替 Human Feedback)。
- 降低人工标注成本,且原则可审计。
常见防护手段:
- SFT/RLHF 安全对齐:用安全相关偏好数据训练,让模型学会拒绝违规请求。
- 输入侧护栏:分类器/规则过滤违规 prompt(如 Anthropic 的分类器、Llama Guard)。
- 输出侧护栏:生成后再过滤,违规内容不返回或重生成。
- 系统提示词:明确”不做什么”,强化模型安全倾向。
- 漏洞补丁:红队发现的攻击模式加入训练集,迭代修复。
- 访问控制:高危能力(如生化知识)按需限流。
面试加分点:
- 指出安全是多层防御:模型对齐 + 输入护栏 + 输出护栏 + 系统提示,单层都不够。
- 越狱与对齐是猫鼠游戏,没有”绝对安全”,只有持续红队与迭代。
- 宪法 AI 的 RLAIF 是降低对齐标注成本的范式创新,也是 Anthropic 的核心竞争力之一。
- Agent 时代新增”指令注入”风险——模型会执行检索到的恶意指令,需特别防护。
出处:Anthropic Constitutional AI 论文、大模型对齐安全面经。
内容来源
整理自大模型对齐安全面经与 Anthropic Constitutional AI 论文
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。