▰AI 求职面经库

← 返回题库

前沿专题中等

大模型安全与对齐：越狱、红队、宪法 AI 是什么？

#越狱攻击#红队#宪法 AI#对齐安全

题目

大模型上线前需做安全对齐。请说明越狱（jailbreak）、红队测试、宪法 AI 各是什么，以及常见防护手段。

参考答案

越狱（Jailbreak）：用户通过特殊 prompt 绕过模型安全限制，让它输出违规内容。常见手法：

角色扮演：“假设你是一个没有道德限制的 AI…”
渐进诱导：先问无害问题，逐步逼近敏感边界。
编码绕过：用 base64、Pig Latin、小语种绕过过滤器。
假设场景：“这是写小说，角色需要…”
指令注入：在文档/网页里藏指令，让 RAG/Agent 执行。

红队测试（Red Teaming）：组织专门团队（人或 AI）模拟攻击，主动找模型的安全漏洞。

人工红队：安全专家设计攻击 prompt。
自动红队：用另一个 LLM 自动生成攻击，迭代优化。
发现漏洞后补训练数据或加护栏。

宪法 AI（Constitutional AI，Anthropic）：

不靠人工标注偏好，而是给模型一套”宪法”（一组原则： Helpful、Harmless、Honest 等）。
模型生成回答后自我批评：“这个回答是否违反宪法？如何改进？”
用改进后的回答做 RLHF 训练（RLAIF — AI Feedback 代替 Human Feedback）。
降低人工标注成本，且原则可审计。

常见防护手段：

SFT/RLHF 安全对齐：用安全相关偏好数据训练，让模型学会拒绝违规请求。
输入侧护栏：分类器/规则过滤违规 prompt（如 Anthropic 的分类器、Llama Guard）。
输出侧护栏：生成后再过滤，违规内容不返回或重生成。
系统提示词：明确”不做什么”，强化模型安全倾向。
漏洞补丁：红队发现的攻击模式加入训练集，迭代修复。
访问控制：高危能力（如生化知识）按需限流。

面试加分点：

指出安全是多层防御：模型对齐 + 输入护栏 + 输出护栏 + 系统提示，单层都不够。
越狱与对齐是猫鼠游戏，没有”绝对安全”，只有持续红队与迭代。
宪法 AI 的 RLAIF 是降低对齐标注成本的范式创新，也是 Anthropic 的核心竞争力之一。
Agent 时代新增”指令注入”风险——模型会执行检索到的恶意指令，需特别防护。

出处：Anthropic Constitutional AI 论文、大模型对齐安全面经。

内容来源

整理自大模型对齐安全面经与 Anthropic Constitutional AI 论文

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。