题目
CLIP 开创了视觉-语言对齐范式。请说明其原理,以及它为何能让”用文本搜图”成为可能。BLIP 系列又做了哪些改进?
参考答案
CLIP(Contrastive Language-Image Pre-training,OpenAI 2021):
核心思想:用对比学习把图像与文本拉到同一向量空间。
- 双编码器:图像编码器(ViT)+ 文本编码器(Transformer)。
- 训练目标:对 对(图,文),让正对的向量相似度高,负对(batch 内交叉)相似度低。
- 用 4 亿对图文对训练,学到通用的跨模态表示。
为何能跨模态检索:
- 训练后,图像与文本在同一向量空间。
- 文本搜图:把 query 编码成文本向量,在图像向量库中找最近邻。
- 零样本分类:把类别转成文本(“a photo of a cat”),与图像向量比相似度,取最高者。
BLIP 系列的改进:
BLIP(Salesforce 2022):
- 引入 CapFilt:用图像描述生成器(captioner)与过滤器(filter)清洗噪声图文对,提升数据质量。
- 支持理解(检索)+ 生成(描述)双任务。
BLIP-2:
- 关键创新:Q-Former 桥接冻结的视觉编码器与冻结的 LLM。
- 只训 Q-Former(轻量),复用预训练 LLM,大幅降低训练成本。
- 把视觉信息压缩成少量 token 喂给 LLM,支持多模态对话/推理。
后续演进:
- LLaVA:直接把 ViT 输出投影到 LLM 词嵌入空间,简单有效,成为开源多模态主流。
- Qwen-VL / GLM-4V:在 LLaVA 思路上加高分辨率、OCR、定位等能力。
对比表:
| 模型 | 对齐方式 | 支持生成 | 训练成本 |
|---|---|---|---|
| CLIP | 对比学习 | 否 | 高(全训) |
| BLIP | 对比+生成 | 是 | 高 |
| BLIP-2 | Q-Former 桥接 | 是 | 低(冻主干) |
| LLaVA | 线性投影 | 是 | 极低 |
面试加分点:
- 指出 CLIP 的对比学习本质是 InfoNCE 损失,batch size 越大负样本越多效果越好(CLIP 用 32k batch)。
- BLIP-2 的”冻结主干 + 训桥接层”思路是大模型时代的高效范式,把 LLM 当通用推理引擎。
- 多模态对齐的瓶颈已从”对齐方法”转向”高质量多模态数据”。
出处:CLIP 论文《Learning Transferable Visual Models From Natural Language Supervision》、BLIP/BLIP-2 论文、多模态面经。
内容来源
整理自多模态大模型面经与 CLIP/BLIP 论文
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。