01 — 岗位职责
- ▹多模态大模型研发(CLIP / BLIP / LLaVA 类架构)
- ▹Diffusion / Flow Matching 视频与图像生成
- ▹可控生成与图像编辑能力建设
- ▹跨模态对齐训练与数据构造
- ▹多模态评测体系搭建
02 — 能力要求
熟练 PyTorch 与 Diffusion 体系VAE、Flow Matching 原理视觉编码器(ViT / SigLIP / EVA-CLIP)视频时序建模分布式训练
03 — 面试考点
CLIP 对齐原理与对比学习
Diffusion 采样加速(DDIM / DPM-Solver)
可控生成(ControlNet / T2I-Adapter)
多模态评测指标
视频生成的时序一致性
04 — 岗位速写
多模态算法工程师适配 AIGC、视频生成等热门场景,需求持续暴涨。其核心在于打通”看”与”生成”——既要做跨模态对齐(CLIP 类),也要做高质量生成(Diffusion / Flow Matching)。
视频生成是当前最前沿的战场之一,时序一致性、运动可控性、长视频生成都是面试高频考点。