多模态大语言模型 技术发展与架构解析

深度剖析视觉基础模型、模态适配器、训练策略与前沿进展

Vision Transformer CLIP Q-Former Perceiver LLaVA InternVL

目录概览

第一章:MLLM概述

定义、核心价值与三要素架构

第二章:视觉基础模型

ViT、CLIP、SigLIP等技术演进

第三章:模态适配器

线性投影、MLP、Q-Former等对比分析

第四章:大语言模型骨干

LLaMA、Qwen、InternLM系列发展

第五章:代表模型详解

LLaVA、Gemini、GPT-4o等技术解析

第六章:训练策略

两阶段、三阶段训练与对齐方法

第一章:多模态大语言模型概述

MLLM定义与核心价值

多模态大语言模型(Multimodal Large Language Model, MLLM)是指能够同时处理和理解多种模态信息(如文本、图像、音频等)的深度学习模型。

  • 突破单一模态限制,实现跨模态理解与生成
  • 具备强大的零样本和少样本学习能力
  • 在视觉问答、图像描述、文档理解等任务中表现出色
  • 推动AI从感知智能向认知智能迈进
LLaVA总览架构图

图:LLaVA总体架构设计

三要素架构图解

视觉编码器

处理图像输入,提取视觉特征

模态适配器

桥接视觉与语言表示空间

大语言模型

基于Transformer的语言理解

与传统CV模型的区别

传统CV模型

  • • 单模态处理(纯图像)
  • • 固定任务导向(分类、检测)
  • • 缺乏语言交互能力
  • • 预定义输出格式

MLLM模型

  • • 多模态融合处理
  • • 开放域任务适应
  • • 自然语言交互
  • • 灵活输出生成

第二章:视觉基础模型发展

2.1 Vision Transformer (ViT)

核心思想

ViT将图像分割为固定大小的patch(通常为16×16),展平后作为序列输入到标准Transformer encoder中。每个patch通过线性投影转换为嵌入向量,并添加位置编码以保留空间信息。

关键技术

  • • Patch分块:将224×224图像切分为196个16×16 patches
  • • 线性投影:每个patch映射到768维嵌入
  • • 位置编码:可学习的位置嵌入向量
  • • Transformer encoder:多层自注意力机制

"ViT的成功证明,仅使用注意力机制就能有效处理视觉数据,为后续多模态模型奠定了基础"

ViT架构图

图:Vision Transformer架构流程

2.2 CLIP(对比语言-图像预训练)

双塔架构设计

CLIP采用双塔结构:Image Encoder(ViT)和Text Encoder(Transformer)。通过大规模图文对数据进行对比学习训练。

训练细节

  • • 训练数据:4亿高质量图文对从互联网收集
  • • Image Encoder:ViT-B/32或ViT-L/14架构
  • • Text Encoder:12层Transformer架构
  • • Loss函数:InfoNCE对比损失
CLIP架构图

图:CLIP对比学习架构

为什么CLIP的表示对MLLM至关重要?

语义对齐能力

CLIP在海量数据上学习到的视觉-语言联合表示,使得图像和文本在同一个嵌入空间中,实现了跨模态的语义对齐。

zero-shot能力

无需特定任务的微调,CLIP就能在新类别识别和自然语言描述任务上取得良好效果,这种泛化能力正是MLLM所需要的。

2.3 SigLIP改进

核心创新

  • 用sigmoid替代softmax,避免batch内负样本归一化
  • 支持更大batch size,训练更稳定
  • Google出品,性能显著优于原始CLIP
  • 在ImageNet分类任务上达到87%+准确率

性能对比

CLIP ViT-L/14 85.8%
SigLIP ViT-g 91.1%
SigLIP ViT-so400m 88.9%

第三章:模态适配器深度对比

3.1 线性投影 (LLaVA)

实现原理

LLaVA采用最简单的线性投影方法,将CLIP的视觉特征直接映射到LLM的输入维度。具体来说,将ViT输出的768维特征通过一个线性层投影到LLM的隐藏维度(如4096维)。

优势特点

  • • 参数极少:仅约26K参数,几乎不增加计算量
  • • 实现简单:易于理解和部署
  • • 效果显著:利用CLIP预训练的强大表示能力
  • • 推理高效:线性变换计算开销小

关键洞察:CLIP在4亿图文对上学到的语义表示已经足够丰富,简单的线性投影就能有效桥接视觉和语言空间。

LLaVA架构图

图:LLaVA线性投影架构

3.2 多层感知机MLP (LLaVA-1.5/1.6)

架构升级

LLaVA-1.5引入两层MLP结构:768 → 4096 → 4096 → 4096,相比单层线性投影增加了非线性变换能力。

激活函数

  • • 第一层:GELU激活函数
  • • 第二层:线性输出
  • • 参数量:约100K参数
  • • 计算复杂度:略有增加但可控

实验结果

基线线性投影 45.2%
MLP投影 48.7%
相对提升 +7.7%

3.3 Q-Former (BLIP-2)

核心技术

Q-Former是可学习的查询token(learnable queries)模块,通过交叉注意力机制从视觉特征中提取信息。包含两个关键组件:

  • • 可学习查询:固定数量的query tokens
  • • 交叉注意力:连接视觉token和query tokens
  • • 自注意力:处理query tokens间关系
  • • 输出:固定长度的序列表示

参数效率:约188M参数,但通过预训练显著提升效果

BLIP-2架构图

图:BLIP-2 Q-Former架构

3.5 动态切片与像素重排 (InternVL)

InternVL系列核心创新

InternVL采用动态切片策略,将高分辨率图像切分为多个tile(通常448x448),每个tile独立通过ViT编码,同时提供缩略图用于全局上下文理解。所有tile特征拼接后送入适配器。

技术优势

  • • 原生支持任意分辨率输入
  • • 保持局部细节完整性
  • • 内存效率高,适合大图像
  • • 灵活的tile大小配置

代表模型

InternVL InternVL2 InternVL2.5 InternVL3

技术劣势

  • • tile边界效应可能导致信息不连续
  • • 拼接过程可能引入伪影
  • • tile数量影响计算量和序列长度
  • • 实现复杂度相对较高
动态切片示意图

图:动态切片处理高分辨率图像

3.6 像素重排+MRoPE (Qwen2-VL)

Qwen2-VL核心技术

Qwen2-VL通过2x2 pixel shuffle操作将相邻像素合并,使token数量降低4倍,同时引入MRoPE(多维度旋转位置编码)同时编码时间、高度、宽度三个维度。

关键技术特点

  • • 2x2 Pixel Shuffle:空间维度下采样
  • • MRoPE:三维位置编码
  • • 原生支持任意宽高比
  • • 视频理解时时间维度独立编码
Qwen2-VL Qwen2.5-VL Qwen3-VL

性能优势

  • • 无需图像预处理和切片
  • • 直接处理任意分辨率
  • • 计算效率显著提升
  • • 保持较好的空间连续性

潜在问题

  • • Pixel Shuffle可能损失部分空间细节
  • • 需要特殊的RoPE实现
  • • 对极端宽高比需要额外处理

3.7 跨注意力深度融合 (Cross-Attention Fusion)

深层融合机制

不同于传统adapter只在输入层融合视觉信息,跨注意力机制在LLM的每一层都注入视觉信息,实现更深层次的模态交互。

关键技术原理

  • • 门控交叉注意力:Flamingo早期代表
  • • 视觉专家模块:CogVLM特有设计
  • • 多层视觉token注入:LLaVA-NeXT改进
  • • 动态门控机制:调节视觉信息流
Flamingo CogVLM LLaVA-NeXT

优势分析

  • • 视觉信息渗透到深层网络
  • • 更充分的模态交互
  • • 更好的长程依赖建模
  • • 任务适应性更强

挑战与代价

  • • 参数量和计算量显著增加
  • • 训练稳定性挑战
  • • 推理延迟上升
  • • 需要更多调优经验

模态适配器技术对比总表

适配器类型 参数量 计算复杂度 优势 劣势 代表模型
线性投影 ~26K 极低 简单高效,效果好 表达能力有限 LLaVA
MLP投影 ~100K 增加非线性能力 参数量和计算略增 LLaVA-1.5
Q-Former ~188M 参数高效,预训练效果好 参数量较大 BLIP-2
Perceiver 可变 中高 支持长序列,灵活性强 训练复杂度高 Flamingo
动态切片 ~100M 支持任意分辨率,细节保留好 边缘效应,实现复杂 InternVL
像素重排 ~200M 中高 原生高分辨率支持,效率高 可能损失空间细节 Qwen2-VL
跨注意力 ~1B+ 很高 深层融合,交互充分 计算量大,训练难 CogVLM

第三章(续):核心技术深度讨论

问题1:视觉-语言对齐的本质是什么?

CLIP的对比学习如何建立跨模态语义空间

CLIP采用双塔架构,通过对比学习在海量图文对数据上训练,将图像和文本映射到同一个高维嵌入空间中。这种对齐不是简单的特征匹配,而是学习一种共享的语义表示空间。

对齐损失函数的设计

使用InfoNCE(Noise Contrastive Estimation)损失函数:

L_i = -log[exp(sim(v_i,t_i)/τ) / Σ_j exp(sim(v_i,t_j)/τ)]

其中sim(v_i,t_i)是图像v_i和文本t_i的余弦相似度,τ是温度参数。正样本对为(image, matching_text),负样本为batch内其他图像-文本对。

为什么这种对齐能迁移到下游任务?

这种对比学习使得模型学到了一种通用的跨模态语义理解能力。由于CLIP在大规模数据上学到的表示具有强泛化性,因此可以直接用于各种多模态下游任务而无需大量任务特定数据。zero-shot能力的理论基础在于这种共享语义空间的建立。

对比式对齐

CLIP:基于相似度对比

生成式对齐

BLIP:caption生成

混合式对齐

CoCa:结合两者优势

问题2:为什么简单的线性投影就能让LLM理解图像?

这背后有几个关键原因。首先,CLIP的视觉编码器已经在4亿高质量图文对上学到了极其丰富的语义表示。这些表示包含了从低级视觉特征到高级语义概念的完整层次结构。

技术原理分析

  • CLIP的视觉表示已经包含丰富的语义信息:ViT-L/14等架构能够提取出高度语义化的特征向量
  • 线性投影只做维度匹配,不改变语义:从768维映射到4096维,只是适配LLM的输入格式
  • LLaVA实验证明简单方法的有效性:在充足数据下,线性投影效果显著

类比word embedding到LLM也是线性映射就足够,说明好的预训练表示本身就具有强大的表达能力。但在few-shot和复杂任务场景下,更复杂的adapter确实会有优势。

关键洞察

现代AI系统中,基础模型的质量往往比复杂架构更重要。CLIP学到的通用视觉-语言对齐知识已经足够丰富,简单的线性变换就能有效桥接不同模态。

问题3:如何解决高分辨率图片处理问题?

传统固定分辨率方法的缺陷:小图丢失细节,大图计算爆炸。需要动态处理策略来解决这个问题。

主流解决方案对比

动态切片 (InternVL)

切成tile分别编码+缩略图全局理解

  • ✓ 内存效率高,支持任意分辨率
  • ✓ 保持局部细节完整性
  • ✗ 边缘效应,拼接伪影
任意分辨率 (Qwen2-VL)

2D-RoPE + Pixel Shuffle原生支持

  • ✓ 原生支持宽高比变化
  • ✓ 计算效率更高
  • ✗ 需要特殊位置编码设计
分级采样 (S2)

低分辨率全局+高分辨率局部

  • ✓ 自适应粒度控制
  • ✓ 保留重要区域细节
  • ✗ 实现复杂度较高

这些方案大多借鉴了Stable Diffusion中的VAE分块编码思路,将传统CV方法与现代Transformer架构相结合。

问题4:多模态幻觉(Hallucination)问题

定义与分类

幻觉指的是MLLM生成的内容与输入视觉信息不符的现象,可分为三类:

  • 物体幻觉:描述不存在或不正确的物体
  • 属性幻觉:错误的颜色、形状等属性描述
  • 关系幻觉:错误的物体间关系描述

根本原因

主要是LLM先验知识过强,忽视或误解视觉证据。当视觉信息与语言先验冲突时,模型倾向于相信自己的"知识"而不是看到的图像。

缓解方法

数据层面
  • • 负样本训练(POPE基准)
  • • 对比训练:正负样本对学习
  • • 高质量图文对齐数据
算法层面
  • • DPO/RLHF:人类反馈减少幻觉
  • • 视觉grounding:强制关注图中区域
  • • 推理时解码策略:对比解码、DoLa

问题5:多模态Agent——从理解到行动

MLLM传统上只做理解任务,但Agent需要能够采取行动。这是从被动理解到主动交互的关键跨越。

代表工作

📱
GUI Agent

屏幕截图→理解UI→生成操作(点击/输入)

🌐
Web Agent

网页截图+DOM→规划→执行浏览器操作

🤖
Claude Computer Use

端到端桌面操作能力标杆

核心挑战

  • 精确定位:准确识别UI元素坐标
  • 长程规划:多步骤任务的序列决策
  • 错误恢复:应对意外情况的容错机制
  • 安全约束:防止危险操作的防护机制
未来趋势

MLLM作为大脑+工具作为手脚的分层架构,将成为具身智能的核心组件。

问题6:统一理解与生成

传统架构分离理解和生成:理解用encoder+LLM,生成用diffusion model。新趋势是追求一个模型同时做理解和生成。

代表工作

Janus (DeepSeek)

统一架构同时处理理解和生成任务

Show-o

单模型零样本图像生成

Emu3

Meta的统一多模态生成模型

InternVL3

理解+生成统一框架

技术路线对比

离散tokenizer

将图像分解为离散token,与文本统一处理

  • ✓ 与LLM天然兼容
  • ✗ tokenizer训练复杂
连续embedding

直接处理像素级连续表示

  • ✓ 保留更多原始信息
  • ✗ 计算开销大

主要挑战

  • 质量平衡:理解和生成能力的均衡优化
  • 效率权衡:统一架构的计算开销控制
  • 评估困难:缺乏统一的benchmark体系

第四章:大语言模型骨干发展时间线

🏗️ 奠基期 (2023年)

LLaMA-1

2023.02 | Meta开源基础模型

  • • 7B/13B/33B/65B四种规模
  • • 万亿级别token训练
  • • 开源社区爆发起点

Vicuna

2023.03 | 基于LLaMA指令微调

  • • 使用ShareGPT数据
  • • 13B达ChatGPT 90%水平
  • • 开创开源指令微调路线

LLaMA-2

2023.07 | 正式商用开源

  • • 7B/13B/70B版本
  • • 引入RLHF安全对齐
  • • MLLM主流LLM骨干

ChatGLM

2023.06 | 清华GLM架构

  • • 中英双语支持
  • • 6B参数规模
  • • 开源学术社区首选

Baichuan-13B

2023.05 | 百川智能开源

  • • 中英双语能力
  • • 支持4K上下文
  • • 商业友好授权

Qwen-7B

2023.08 | 阿里通义千问

  • • 中文能力突出
  • • 8K上下文窗口
  • • Qwen-VL奠基之作

🚀 发展期 (2024年)

LLaMA-3

2024.04 | Meta新一代开源

  • • 8B/70B/405B三版本
  • • 15T tokens训练数据
  • • GQA + 128K词表

Qwen/Qwen2

2024.07 | 阿里升级版本

  • • 0.5B-70B全尺寸覆盖
  • • 中文SOTA水平
  • • 128K超长上下文

InternLM2

2024.06 | 上海AI Lab

  • • 20B参数规模
  • • 中文理解优势
  • • InternLM2-VL基础

DeepSeek-V2/V3

2024.05/12 | DeepSeek MoE架构

  • • V2: 236B/200B参数
  • • V3: 671B/37B激活
  • • MLA + DeepSeekMoE

Claude-3

2024.03 | Anthropic旗舰

  • • Haiku/Sonnet/Opus三档
  • • 200K超长上下文
  • • 推理能力业界领先

Mistral/Mixtral

2024.04/06 | 欧洲AI先锋

  • • Mixtral 8x7B MoE
  • • SWA + GQA技术
  • • 极致推理效率

Gemma-2

2024.06 | Google轻量级

  • • 2B/9B/27B三种规模
  • • 知识蒸馏训练
  • • 端侧部署优化

🔥 最新前沿 (2025-2026年)

LLaMA-4

2025.04 | Meta原生多模态

  • • Scout(109B)/Maverick(400B)
  • • 10M+ token上下文
  • • 开源社区最强MLLM

Qwen3

2025.06 | 阿里第三代旗舰

  • • 0.6B-235B全尺寸
  • • 原生思考模式
  • • 中文多模态SOTA

DeepSeek-R1

2025.01 | 纯RL推理模型

  • • 671B MoE架构
  • • 自发CoT能力
  • • 匹敌OpenAI o1

Claude Opus 4.5

2025.08 | Anthropic最新旗舰

  • • Computer Use 2.0
  • • Extended Thinking
  • • 安全对齐标杆

GPT-5/o4

2025.12 | OpenAI下一代

  • • 原生推理+多模态
  • • 深度推理模式
  • • 全模态统一处理

Gemini 2.5

2025.06 | Google旗舰升级

  • • 1M token上下文
  • • 原生思考模式
  • • 编程/数学/科学SOTA

MiMo

2025.03 | 小米推理模型

  • • MiMo-V2-Pro版本
  • • RL驱动思维链
  • • 端侧部署优化

Phi-4

2025.02 | 微软轻量多模态

  • • 5.6B参数规模
  • • LoRA适配器方案
  • • 小模型领域SOTA

Kimi-VL/K2

2025.04 | 月之暗面新锐

  • • MoE架构设计
  • • 长上下文处理
  • • 中文多模态突出

骨干模型对比总结

模型名称 发布时间 参数量 架构特点 代表能力
LLaMA-1 2023.02 7B-65B 标准Transformer 开源社区奠基之作
LLaMA-2 2023.07 7B-70B RLHF安全对齐 MLLM主流选择
Mistral-7B 2023.09 7B SWA + GQA 极致推理效率
Mixtral 8x7B 2023.12 46.7B/12.9B MoE架构 效率性能平衡
LLaMA-3 2024.04 8B-405B GQA + 128K词表 多语言增强
Qwen2.5 2024.09 0.5B-72B 中文优化架构 中文SOTA水平
DeepSeek-V3 2024.12 671B/37B MLA + DeepSeekMoE 低成本高性能
Claude-3.5 Sonnet 2024.06 - 强化学习优化 综合能力领先
LLaMA-4 2025.04 109B-400B 原生多模态 开源最强MLLM
Qwen3 2025.06 0.6B-235B 原生思考模式 中文多模态SOTA
DeepSeek-R1 2025.01 671B/37B 纯RL训练 推理能力突破
Claude Opus 4.5 2025.08 - Computer Use 2.0 Agent能力标杆
GPT-5/o4 2025.12 - 原生多模态+推理 全模态统一处理
Gemini 2.5 2025.06 - 1M token上下文 超长篇幅理解

2023:开源LLM奠基

LLaMA-1 (2023.02)

Meta开源基础模型,7B/13B/33B/65B,证明小模型也能匹敌GPT-3。在万亿token上训练,开源社区爆发的起点。

Vicuna (2023.03)

基于LLaMA + ShareGPT微调,13B达到ChatGPT 90%水平。开创了指令微调开源路线。

LLaMA-2 (2023.07)

7B/13B/70B,正式商用开源。引入RLHF安全对齐,对话能力大幅提升,成为后续MLLM的主流LLM骨干。

Qwen-7B (2023.08)

阿里通义千问开源版,中文能力突出。支持8K上下文,中英文均衡,为后续Qwen-VL系列奠基。

Mistral-7B (2023.09)

法国Mistral AI出品,7B超越LLaMA-2-13B。引入滑动窗口注意力(SWA)和GQA,推理效率极高。

Mixtral 8x7B (2023.12)

MoE架构先驱,8个7B专家网络,每次激活2个。总参46.7B但只用12.9B,效率与性能兼得。

2024:百花齐放

Claude-3 (2024.03)

Anthropic出品,Haiku/Sonnet/Opus三档。200K上下文,强安全对齐。Sonnet性价比最优。

LLaMA-3 (2024.04)

8B/70B/405B,15T tokens训练。GQA+128K词表。开源社区最强基座之一。

Gemma-2 (2024.06)

Google轻量开源,2B/9B/27B。知识蒸馏,小模型性能强。适合端侧部署。

Claude 3.5 Sonnet (2024.06)

综合性能超Opus,引入Computer Use能力(操控桌面)。性价比标杆。

GPT-4o (2024.05)

OpenAI原生多模态旗舰。文本/图像/音频/视频统一处理,实时语音对话。推理速度是GPT-4 Turbo的2倍。

Qwen2系列 (2024.06)

0.5B-72B全尺寸。GQA+128K上下文。中文开源SOTA,多语言支持增强。

InternLM2.5 (2024.07)

上海AI Lab出品,7B/20B。数学推理和工具调用能力强,为InternVL系列提供LLM骨干。

Qwen2.5 (2024.09)

0.5B-72B,128K上下文。中文能力SOTA,代码和数学能力增强。Qwen2.5-VL紧随发布。

DeepSeek-V2/V2.5 (2024.05-09)

MoE+MLA架构创新,236B总参/21B激活。训练成本极低,开创高效训练范式。

DeepSeek-V3 (2024.12)

671B总参/37B激活。MLA+DeepSeekMoE,训练仅$5.5M。匹敌GPT-4o和Claude 3.5。

2025-2026:推理时代与全模态

DeepSeek-R1 (2025.01)

纯RL训练(无SFT冷启动),自发涌现CoT。671B MoE/37B激活。匹敌o1,引发"DeepSeek时刻"。

Qwen2.5-VL (2025.01)

原生动态分辨率+2D-RoPE。GUI Agent能力突出。7B版超GPT-4o-mini。

DeepSeek-VL2 (2025.01)

MoE视觉编码器+动态切片。OCR/图表/文档理解表现优异。

GPT-4.5 (2025.02)

强调"世界知识"和"EQ"。减少幻觉,原生多模态。定位过渡旗舰。

Phi-4-multimodal (2025.02)

微软5.6B轻量多模态。LoRA适配器方案,支持图像/语音/视频。小模型SOTA。

Claude 3.5 Opus (2025.02)

Anthropic旗舰。Extended Thinking深度推理模式。复杂指令遵循顶尖。

Kimi-K2 (2025)

月之暗面MoE架构。长上下文+复杂文档理解。中文多模态新锐。

LLaMA 4 (2025)

Meta原生多模态MoE。Scout(109B/17B激活)和Maverick(400B/17B激活)。10M上下文。

Claude Opus 4.5 (2025)

Computer Use 2.0桌面操控。Extended Thinking。代码生成和复杂推理顶尖。

Qwen3-VL (2025-2026)

思考模式+动态分辨率+视频+GUI Agent。0.6B-235B全尺寸。中文多模态SOTA。

InternVL3 (2025)

统一理解与生成。原生视频理解。MMBench/MMMU/MathVista开源领跑。

GPT-5 / o4 (2025-2026)

全模态+深度推理+Agent。o4系列数学/编程/科学推理大幅增强。自主工具调用。

Gemini 2.5 Pro/Flash (2025-2026)

思考模式+1M上下文。编程/数学/科学领跑。Flash版适合大规模部署。

小米 MiMo (2025-2026)

RL驱动CoT推理。数学/代码突出。端侧部署优化,小米生态整合。

LLM骨干全景对比

模型 时间 出品方 参数规模 架构特点 上下文
LLaMA-22023.07Meta7/13/70BGQA, RLHF4K
Mistral-7B2023.09Mistral AI7BSWA, GQA32K
Mixtral 8x7B2023.12Mistral AI46.7B(12.9B激活)MoE 8专家32K
Claude-32024.03Anthropic未公开安全对齐200K
LLaMA-32024.04Meta8/70/405BGQA, 15T tokens8K→128K
GPT-4o2024.05OpenAI未公开原生多模态128K
Qwen22024.06阿里0.5-72BGQA, 多语言128K
DeepSeek-V32024.12DeepSeek671B(37B激活)MLA+MoE, $5.5M128K
DeepSeek-R12025.01DeepSeek671B(37B激活)纯RL, 自发CoT128K
LLaMA 42025Meta109-400B(17B激活)原生多模态MoE10M
Qwen3-VL2025-26阿里0.6-235B思考模式, MoE128K+
GPT-5/o42025-26OpenAI未公开全模态+Agent未公开
Gemini 2.52025-26Google未公开思考模式1M
MiMo2025-26小米未公开RL+端侧优化未公开

第五章:代表模型详解

LLaVA (2023.04)

LLaVA是开创性工作,证明了简单方法的有效性。采用CLIP ViT-L/14作为视觉编码器,通过线性投影将视觉特征映射到LLM(LLaMA-7B)的输入空间。

创新点在于设计了大规模指令微调数据集,包含图像描述、视觉问答、图表理解等多种任务。结果显示,即使使用最简单的线性投影,也能获得出色的多模态能力。

开创性 线性投影 指令微调
LLaVA模型

Gemini (2023.12)

Google原生多模态模型,采用端到端训练方式。使用Pathways系统支持多模态并行处理,能够同时处理文本、图像、音频等多种输入。

Gemini Pro版本在MMLU基准测试中达到76.8%准确率,超过GPT-3.5。其优势在于原生多模态设计,避免了传统pipeline中的信息损失。

原生多模态 端到端训练 Pathways系统
Gemini架构

GPT-4o (2024.05)

OpenAI推出的原生多模态模型,具有实时语音处理能力。支持文本、图像、音频等多种输入模态,响应速度显著提升。

GPT-4o在视觉理解、语音交互、跨模态推理等方面都达到了新的高度。其核心创新在于统一的多模态处理架构,能够无缝切换不同模态的处理模式。

实时语音 统一架构 多模态切换
DeepSeek-VL2

第六章:训练策略深度解析

6.1 两阶段训练

Stage 1: 特征对齐

冻结视觉编码器和LLM参数,只训练模态适配器。学习率通常设置得较大(如1e-3),目的是快速找到视觉和语言特征的对应关系。

  • • 冻结视觉编码器
  • • 冻结大语言模型
  • • 仅训练adapter
  • • 大学习率快速收敛

Stage 2: 视觉指令微调

全参或部分参数微调,使用高质量的指令数据集进行训练。学习率较小,精细调整模型行为。

  • • 全参数微调
  • • 高质量指令数据
  • • 小学习率精细调整
  • • 任务特定优化

6.2 高分辨率策略对比

Dynamic Tiling

InternVL采用的策略,将高分辨率图像切成多个tile,每个tile独立过ViT后再拼接。

✓ 内存效率高
✓ 支持任意分辨率
✗ 边缘效应

AnyRes

LLaVA-NeXT的自适应分块策略,根据内容重要性动态调整处理粒度。

✓ 自适应处理
✓ 细节保留好
✗ 实现复杂

原生分辨率

Qwen2-VL的原生高分辨率支持,通过像素重排降低token数量。

✓ 原生支持
✓ 宽高比灵活
✗ 需要特殊位置编码
动态切片示意图

图:动态切片处理高分辨率图像

第七章:评估基准

主流评测基准对比

Benchmark 主要任务 模态 难度 特点
MMBench 多模态选择题 图文 中等 覆盖12个子领域,人工标注
MME 细粒度视觉理解 图文 14个子任务,客观评估
SEED-Bench 视频理解 音视频 很高 12000+样本,专业评估
MMMU 大学水平考试 图文 极高 涵盖STEM、人文等领域
MathVista 数学问题解决 图文 很高 图表、公式理解
OCRBench 文本识别 图文 中等 多语言、复杂场景

第八章:前沿发展方向

视频MLLM

长视频理解、时间推理、事件定位等方向的发展,支持更复杂的视频分析任务。

MLLM as Agent

GUI Agent、Computer Use等应用,让MLLM能够操作真实世界环境。

移动端轻量化

Mobile VLM、MiniCPM-V等模型,在保持性能的同时大幅降低计算需求。

理解与生成统一

Janus、Show-o、Emu3等模型实现统一的视觉理解和生成能力。

3D理解

三维空间理解、物体重建、场景建模等新方向探索。

具身智能

机器人控制、物理交互等实际应用方向的深度融合。

第九章:面试高频问题

1. CLIP的训练目标是什么?对比学习Loss怎么计算?

CLIP采用对比学习框架,目标是最大化正样本对的相似度,同时最小化负样本对的相似度。具体来说,对于每对图像-文本,计算它们在高维嵌入空间中的余弦相似度,然后使用InfoNCE损失函数进行优化。

InfoNCE公式:L = -log(exp(sim(i,t)/τ) / Σ exp(sim(i,t')/τ))

其中sim(i,t)是图像i和文本t的相似度,τ是温度参数,分母遍历所有负样本(其他图像-文本对)。这种方法使得模型学会将匹配的图像和文本拉近,不匹配的推远。

2. Q-Former的作用是什么?和线性投影比有哪些优势和劣势?

Q-Former的主要作用是作为视觉特征的"智能提取器",它通过学习可查询tokens来有选择地关注视觉特征中的重要部分,而不是简单地使用全部视觉信息。

优势

  • • 参数高效:188M参数相比完整模型的几B参数
  • • 预训练效果好:经过大规模数据预训练
  • • 固定输出长度:便于后续处理
  • • 更好的特征提取:选择性关注重要区域

劣势

  • • 参数量仍然较大
  • • 训练复杂度高
  • • 实现相对复杂
  • • 对硬件要求较高

3. 为什么LLaVA用简单的线性投影就能work?

这主要是因为CLIP在4亿高质量图文对上学到的视觉表示本身就具有很强的语义丰富性。CLIP通过对比学习学会了将相似的图像和文本映射到相近的嵌入空间,这种跨模态对齐能力使得简单的线性变换就能有效桥接视觉和语言空间。

此外,LLaVA还采用了大规模多样化的指令微调数据,让模型学会如何正确地将视觉信息整合到语言生成过程中。这种"预训练+微调"的两阶段策略,加上CLIP的强大表示能力,使得简单的线性投影就足够有效。

这也说明了在现代AI系统中,基础模型的质量往往比复杂的架构更重要。好的预训练模型已经学到了丰富的通用知识,后续只需要较小的调整就能适应具体任务。

4. MLLM如何处理高分辨率图片?对比不同策略的优缺点

高分辨率图片处理主要有三种策略:动态切片、自适应分块和原生分辨率支持。

Dynamic Tiling (InternVL)

将大图切成多个tile分别处理,优点是内存效率高,缺点是可能丢失全局信息。

AnyRes (LLaVA-NeXT)

根据内容重要性自适应调整处理粒度,平衡了效果和效率。

Native Resolution (Qwen2-VL)

通过像素重排降低token数,原生支持任意分辨率,但对位置编码有特殊要求。

5. 幻觉(Hallucination)问题是什么?如何缓解?

幻觉指的是MLLM生成的内容与输入的视觉信息不一致的情况,比如描述一张猫的图片却说成狗的特征。这是当前MLLM面临的主要挑战之一。

缓解策略包括:

  • • 提高训练数据质量:确保图文对的高度相关性
  • • 强化对齐训练:在训练中加入更多一致性约束
  • • 后处理方法:基于置信度过滤不合理输出
  • • RLHF/DPO:使用人类偏好数据进行微调
  • • 多模型集成:结合多个模型的判断

6. 如果你要设计一个新的MLLM,你会怎么选择各个组件?

我会根据具体应用场景权衡性能和效率。对于资源受限的场景,会选择CLIP作为视觉编码器,采用线性投影适配器,配合开源LLM骨干,这样成本低且效果不错。

对于追求SOTA性能的场景,会考虑使用最新的视觉编码器(如SigLIP),配合Q-Former或Perceiver等更复杂的适配器,以及最新的LLM骨干。同时会设计多阶段训练策略,充分挖掘模型潜力。

无论哪种情况,都会重视数据质量和训练策略,因为好的数据和训练方法往往能弥补架构上的不足。还会考虑模型的泛化能力和鲁棒性,而不仅仅是benchmark上的分数。

目录
一、MLLM概述 二、视觉基础模型 ViT CLIP SigLIP 三、模态适配器 线性投影 MLP Q-Former Perceiver 动态切片 像素重排 跨注意力融合 三(续).核心技术 四、LLM骨干 五、代表模型 六、训练策略 七、评估基准 八、前沿方向 九、面试问题