GPT-4o 实现真正的多模态大一统了吗？技术难度多高？

发表于 2025-4-8 12:32:37

搞了一点语音数据，简单地微调了一下8b的internvl，发现效果意外地不错。做了一个小小的语音图文多模态模型预览版，模型数据评测都会陆续开源，后续更多更流畅的交互也会继续做，欢迎关注&star
code：
https://github.com/OpenGVLab/InternVLblog：
https://internvl.github.io/blog/2024-07-27-InternOmni/

类gpt-4o语音多模态交互
https://www.zhihu.com/video/1804119148680323072

发表于 2025-4-8 12:44:33

从现在的应用体验上看，GPT-4o实现了非常好的多模态大模型，而且这个模型在“人类可感知的方面”大大超过了其它多模态大模型。

我想先简单的解释一下什么是多模态
再解释一下多模态的难点
再谈为什么GPT-4o做得这么好的可能性在那儿

什么是多模态？

通常能够处理不同类型的输入数据就是多模态模型了。常见的多模态数据是 文本、图像、音频、视频等（可能有触觉、嗅觉、味觉。。。其它传感器，但是太小众了）。多模态大模型的设计目标是通过融合多种模态的数据，提升模型的理解能力和表现，从而在更广泛的应用场景中提供更为智能的解决方案。可以说，多模态是通用人工智能（AGI）的必然形态。

多模态的难点

要知道过去，大概从200x年开始的CNN，其实是单模态的，从处理图像数据开始。然后各种框架慢慢的扩展到了文字。但是到了视频、这块就卡住了。因为视频本身是一个多模态数据，它是综合了连续图像、声音、文字等多种信息的结合。
对于人来讲可能天生就是处理多模态的生物，同时多种数据的输入还有助于记忆。而计算机，恰巧不是。如果你把计算机处理问题看成是解方程吧，多模态至少意味着方程的变量多到爆了。那自然就难了。
这个比喻可能不恰当，不过没关系。你知道多模态难就对了。
本质上多模态难在多种类型的数据融合，既它们怎么变成一个模型能够最终统一处理的数据类型。
这种数据融合有几种方式：

数据输入阶段就变成同一种，比如文字、声音转文字、图像转文字描述。这样就全是文字处理了，变成了LLM的输入。
特征提取后融合。比如文字转Embedding嵌入、声音转Embedding嵌入，图像转Embedding。这样可能就是通过嵌入后，统一处理了。我们可以看到公开的资料，实际上这一种方法用的多一些。

但是也意味着，这种方法要提供的数据非常多，同时因为要处理大量的不同数据的输入，它的模型不会太小，对于算力的要求也非常多。一个精巧有效且尽可能利用现有计算硬件的模型也是必须的。所以它在要求的就是现阶段的人+数据+算力 = 人工智能这个公式的最优解。
于是，你看做得最好的依然是OpenAI。因为它有全球差不多最优秀的那一批人，有最好的算力支持（全球首台H200，同时也意味着以后的优先供货都给了OpenAI吧）。

但是即使是这样，多模态依然是人工智能最难的任务。OpenAI还在努力中。

2015年ImageNet这个比赛，微软亚洲研究院由孙剑、何凯明、张祥雨和任少卿组成的团队首次超过人类的记录。
2020年（可能是以前），声音识别可能就超过了人类。
2023年左右，Gemini才在某一个单项指标MMLU上超过人类，但是离全面超过人类还有一段距离吧！
但是这一次GPT-4o在多个测试中，其实是全面领先的，也就是它是当前最接近人类的多模态大模型。

如果你看实际的代码，可能你会发现它的处理远比大语言模型（LLM）复杂。LLM本身就是 Embedding再加个Decoder，如果输出用个Softmax加个大的词表，结束了。

而多模态（以DeepSeek-VL举例）的代码里是这样构成的。有一个ViT 再混合一个llm的。核心可能涉及到 siglip、 CLIPVisionTower、llama 这几个核心模型，预处理是sam还有一些其它别的类型的Tokenizer。这些东西的组合与接续是不是能够有效，怎么处理才是对的，可能你改一点儿都要经过几天才能确认出可能性！那怎么搞呢？
如果是GPT-4o，它的输入是文字、声音、图像、视频，只能比这个复杂上几倍。在人工智能发展到大模型阶段后，它可能是最难的东西了。
当然了，如果你真的对这个东西有兴趣，最好的方式还是躬身入局啊。
“知乎知学堂开发的程序员的AI 大模型进阶之旅”，它是一门专门针对程序员的AI课程，学习大模型相关的LangChain、Fine-tune技术，从理论实践，到深度讲解，带你全程体验微调过程，还提供免费的CPU环境做实验！可以指导你快速的掌握基础知识，同时熟悉一定的框架，还有实例。差不多是最快的入门方法了。相信你学了这些，就能更容易上手多模态的相关东西。
还有一点，可能不是一个学术类的问题，是一个纯粹的工程性优化。GPT-4o是真的做到类人的响应速度的，它的工程优化能力是非常可怕的。我们可以想象一个在A100上要运行10tokens/s的模型，优化成50～100tokens/s需要的全系统及模型的优化能力，要保障在几万块显卡甚至更多的集群中及服务pods上做到这个水准，是什么样的？那个全球可能没有几个人有这样的经验是真的吧。
至于大家觉得惊艳的什么情绪啊。。这个是大数据带来的必然结局，没有什么可想的，只要标注数据足够多，就能达到这个生成效果。我们可以看到很多TTS都有不错的情绪表现的！
推测一下GPT-4o做得这么好的原因

最优秀的人，可能是最核心的原因吧。OpenAI对于人才的理解明显与众不同，SamAltman没毕业、illya是个全球知名的博士、GPT-4o的多模态负责人Prafulla Dhariwal，实际只有本科学历、Sora的论文作者中，还有一位研究员，仅有高中毕业证、OpenAI曾经的技术主管Christopher Olah，都没正经念过几天书。。所以很明显OpenAI找到的肯定是他们认为的最适合的最优秀的人。
同时OpenAI是一个很明显崇尚解决问题的机构，它们已经不把发论文刷榜做为自己的指标了。这次GPT-4o能做到体验这么好，明显是在这个指导原则下完成的优秀产品。
海量的数据，做为全球最优秀的AI公司，很明显OpenAI已经完成了自己的数据飞轮搭建，估计已经达到了“数据自由”。过去曾经有传OpenAI是用了Youtube与Meta的海量的视频数据来训练的。是不是觉得谷歌有点儿“二”。
OpenAI应该是全球能用到最多Nvidia芯片的公司吧
核心基础软件的优化应该是完成了。过去的ChatGPT、GPT4都曾经出过多次问题，宕机过几次吧。而且明显GPT4的生成速度是极慢的，也说明GPT4即使在模型上是最好的，但是在优化上做的并不理想。而这次的GPT-4o能够达到300ms左右的声音交互反馈，这是一个完全类人级别的响应能力。可以确定GPT-4o是真的在多模态这个复杂的大模型上达到了工程级别的能力。

期望GPT-5比这个更优秀，真的接近AGI！
为人类的硅基化指明这一条可行的路！

发表于 2025-4-8 12:53:11

陈巍：从目前的报道看，GPT-4o已经将多种模态统一，形成完整的多模态基座模型。
多模态模型的训练难度相对于传统文本大模型的难度要高一些，但也并非高不可及。其核心在于模态的对齐（Modality Alignment），即把各种模态映射（也可以叫对齐）到token空间中，让图像、语音等多模态信息抽象为token表征，进而利用现有的文本大模型技术实现多模态领域的思维链和涌现。
陈巍：LLaMA-2的多模态版本架构与训练详解（收录于GPT-4/ChatGPT技术与产业分析）1 常见的多模态模型架构与训练方法

常见的输入模态可包括图像、视频、音频和IMU（惯性测量单元，Inertial Measurement Unit）传感器数据。

典型的多模态大模型基本架构（来源：腾讯AI Lab）
目前已有的多模态大模型在训练方法和架构上具有趋同的趋势，多使用两段式训练方法，按照一定次序分别训练视觉编码器和语言模型。例如 LLaVA 和 MiniGPT4 都冻住基础视觉编码器，单独训练语言模型， mPLUG-Owl先训练视觉编码再训练语言模型，以获得更好的“视觉-文本”跨模态理解效果。在语言模型后再加入匹配的解码器（经过统一训练），就可以顺畅的输出语音，实现end-to-end。当然，这里是可以同时使用MoE的。

两段式训练方法（来源：阿里巴巴达摩院）
2 多模态AnyMAL与LLaVA架构

截至目前GPT-4o的架构还没公开。Meta 的AnyMAL与LLaVA（微软参与）是早于GPT-4o的典型多模态大模型，可以作为多模态大模型的典型架构参考。
AnyMAL的整体架构属于合并注意力架构（Merge-attention）。以视觉-语言模态模型为例，该类架构通常包括 3个关键要素：图像编码器、文本编码器以及多编码器信息融合策略。
AnyMAL集成了三个主要模块：

功能更强大的指令调整LLM（即LLaMA-2-70B-chat）。
更大的预训练模态编码器。
先进的映射层（Projection Layer）以处理可变的输入长度。

AnyMAL架构（来源：Meta）
AnyMAL主要由两个部分组成：一个是基于LLaMA-2（70B）的语言模型（LM），另一个是基于Vision Transformer（ViT）和WaveNet（一种音频生成算法）等技术的对齐模块（AM）。LM负责处理文本输入和输出，而AM负责将其他模态的信号转换为文本表示，并与LM进行交互。AnyMAL还集成了先进的映射层（Projection Layer）以处理可变的输入长度。
AnyMAL为每种模态训练一个轻量级适配器，将输入信号映射到特定LLM的文本token（令牌）嵌入空间中。从而LLM的文本token嵌入空间融合为联合token嵌入空间，token扩展为代表文本或其他模态。为了最大化特征兼容性，AnyMAL使用已经与文本嵌入空间对齐的编码器，例如CLIP用于图像，CLAP用于音频信号，IMU2CLIP用于IMU信号。
相对而言，LLaVA1.5采用羊驼家族的Vicuna作为语言模型，视觉模型采用了CLIP的 ViT-L作为视觉编码器，并以MLP作为模态连接器。LLaVA通过一个Projection W将图像的特征Xv（ViT）映射到文空间。

LLaVA与LLaVA1.5架构对比
3 多模态模型的训练

多模态大模型的训练主要分为两个阶段：

在第一阶段，通过模态对齐预训练，将映射层（Projection Layers）和模态编码器（Modality Encoder）的输出优化映射到联合LLM嵌入空间，进行各模态的对齐。
在第二阶段，通过多模态指令调整（Instruction Tuning），模型将系统指令/文本查询与输入多模态上下文相关联。特定模态的编码器包括：CLIP ViT-L、ViT-G、DinoV2（图像）、CLAP（音频）、IMU2CLIP和Intervideo（视频）。

AnyMAL训练阶段（来源：Meta）
训练的重点要素包括模态对齐、多模态数据集、量化训练方法与基于多模态指令数据集的指令调整。
3.1 模态对齐（Modality Alignment）

模态对齐即使用配对的多模态数据（特定模态信号-文本描述）对多模态大模型进行预训练和编码对齐，从而实现多模态理解能力。模态对齐相当于把某种模态进行语言描述（编码形式），通过为每种模态训练（对齐）一个轻量的模态适配器，将输入信号映射到特定的文本token嵌入空间中。

多模态数据的跨模态表征（来源：多伦多大学）
该方法基于的理论技术是多模态数据本质上可以相互转化。
例如音频可以表示为图像(音谱图)，语音可以被转录成文本；图像可以表示为数字格式的向量，而向量可以扁平化（特征提取）并表征为一个文本token序列；文本可以通过拍摄表示为一个图像；而视频是图像加上音频的序列。

CLIP嵌入（来源：CLIP）
通过模态对齐，LLM 的文本token嵌入空间成为联合token嵌入空间，其中token代表文本或其他模态的信息。每个适配器中用于表征每种输入模态的令牌嵌入数量是固定的，范围为64-256。在对齐训练过程中，一般先冻结底层 LLM 的模型参数，以加快收敛速度，并继承 LLM 的推理能力。

音频映射到token空间（来源：蒙特利尔大学）
对于每个文本标题和模态对（Xtext，Xmodality），AnyMAL中使用以下目标和映射模块对齐方法。

3.2 数据集准备

对于图像、音频和IMU数据对齐训练，典型的公开数据集包括（以AnyMAL数据集为例）：
1）图像对齐。使用了 LAION-2B 数据集的一个清理过的子集，并使用 CAT 方法进行过滤。为确保隐私安全，对数据集中可检测的人脸进行模糊处理。
2）音频对齐。使用 AudioSet (2.1M)、AudioCaps (46K) 和 CLOTHO (5K) 数据集。
3）IMU对齐。使用了Ego4D 数据集(528K)。
3.3 量化训练方法

对于大型数据集，将大模型的预训练扩展到 70B 参数规模的模型需要大量计算资源，且通常需要在多个 GPGPU 上对模型进行计算分片并行。为了有效的扩展训练规模和减少资源消耗，例如AnyMAL使用了直接量化数据训练的策略（4 bit 和 8 bit量化），并冻结了模型的 LLM 部分层，主要训练模态 tokenizer 部分。

浮点与INT8数据格式占用空间比较（来源：微软）
就计算的存储资源来说，INT4的存储空间要求仅为FP32的1/8，该方法将存储（显存）需求缩小了近一个数量级。例如70B的 AnyMAL 能够在单个 80GB 显存的 GPGPU 上完成训练。与 Pytorch官方的FSDP（Fully Sharded Data Parallel）方法相比，AnyMAL的量化方法只使用了一半的存储资源，却实现了相同的吞吐量。
对于AnyMAL这类多模态大模型，在推理时，一般仍需要全精度使用LLM 来最大限度提高准确性。

三种量化方案对比（来源：北京大学）
3.4 多模态指令数据集进行指令调整

对于不同的任务，主要的传统模型效果优化方法有2类：
1）预训练-精调（Pretrain-finetune）：预训练一个模型，在不同的应用任务下进行Fine-tune(精调)，来适配具体任务。这一方式的模型维护成本相对较高。
2）预训练-提示（Pretrain-Prompting）：预训练一个模型，根据不同的任务，设计不同Prompting（提示）来输出合理结果。该方法对模型规模（大小）有一定要求，否则在某些具体任务上的适配会变差。
为了进一步提高模型对不同输入模态的指令遵循能力，AnyMAL等多模态大模型另辟蹊径，使用多模态指令（Instruction）对MM-IT数据集进行额外的调整。即将输入连接为[<instruction> <modality_tokens>]的模式进行指令式的调整。
根据指令优化数据的构造方法不同，现有指令数据集可大致分为两类：

针对现有NLP（自然语言处理）任务添加的指令。
使用来自1）的数据对模型进行条件式设定，生成的新的 “指令输入-输出”组，构成指令数据集。

本质上Instruction与Prompt有相近之处。差别在于，多种下游任务可以采用同一个指令进行微调，即Instruction本身具有通用性，相当于通用型Prompt，可适用于不同的下游任务；而狭义的Prompt不具备通用性，针对不同的下游任务需要不同的Prompt。

传统方法与指令微调对比（来源：Google）
具体来说，AnyMAL使用了两种训练/消融（Ablation）调整方法：
（1）在不改变LLM部分参数的情况下训练映射层。
（2）使用低秩适应（Low-Rank Adaptation，LoRA）进一步调整LLM行为。

LoRA方法（来源：Lighting AI）
例如，AnyMAL的精调采用了60K高质量多模态指令调整数据。为了保证LoRA训练的质量，数据的多模态指令和答案对严格对应。

发表于 2025-4-8 13:04:12

这个技术路线还可以继续走一段时间. 从OpenAI放出的视频和examples来看, 应该是可以支持interleave image, audio, text. 这大概率是通过将image, audio和text都转成token, 然后autogressive输出实现的.
我个人最感兴趣的是那个3D object synthesis的example. Sora放出的时候, 我就在猜测OpenAI什么时候把Text-to-3D的市场也拿下来. 没想到会是通过这个形式. 我们仔细看一下这个例子, OpenAI通过合成一个物体的多个view[1], 然后通过3D重建来构建3D模型. 这个功能在游戏里面应该能很快用上. 从例子里面看, 感觉是可以合成无限多个view的, 只要在下一轮对话加入同样的prompt和&#34;(view xx)&#34;.

我的感触是OpenAI的数据团队真心强. 多模态大统一的想法我估计很多研究一线的同学也想过. 但没有算力和数据去做炼丹.

发表于 2025-4-8 13:13:21

从目前OpenAI公布的官方细节来看，GPT-4o确实采用了端到端的路线，那就是一个模型处理统一处理文本，语音和图像。

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.

我觉得这算得上是多模态大一统了，这其实也是我比较坚信的多模态解决路线。
我觉得技术上确实有很多要解决的，语音可以像文本一样离散成token，而图像这里不确定是否也是采用VQ-VAE来离散化成token。另外训练数据是怎么处理的，如何混合各个模态的数据，这些应该都很关键。
大一统的架构会有很多优势，比如之前的GPT-4需要再接两个单独的模型来支持语音：一个模型将语音转成文本，文本送给GPT-4输出文本，同时需要另外一个模型将文本转成语音。多了额外的流程，就多了延迟（GPT-4需要5.4s延迟）。而且这个处理过程中，GPT-4，会丢失很多信息：它不能直接观察语气、多个说话者或背景噪音，也不能输出笑声、歌声或表达情感。但是大一统的GPT-4o可以解决上述问题。
另外，图像生成也可以借助in context learning来实现一致性生成：

如果像之前的GPT-4V只是接一个外挂DALLE3，是很难达到类似的效果的。

这里也额外补充一点，之前谷歌的Gemini也算是一个大一统的多模态模型了，输入侧支持文本，语音，图像和视频，输出侧支持文本和图像（但不支持语音）：

而且Gemini在图像生成上也可以展现一定的in context learning能力：

从谷歌的Gemini再到OpenAI的GPT-4o，未来大一统的多模态架构才是王道！

GPT-4o 实现真正的多模态大一统了吗？技术难度多高？

本周热门