GPT-4o 实现真正的多模态大一统了吗?技术难度多高?

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?
收藏者
0
被浏览
80

5 个回答

你不认识我吗 LV

发表于 2025-4-8 12:32:37

搞了一点语音数据,简单地微调了一下8b的internvl,发现效果意外地不错。做了一个小小的语音图文多模态模型预览版,模型 数据 评测都会陆续开源,后续更多更流畅的交互也会继续做,欢迎关注&star
code:
https://github.com/OpenGVLab/InternVLblog:
https://internvl.github.io/blog/2024-07-27-InternOmni/
GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-1.jpg

类gpt-4o语音多模态交互
https://www.zhihu.com/video/1804119148680323072

hhhh713 LV

发表于 2025-4-8 12:44:33

从现在的应用体验上看,GPT-4o实现了非常好的多模态大模型,而且这个模型在“人类可感知的方面”大大超过了其它多模态大模型。

  • 我想先简单的解释一下什么是多模态
  • 再解释一下多模态的难点
  • 再谈为什么GPT-4o做得这么好的可能性在那儿
什么是多模态?

通常能够处理不同类型的输入数据就是多模态模型了。常见的多模态数据是 文本、图像、音频、视频等(可能有触觉、嗅觉、味觉。。。其它传感器,但是太小众了)。多模态大模型的设计目标是通过融合多种模态的数据,提升模型的理解能力和表现,从而在更广泛的应用场景中提供更为智能的解决方案。可以说,多模态是通用人工智能(AGI)的必然形态。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-1.jpg

多模态的难点

要知道过去,大概从200x年开始的CNN,其实是单模态的,从处理图像数据开始。然后各种框架慢慢的扩展到了文字。但是到了视频、这块就卡住了。因为视频本身是一个多模态数据,它是综合了 连续图像、声音、文字等多种信息的结合。
对于人来讲可能天生就是处理多模态的生物,同时多种数据的输入还有助于记忆。而计算机,恰巧不是。如果你把计算机处理问题看成是解方程吧,多模态至少意味着方程的变量多到爆了。那自然就难了。
这个比喻可能不恰当,不过没关系。你知道多模态难就对了。
本质上多模态难在 多种类型的数据融合,既它们怎么变成一个模型能够最终统一处理的数据类型。
这种数据融合有几种方式:

  • 数据输入阶段就变成同一种,比如文字、声音转文字、图像转文字描述。这样就全是文字处理了,变成了LLM的输入。
  • 特征提取后融合。比如文字转Embedding嵌入、声音转Embedding嵌入,图像转Embedding。这样 可能就是通过 嵌入后,统一处理了。我们可以看到公开的资料,实际上这一种方法用的多一些。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-2.jpg

但是也意味着,这种方法要提供的数据非常多,同时因为要处理大量的不同数据的输入,它的模型不会太小,对于算力的要求也非常多。一个精巧有效且尽可能利用现有计算硬件的模型也是必须的。所以它在要求的就是现阶段的  人+数据+算力 = 人工智能 这个公式的最优解。
于是,你看做得最好的依然是OpenAI。因为它有全球差不多最优秀的那一批人,有最好的算力支持(全球首台H200,同时也意味着以后的优先供货都给了OpenAI吧)。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-3.jpg

但是即使是这样,多模态依然是人工智能最难的任务。OpenAI还在努力中。

  • 2015年ImageNet这个比赛,微软亚洲研究院由孙剑、何凯明、张祥雨和任少卿组成的团队首次超过人类的记录。
  • 2020年(可能是以前),声音识别可能就超过了人类。
  • 2023年左右,Gemini才在某一个单项指标MMLU上超过人类,但是离全面超过人类还有一段距离吧!
  • 但是这一次GPT-4o在多个测试中,其实是全面领先的,也就是它是当前最接近人类的多模态大模型。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-4.jpg

如果你看实际的代码,可能你会发现它的处理远比大语言模型(LLM)复杂。LLM本身就是 Embedding再加个Decoder, 如果输出用个Softmax加个大的词表,结束了。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-5.jpg

而多模态(以DeepSeek-VL举例)的代码里是这样构成的。有一个ViT 再混合一个llm的。核心可能涉及到 siglip、 CLIPVisionTower、llama 这几个核心模型,预处理是sam还有一些其它别的类型的Tokenizer。这些东西的组合与接续是不是能够有效,怎么处理才是对的,可能你改一点儿都要经过几天才能确认出可能性!那怎么搞呢?
如果是GPT-4o,它的输入是 文字、声音、图像、视频,只能比这个复杂上几倍。在人工智能发展到大模型阶段后,它可能是最难的东西了。
当然了,如果你真的对这个东西有兴趣,最好的方式还是躬身入局啊。
“知乎知学堂开发的程序员的AI 大模型进阶之旅”,它是一门专门针对程序员的AI课程,学习大模型相关的LangChain、Fine-tune技术,从理论实践,到深度讲解,带你全程体验微调过程,还提供免费的CPU环境做实验!可以指导你快速的掌握基础知识,同时熟悉一定的框架,还有实例。差不多是最快的入门方法了。相信你学了这些,就能更容易上手多模态的相关东西
还有一点,可能不是一个学术类的问题,是一个纯粹的工程性优化。GPT-4o是真的做到类人的响应速度的,它的工程优化能力是非常可怕的。我们可以想象一个在A100上要运行10tokens/s的模型,优化成50~100tokens/s需要的全系统及模型的优化能力,要保障在几万块显卡甚至更多的集群中及服务pods上做到这个水准,是什么样的?那个全球可能没有几个人有这样的经验是真的吧
至于大家觉得惊艳的什么情绪啊。。这个是大数据带来的必然结局,没有什么可想的,只要标注数据足够多,就能达到这个生成效果。我们可以看到很多TTS都有不错的情绪表现的!
推测一下GPT-4o做得这么好的原因


  • 最优秀的人,可能是最核心的原因吧。OpenAI对于人才的理解明显与众不同,SamAltman没毕业、illya是个全球知名的博士、GPT-4o的多模态负责人Prafulla Dhariwal,实际只有本科学历、Sora的论文作者中,还有一位研究员,仅有高中毕业证、OpenAI曾经的技术主管Christopher Olah,都没正经念过几天书。。所以很明显OpenAI找到的肯定是他们认为的最适合的最优秀的人。
  • 同时OpenAI是一个很明显崇尚解决问题的机构,它们已经不把发论文刷榜做为自己的指标了。这次GPT-4o能做到体验这么好,明显是在这个指导原则下完成的优秀产品。
  • 海量的数据,做为全球最优秀的AI公司,很明显OpenAI已经完成了自己的数据飞轮搭建,估计已经达到了“数据自由”。过去曾经有传OpenAI是用了Youtube与Meta的海量的视频数据来训练的。是不是觉得谷歌有点儿“二”。
  • OpenAI应该是全球能用到最多Nvidia芯片的公司
  • 核心基础软件的优化应该是完成了。过去的ChatGPT、GPT4都曾经出过多次问题,宕机过几次吧。而且明显GPT4的生成速度是极慢的,也说明GPT4即使在模型上是最好的,但是在优化上做的并不理想。而这次的GPT-4o能够达到300ms左右的声音交互反馈,这是一个完全类人级别的响应能力。可以确定GPT-4o是真的在多模态这个复杂的大模型上达到了工程级别的能力。
期望GPT-5比这个更优秀,真的接近AGI!
为人类的硅基化指明这一条可行的路!

wuchao LV

发表于 2025-4-8 12:53:11

陈巍:从目前的报道看,GPT-4o已经将多种模态统一,形成完整的多模态基座模型
多模态模型的训练难度相对于传统文本大模型的难度要高一些,但也并非高不可及。其核心在于模态的对齐(Modality Alignment),即把各种模态映射(也可以叫对齐)到token空间中,让图像、语音等多模态信息抽象为token表征,进而利用现有的文本大模型技术实现多模态领域的思维链和涌现
陈巍:LLaMA-2的多模态版本架构与训练详解(收录于GPT-4/ChatGPT技术与产业分析)1 常见的多模态模型架构与训练方法

常见的输入模态可包括图像、视频、音频和IMU(惯性测量单元,Inertial Measurement Unit)传感器数据。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-1.jpg

典型的多模态大模型基本架构(来源:腾讯AI Lab)
目前已有的多模态大模型在训练方法和架构上具有趋同的趋势,多使用两段式训练方法,按照一定次序分别训练视觉编码器和语言模型。例如 LLaVA 和 MiniGPT4 都冻住基础视觉编码器,单独训练语言模型, mPLUG-Owl先训练视觉编码再训练语言模型,以获得更好的“视觉-文本”跨模态理解效果。在语言模型后再加入匹配的解码器(经过统一训练),就可以顺畅的输出语音,实现end-to-end。当然,这里是可以同时使用MoE的。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-2.jpg

两段式训练方法(来源:阿里巴巴达摩院)
2 多模态AnyMAL与LLaVA架构

截至目前GPT-4o的架构还没公开。Meta 的AnyMAL与LLaVA(微软参与)是早于GPT-4o的典型多模态大模型,可以作为多模态大模型的典型架构参考。
AnyMAL的整体架构属于合并注意力架构(Merge-attention)。以视觉-语言模态模型为例,该类架构通常包括 3个关键要素:图像编码器、文本编码器以及多编码器信息融合策略。
AnyMAL集成了三个主要模块:

  • 功能更强大的指令调整LLM(即LLaMA-2-70B-chat)。
  • 更大的预训练模态编码器。
  • 先进的映射层(Projection Layer)以处理可变的输入长度。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-3.jpg

AnyMAL架构(来源:Meta)
AnyMAL主要由两个部分组成:一个是基于LLaMA-2(70B)的语言模型(LM),另一个是基于Vision Transformer(ViT)和WaveNet(一种音频生成算法)等技术的对齐模块(AM)。LM负责处理文本输入和输出,而AM负责将其他模态的信号转换为文本表示,并与LM进行交互。AnyMAL还集成了先进的映射层(Projection Layer)以处理可变的输入长度。
AnyMAL为每种模态训练一个轻量级适配器,将输入信号映射到特定LLM的文本token(令牌)嵌入空间中。从而LLM的文本token嵌入空间融合为联合token嵌入空间,token扩展为代表文本或其他模态。为了最大化特征兼容性,AnyMAL使用已经与文本嵌入空间对齐的编码器,例如CLIP用于图像,CLAP用于音频信号,IMU2CLIP用于IMU信号。
相对而言,LLaVA1.5采用羊驼家族的Vicuna作为语言模型,视觉模型采用了CLIP的 ViT-L作为视觉编码器,并以MLP作为模态连接器。LLaVA通过一个Projection W将图像的特征Xv(ViT)映射到文空间。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-4.jpg

LLaVA与LLaVA1.5架构对比
3 多模态模型的训练

多模态大模型的训练主要分为两个阶段:

  • 在第一阶段,通过模态对齐预训练,将映射层(Projection Layers)和模态编码器(Modality Encoder)的输出优化映射到联合LLM嵌入空间,进行各模态的对齐。
  • 在第二阶段,通过多模态指令调整(Instruction Tuning),模型将系统指令/文本查询与输入多模态上下文相关联。特定模态的编码器包括:CLIP ViT-L、ViT-G、DinoV2(图像)、CLAP(音频)、IMU2CLIP和Intervideo(视频)。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-5.jpg

AnyMAL训练阶段(来源:Meta)
训练的重点要素包括模态对齐、多模态数据集、量化训练方法与基于多模态指令数据集的指令调整。
3.1 模态对齐(Modality Alignment)

模态对齐即使用配对的多模态数据(特定模态信号-文本描述)对多模态大模型进行预训练和编码对齐,从而实现多模态理解能力。模态对齐相当于把某种模态进行语言描述(编码形式),通过为每种模态训练(对齐)一个轻量的模态适配器,将输入信号映射到特定的文本token嵌入空间中。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-6.jpg

多模态数据的跨模态表征(来源:多伦多大学)
该方法基于的理论技术是多模态数据本质上可以相互转化。
例如音频可以表示为图像(音谱图),语音可以被转录成文本;图像可以表示为数字格式的向量,而向量可以扁平化(特征提取)并表征为一个文本token序列;文本可以通过拍摄表示为一个图像;而视频是图像加上音频的序列。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-7.jpg

CLIP嵌入(来源:CLIP)
通过模态对齐,LLM 的文本token嵌入空间成为联合token嵌入空间,其中token代表文本或其他模态的信息。每个适配器中用于表征每种输入模态的令牌嵌入数量是固定的,范围为64-256。在对齐训练过程中,一般先冻结底层 LLM 的模型参数,以加快收敛速度,并继承 LLM 的推理能力。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-8.jpg

音频映射到token空间(来源:蒙特利尔大学)
对于每个文本标题和模态对(Xtext,Xmodality),AnyMAL中使用以下目标和映射模块对齐方法。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-9.jpg

3.2 数据集准备

对于图像、音频和IMU数据对齐训练,典型的公开数据集包括(以AnyMAL数据集为例):
1) 图像对齐。使用了 LAION-2B 数据集的一个清理过的子集,并使用 CAT 方法进行过滤。为确保隐私安全,对数据集中可检测的人脸进行模糊处理。
2)音频对齐。使用 AudioSet (2.1M)、AudioCaps (46K) 和 CLOTHO (5K) 数据集。
3)IMU对齐。使用了Ego4D 数据集(528K)。
3.3 量化训练方法

对于大型数据集,将大模型的预训练扩展到 70B 参数规模的模型需要大量计算资源,且通常需要在多个 GPGPU 上对模型进行计算分片并行。为了有效的扩展训练规模和减少资源消耗,例如AnyMAL使用了直接量化数据训练的策略(4 bit 和 8 bit量化),并冻结了模型的 LLM 部分层,主要训练模态 tokenizer 部分。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-10.jpg

浮点与INT8数据格式占用空间比较(来源:微软)
就计算的存储资源来说,INT4的存储空间要求仅为FP32的1/8,该方法将存储(显存)需求缩小了近一个数量级。例如70B的 AnyMAL 能够在单个 80GB 显存的 GPGPU 上完成训练。与 Pytorch官方的FSDP(Fully Sharded Data Parallel)方法相比,AnyMAL的量化方法只使用了一半的存储资源,却实现了相同的吞吐量。
对于AnyMAL这类多模态大模型,在推理时,一般仍需要全精度使用LLM 来最大限度提高准确性。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-11.jpg

三种量化方案对比(来源:北京大学)
3.4 多模态指令数据集进行指令调整

对于不同的任务,主要的传统模型效果优化方法有2类:
1)预训练-精调(Pretrain-finetune):预训练一个模型,在不同的应用任务下进行Fine-tune(精调),来适配具体任务。这一方式的模型维护成本相对较高。
2)预训练-提示(Pretrain-Prompting):预训练一个模型,根据不同的任务,设计不同Prompting(提示)来输出合理结果。该方法对模型规模(大小)有一定要求,否则在某些具体任务上的适配会变差。
为了进一步提高模型对不同输入模态的指令遵循能力,AnyMAL等多模态大模型另辟蹊径,使用多模态指令(Instruction)对MM-IT数据集进行额外的调整。即将输入连接为[<instruction> <modality_tokens>]的模式进行指令式的调整。
根据指令优化数据的构造方法不同,现有指令数据集可大致分为两类:

  • 针对现有NLP(自然语言处理)任务添加的指令。
  • 使用来自1)的数据对模型进行条件式设定,生成的新的 “指令输入-输出”组,构成指令数据集。
本质上Instruction与Prompt有相近之处。差别在于,多种下游任务可以采用同一个指令进行微调,即Instruction本身具有通用性,相当于通用型Prompt,可适用于不同的下游任务;而狭义的Prompt不具备通用性,针对不同的下游任务需要不同的Prompt。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-12.jpg

传统方法与指令微调对比(来源:Google)
具体来说,AnyMAL使用了两种训练/消融(Ablation)调整方法:
(1)在不改变LLM部分参数的情况下训练映射层。
(2)使用低秩适应(Low-Rank Adaptation,LoRA)进一步调整LLM行为。

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-13.jpg

LoRA方法(来源:Lighting AI)
例如,AnyMAL的精调采用了60K高质量多模态指令调整数据。为了保证LoRA训练的质量,数据的多模态指令和答案对严格对应。

乐得潇洒 LV

发表于 2025-4-8 13:04:12

这个技术路线还可以继续走一段时间. 从OpenAI放出的视频和examples来看, 应该是可以支持interleave image, audio, text. 这大概率是通过将image, audio和text都转成token, 然后autogressive输出实现的.
我个人最感兴趣的是那个3D object synthesis的example. Sora放出的时候, 我就在猜测OpenAI什么时候把Text-to-3D的市场也拿下来. 没想到会是通过这个形式. 我们仔细看一下这个例子, OpenAI通过合成一个物体的多个view[1], 然后通过3D重建来构建3D模型. 这个功能在游戏里面应该能很快用上. 从例子里面看, 感觉是可以合成无限多个view的, 只要在下一轮对话加入同样的prompt和"(view xx)".

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-1.jpg

我的感触是OpenAI的数据团队真心强. 多模态大统一的想法我估计很多研究一线的同学也想过. 但没有算力和数据去做炼丹.

史迪仔Ly LV

发表于 2025-4-8 13:13:21

从目前OpenAI公布的官方细节来看,GPT-4o确实采用了端到端的路线,那就是一个模型处理统一处理文本,语音和图像。
With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.
我觉得这算得上是多模态大一统了,这其实也是我比较坚信的多模态解决路线。
我觉得技术上确实有很多要解决的,语音可以像文本一样离散成token,而图像这里不确定是否也是采用VQ-VAE来离散化成token。另外训练数据是怎么处理的,如何混合各个模态的数据,这些应该都很关键。
大一统的架构会有很多优势,比如之前的GPT-4需要再接两个单独的模型来支持语音:一个模型将语音转成文本,文本送给GPT-4输出文本,同时需要另外一个模型将文本转成语音。多了额外的流程,就多了延迟(GPT-4需要5.4s延迟)。而且这个处理过程中,GPT-4,会丢失很多信息:它不能直接观察语气、多个说话者或背景噪音,也不能输出笑声、歌声或表达情感。但是大一统的GPT-4o可以解决上述问题。
另外,图像生成也可以借助in context learning来实现一致性生成:

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-1.jpg


GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-2.jpg

如果像之前的GPT-4V只是接一个外挂DALLE3,是很难达到类似的效果的。

这里也额外补充一点,之前谷歌的Gemini也算是一个大一统的多模态模型了,输入侧支持文本,语音,图像和视频,输出侧支持文本和图像(但不支持语音):

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-3.jpg

而且Gemini在图像生成上也可以展现一定的in context learning能力:

GPT-4o 实现真正的多模态大一统了吗?技术难度多高?-4.jpg

从谷歌的Gemini再到OpenAI的GPT-4o,未来大一统的多模态架构才是王道!

您需要登录后才可以回帖 登录 | 立即注册