GPT-4o 让图像走到头了吗？大语言模型的未来会走到头吗？

发表于 2025-4-18 12:49:05

太长不看版

首先，GPT-4o确实很强，可以大大方便很多设计工作者；但是，它并未让“图像”走到头。根据答主看到的信息以及自己的尝试，讲一讲目前GPT-4o还存在的一些问题：想象力上总有欠缺、物理世界中数字相关的内容总不精确、文字嵌入还不是特别完美。基于这些观察，答主以为图像生成尚未走到头。
这些例子给答主的感觉是：视觉语言模型（VLM）对视觉概念的理解比较奇怪，在模糊的非精确定量的概念上（风格迁移）有超出一般人期待的表现，但在一些即使较少的两三个条件的想象性生成上都可能找不到重点或不够全面，而困扰大模型已久的视觉计数仍不能很好地与现实世界对齐。这些例子，是否只是边角的例子，还是视觉语言模型有一些更基础的局限？答主更倾向于后者，欢迎各种形式的拍砖与交流。
另外，在VLM领域，似乎大家是先看到Google发布了Gemini-2.0-Flash图像生成版的“用嘴改图”，随后才有OpenAI的这次发布，不过出圈的却又是GPT-4o，因为效果确定要更好，谷歌又被比下去了。正如Attention is all you need是谷歌原创论文，做到出圈的却是ChatGPT。看到开源安卓（ASOP）的终止和谷歌论文内部审查的新闻，真是一声叹息啊。
一、想象力的问题

有人说人类的想象力也不过是组合已知的事物，按理说AIGC的图片组合特征生成新事物的应该很强。但是，在取自一篇科学文献中“三足有翅骆驼”的例子面前[1]，各类AI几乎还未有完美的生成。当然，我们要求生成的是看起来比较合理的（仅仅是看起来，刚体验了一下三轮车，感觉在转弯的时候挺容易翻的），原生的就为三条腿、有一对翅膀的骆驼（三条腿不是残的三条腿）。很欢迎大家打脸，不过答主建议提示词应该为几乎不需要技巧、只要正常表达清楚就大概率能生成。
就此我们目前已经不断调整指令，并测试不少模型。截止2024-04-04为止，答主测试到的最好的两次结果，分别来自deepseek的Janus-Pro、以及阿里的qwen-2.5。Janus-Pro的结果骆驼整体形象和翅膀均不太好，Qwen不是按要求生成的前1后2的结构。

图1、在Poe上运行的的英文版的三腿有翅骆驼生成，强调了生理结构的合理和功能的正常。注意随机数，可以重复。

图2、使用Qwen-2.5-Max+图像生成，前面有一次同样的提示语但未点“图像生成”的历史影响。但是要求前足1后足2，它生成的前2后1。

欢迎大家晒出你的能生成更符合要求的图像的结果和“咒语”，但答主以为，如果在清楚地表达了意思后，生成模型如果还不能正常生成，而且难以进行有效进行甲乙方交互的话（比如：模型能真正解释好自己为何这样画、以及对不确定的地方进行提问以从用户处获取更多信息来调整），那么答主以为只能说图像生成任务还未走到头。
二、计数的问题

魔方是一种较为常见的有趣游戏玩具，有不同的变体，不了解的同学们可以参考[2]。那么，简单的传统立方体魔方，不同阶数的魔方，其生成上应该不难？但是，根据答主之前的多次尝试，在Gemini-2.0-Flash上、GPT-4o上都较难一次生成符合要求的图。可参考答主之前的测试[3][4]，这里再贴一张图。

图3、要求生成4x4x4的魔方，实际生成5x5x5的，然后还有一些不合理的地方，你能找到几处？

三、文字嵌入问题并非完美

这方面GPT-4o可能已经是近乎完美了？些许不如意，主要还是体现在非英语文字上，或是中文等象形类文字？下面的两幅图，图4修改自[5]，绿色粗线方框标出了明显不一致的文字，因为连字数都给变了；图5为使用知乎文章[6]中的提示词生成的漫画，可以看到比较多的明显像汉字又不是汉字的符号，另外有一点是第二格中明显将“说话人”搞错了，“你们广东人都这么淡定的吗？”应该是小李的内心想法（或许应该换一种气泡），答主提示它其它不变，只改一下文中对话气泡的汉字就好，第一次确实有改善，但仍不完美，接下来反而变得更糟了。

图4、100%保留街景其实并未实现，文字也是其中一个细节。

图5、使用[5]中给的提示词生成的漫画，可以看到一些奇怪的很像汉字又不是汉字的东东。

图6、进一步提示保持图像内容不变，把气泡对话内容全部换成正常汉字，确实效果好了不少。但再进一步要求修改则效果变差了，甚至尺寸都由横幅变成竖向的了。

发表于 2025-4-18 13:03:43

一、图像距离「走到头」还有相当一段距离。换句话说，不仅没有走到头，相反，OpenAI最近放出的image editing工作会对visual generation社区带来一波很大的推动和启发；二、大语言模型距离「走到头」也还有相当一段距离。这一点不论是今年刚火起来的具身智能，还是DeepSeek，甚至是火了好几年的agent，至今都还依赖于LLM的进一步发展，这一点相信是毋庸置疑的。
关于第一点，最近看到很多声音，说刚准备开始学Stable Diffusion，OpenAI就结束了比赛——其实完全不然。首先不得不承认OpenAI新放出的image editing工作在效果上真的很好，有几个比较难做好的case基本上都能达到差强的效果：一致性生成、image editing中空域信息的保存、精细文字的渲染，等等。用一个单一模型做好任意一个方向都是不容易的事情，更何况OpenAI用了一个统一的模型来做所有的事情，这一点无疑是非常惊艳的。

GPT-4o生成模型合成的结果

另外一个让人非常惊艳的是：这个工作可以通过「生成」的方式来做除了「生成、编辑任务」本身的其他事情。比方说：depth estimation、segmentation等等。这个应用让我想起了出自《InstructDiffusion: A Generalist Modeling Interface for Vision Tasks》的InstructDiffusion，能够根据instruction去不仅仅完成generation、editing等生成任务，甚至是segmentation、detection、watermark removal等high-level或low-level tasks，这一点看来是所谓AGI比较类似的形态——用户不应该通过text description这种形式去交互，这一点是不自然的，但是通过指令的方式，就能够跟LLM中prompt交互的形状很好地对齐。

InstructDiffusion的teasor

Instruction-based Editing最早的工作其实可以追溯到《InstructPix2Pix: Learning to Follow Image Editing Instructions》的InstructPix2Pix这篇工作，可以说是Instruction-based Editing方向的开山之作。初看InstructPix2Pix，个人是非常看好这个方向的，因为正如前文所说，指令形式的交互应该才是「人机交互的最终形式」，但是InstructPix2Pix最大的问题还是依赖于数据的训练。随着LLM与diffusion相结合的工作增多，相信OpenAI也有在这一块做进一步的改进，同时内部也能拿到更优质的数据来做，可以期待一下下一步国内各个大厂的动作了。

InstructPix2Pix的teasor

GPT-4o 让图像走到头了吗？大语言模型的未来会走到头吗？

本周热门