太长不看版
首先,GPT-4o确实很强,可以大大方便很多设计工作者;但是,它并未让“图像”走到头。根据答主看到的信息以及自己的尝试,讲一讲目前GPT-4o还存在的一些问题:想象力上总有欠缺、物理世界中数字相关的内容总不精确、文字嵌入还不是特别完美。基于这些观察,答主以为图像生成尚未走到头。
这些例子给答主的感觉是:视觉语言模型(VLM)对视觉概念的理解比较奇怪,在模糊的非精确定量的概念上(风格迁移)有超出一般人期待的表现,但在一些即使较少的两三个条件的想象性生成上都可能找不到重点或不够全面,而困扰大模型已久的视觉计数仍不能很好地与现实世界对齐。这些例子,是否只是边角的例子,还是视觉语言模型有一些更基础的局限?答主更倾向于后者,欢迎各种形式的拍砖与交流。
另外,在VLM领域,似乎大家是先看到Google发布了Gemini-2.0-Flash图像生成版的“用嘴改图”,随后才有OpenAI的这次发布,不过出圈的却又是GPT-4o,因为效果确定要更好,谷歌又被比下去了。正如Attention is all you need是谷歌原创论文,做到出圈的却是ChatGPT。看到开源安卓(ASOP)的终止和谷歌论文内部审查的新闻,真是一声叹息啊。
一、想象力的问题
有人说人类的想象力也不过是组合已知的事物,按理说AIGC的图片组合特征生成新事物的应该很强。但是,在取自一篇科学文献中“三足有翅骆驼”的例子面前[1],各类AI几乎还未有完美的生成。当然,我们要求生成的是看起来比较合理的(仅仅是看起来,刚体验了一下三轮车,感觉在转弯的时候挺容易翻的),原生的就为三条腿、有一对翅膀的骆驼(三条腿不是残的三条腿)。很欢迎大家打脸,不过答主建议提示词应该为几乎不需要技巧、只要正常表达清楚就大概率能生成。
就此我们目前已经不断调整指令,并测试不少模型。截止2024-04-04为止,答主测试到的最好的两次结果,分别来自deepseek的Janus-Pro、以及阿里的qwen-2.5。Janus-Pro的结果骆驼整体形象和翅膀均不太好,Qwen不是按要求生成的前1后2的结构。
图1、在Poe上运行的的英文版的三腿有翅骆驼生成,强调了生理结构的合理和功能的正常。注意随机数,可以重复。
图2、使用Qwen-2.5-Max+图像生成,前面有一次同样的提示语但未点“图像生成”的历史影响。但是要求前足1后足2,它生成的前2后1。
欢迎大家晒出你的能生成更符合要求的图像的结果和“咒语”,但答主以为,如果在清楚地表达了意思后,生成模型如果还不能正常生成,而且难以进行有效进行甲乙方交互的话(比如:模型能真正解释好自己为何这样画、以及对不确定的地方进行提问以从用户处获取更多信息来调整),那么答主以为只能说图像生成任务还未走到头。
二、计数的问题
魔方是一种较为常见的有趣游戏玩具,有不同的变体,不了解的同学们可以参考[2]。那么,简单的传统立方体魔方,不同阶数的魔方,其生成上应该不难?但是,根据答主之前的多次尝试,在Gemini-2.0-Flash上、GPT-4o上都较难一次生成符合要求的图。可参考答主之前的测试[3][4],这里再贴一张图。
图3、要求生成4x4x4的魔方,实际生成5x5x5的,然后还有一些不合理的地方,你能找到几处?
三、文字嵌入问题并非完美
这方面GPT-4o可能已经是近乎完美了?些许不如意,主要还是体现在非英语文字上,或是中文等象形类文字?下面的两幅图,图4修改自[5],绿色粗线方框标出了明显不一致的文字,因为连字数都给变了;图5为使用知乎文章[6]中的提示词生成的漫画,可以看到比较多的明显像汉字又不是汉字的符号,另外有一点是第二格中明显将“说话人”搞错了,“你们广东人都这么淡定的吗?”应该是小李的内心想法(或许应该换一种气泡),答主提示它其它不变,只改一下文中对话气泡的汉字就好,第一次确实有改善,但仍不完美,接下来反而变得更糟了。
图4、100%保留街景其实并未实现,文字也是其中一个细节。
图5、使用[5]中给的提示词生成的漫画,可以看到一些奇怪的很像汉字又不是汉字的东东。
图6、进一步提示保持图像内容不变,把气泡对话内容全部换成正常汉字,确实效果好了不少。但再进一步要求修改则效果变差了,甚至尺寸都由横幅变成竖向的了。 |
|