OpenAI GPT-4o 推出原生图像生成功能，这次升级有哪些看点？_发现AI问答

轩辕发表于 2025-4-8 12:57:21

OpenAI GPT-4o 推出原生图像生成功能，这次升级有哪些看点？

刚刚，OpenAI深夜直播，GPT-4o的原生图像生成大升级！奥特曼亲自上阵组队，演示了自拍变梗图、相对论漫画等功能，不过相对隔壁谷歌发布的新模型，OpenAI的这波动作着实有点不够看。
就在谷歌刚刚扔出地表最强模型Gemini 2.5 Pro不久，OpenAI也有动作了。
奥特曼亲自带队，展示了GPT-4o图像生成技术的各种大升级，比如制作梗图、文本渲染、多轮交互生成和指令遵循等。

整个直播中最亮的演示，莫过于这张官方玩梗的表情包了。

目前，这项功能已经在ChatGPT和Sora中，向所有Plus、Pro、Team和免费用户推出。

当然，新版Sora生图的时间，也比以往更长了。但OpenAI看来，生图的质量和其具备的世界知识，让用户值得等待那多出的几秒。
GPT-4o原生图像生成来了！
在直播中，奥特曼介绍道，从今天起，ChatGPT中的原生图像生成功能正式推出！
GPT-4o的全模态能力，从此也融合进了Sora中。
OpenAI多模态研究的负责人Gabe介绍说，两年前刚开始这个项目时，他对于GPT-4这个强大的模型会怎样原生支持图像模型非常好奇。
一年后，当模型完成训练时，他看到了令人兴奋的迹象。从GPT-2以来，他已经很久没有这种感觉——这是一个疯狂时刻。
给出以下prompt，GPT-4o就生成了符合要求的图像，完全还原了要求。

接下来，三个人用手机来了张自拍，GPT-4o立刻把三人自拍转换成了动漫风格的版本。

甚至他们开始官方玩梗，让模型添加一段「Feel The AGI」在图片上，一张表情包就此诞生。
这个过程，就体现了4o作为全能模型的强大能力。
因为它不仅仅是一个语言模型，还包括图像、音频，所有输入和输出的模态。它可以理解、生成这些模态，并且无缝地在它们之间工作。
用OpenAI的话说，「我们终于迈向了这种真正集成的多模态模型」。

eyou121 发表于 2025-4-8 13:08:01

如同我的想法里评论里说的：
最应该有想法和创意的人，反而被 AI 淘汰了。而庸碌之人活下来。
这股狂潮持续燃烧到现在，也三十几个小时了。烧了几百张图之后，我最后做了几个老港片的 Ghibli 效果，累了。
非常牛逼，真的，ChatGPT 一骑绝尘。
文字处理也很准确。这是 Midjourney 做不到的事情。

当然也不止 Ghibli 效果，只不过这个效果非常的惊艳，属于快速上手马上有收获的。家庭合影的改造非常出效果。我看到我和我女儿的合影，让人感慨万千。

看画面风格，甚至产生很多故事联想。

这个让我产生无数联想

当然我也可以做成 Pixar Renderman style 的效果，也非常有趣。
我已经感受到 AI 的巨大毁灭力量了。Ghibli 多年来的修为就这么快速陨落了，真的，很难过。
任何一个作坊，随便画点啥，直接就出 Ghibli 多年来的刻苦营造的画面效果，这到底是鼓励创新，还是鼓励偷懒呢？
我其实蛮不开心的。

玛卡巴卡 发表于 2025-4-8 13:22:56

我试着跑了一下《一拳超人》的草稿版：
原始图像：

少年热血漫画版本（因为版权原因，在生成时要求使用了原创人物来进行绘制）：

我觉得这样应该能解决不少人因为画画能力不足而无法释放的创作欲望。

Zed888 发表于 2025-4-8 13:31:37

让我们默哀吧…

我看到了一个个墓碑，上面写着…设计师，摄影师，插画师，漫画师…
<hr/>对于设计师而言，你原本建模渲染的工作没了。也许你从学软件上手到找到工作花了至少一年：

对于摄影师而言，你之前的产品拍摄的工作也没了，也许你从拿起相机学习到接了第一份工作花费了数年：

什么？插画师漫画师拼的是艺术跟创意？
不好意思，至少，你训练数年的画工一下子门槛就完全没了。更可怕的是，你引以为傲的风格，一夕之间可以被别人完全拿走。

当然了，这个墓碑上还可以写的是3d建模师：

墓碑上还可以写的是网红的平面设计助理：

墓碑上还可以写的是互联网的设计人员：

甚至还可以是图像识别人员：

规划设计助理：

景观设计小学鸡：

等等等等
让我们在这个三月底为所有的图像工作者们默哀吧，曾经花费大量时间学习的技能门槛一下子塌平了。

这是一个最坏的时代，
这是一个最好的时代。
我前几天还在跟一个同事科普ai的应用意义之一就是当计算机能够理解人类的自然语言时是多么具有潜力的事情。
一切的adobe，一切的autocad，一切的matlab，Excel，word….可能都会被完全改写。你需要做的不再是学习软件怎么用，而是直接告诉计算机你要做什么。
话音刚落没几天，至少目前看来。
PS的根已经被刨掉了。

以上～
<hr/>btw，欢迎关注我@石韦～
设计｜生活｜时尚｜文化｜AIGC

absct 发表于 2025-4-8 13:45:58

可以说image generation到这里基本算是被解决了，以后人人都是摄影大师了。
更新：发现美国题材的把握的非常好，中国题材的不行，生成出来的人脸很雷同

70年代的德州加油站

下面是草稿（灵魂画师警告

90年代的纽约连锁汉堡店

草图

搞一些双重曝光之类的东西也是顺手拈来，桥是谷歌的图，人是gpt自己生成的。不过头的方向错了。

最后一张，直接让模特去高速公路中间照了（笑。公路是谷歌街景，人是生成的

马农发表于 2025-4-8 13:57:11

最新回答的省流版总结，欢迎大家也看看~
GPT-4o 目前只能生成吉卜力画风的图片吗？还能生成什么风格的图片？只能说我大受震撼，相比之前的方法，这次4o的门槛更低+所需要的关键词极少，几乎各种画风都能驾驭…
稍微用图片改画风举个例子，这只是4o的一小个用法而已。（多图杀猫）
导入一张图

一张《大明王朝1566》「朕的钱」名场面，表情和情绪都比较特别。（故意找个低清版本作为原图）

非常简单的关键词

下面的关键词统一写「请换成动画/游戏《*》的画风」，纯中文。且只取第一稿。
如下图所示，一行中文字，多一点提示都没有了。

鉴于后来我用JOJO提示词出现动画版本问题，我更推荐大家用的时候，指示语写「xxxx年xx（地区）动画《xxxx》」，其实会更准确一些。下面只是为了测试。
动画画风

进击的巨人

灌篮高手

冰菓

里志沾上胡子的样子。
幸运星（明显失误）

我也不知道为啥明明输入《幸运星》，给我干出个轻音脸…
星际牛仔

感觉是5分钟后要被spike揍飞的样子。
太空丹迪

怪化猫

嘉靖是要被药郎除的boss，没毛病。
浪客剑心·追忆篇（有失误）

画风有问题，精致但不像《追忆篇》。
JOJO的奇妙冒险

由于没写清楚版本，我感觉AI按照老OVA版JOJO画风画的。
银魂

普普通通，微微有点像。
哆啦A梦

胖虎，你沾上胡子我就不认识你啦？
赌博默示录

线条多了点，但除此以外福本伸行的神韵绝对是有的。
乒乓

大闹天宫（1961年中国动画）

这个非常像！
游戏画风

极乐迪斯科

一稿能有这个成果超出预期。
逆转裁判1

还是稍微高清了点，逆转1应该更模糊一些。
埃尔登·法环

像是倒数第二个boss的原话。
马里奥·奥德赛

一股满满踩头三下就可以死了的气息。
茶杯头

如龙8

脸部细节有龙引擎内味。
桐生一马：不怕死的嘉靖，卡卡带扣一！
黑神话·悟空（不算太成功）

是黑神话画风，但是完全换了个人，在3D上就比较违和。
辐射·新维加斯（最失败的一个）

色调对了，但是细节完全不像。可能是早期游戏，且模型数量太低，刻意要还原老游戏有点难。
大神Okami

这个比较特殊，第一版正好因为连续生成次数太多了所以说X分钟后让我再试，同时也询问我能否改变背景更贴合主题，我说可以没有问题。所以生成出来就是这个画风，背景会有明显改变。不过确实一眼Okami画风。
评论区点播的加更部分

蜡笔小新

原谅我笑了…
奶龙（没看过，不知道是不是这样子）

GTAV

感觉像漫画风，跟游戏内画风没啥关系，稍微有点像GTAV封面？3D真人游戏依然远远不如动画和漫画效果好。
原神

纸比人更有内味。
横山光辉三国志

蓝色阴影很对味。
恶搞之家

我最近突然感觉恶搞之家的角色，都长得很像UP北美燕双鹰…
乱马1/2（1989动画版）

龙珠Z

战斗力只有5的嘉靖。
瑞克和莫蒂

圣斗士星矢

剑风传奇（漫画）

冰与火之歌（美剧）

为什么好几次转出来的三次元人形成品，都这么像姜武…
星际争霸2

我的世界

四季常服不过8块。
赛博朋克2077

女神异闻录5

小丑boss明智厚熜的破防样子。
南方公园

彩虹小马

（这个需要改变关键词…不然可能由于老外乱玩和限制的关系，不给我生成）
小猪佩奇

………………目前的画风MVP。
（未完待续，根据评论区需求来，反正大家一起抱着玩玩的心态）

小结

要把三次元形象变成平面的二次元动画形象，几乎一行提示词+一稿就可以达到非常好的效果。成功率极高。哪怕《小猪佩奇》这种画风截然不同的，都可以瞬间背景切换色块，还是唯一一张按比例加上了脚的...如今做到这一切，只需要上传一张图，加上一句中文「请改成《小猪佩奇》的画风」。

当然不是所有都这么好，比如是想导出3D游戏的真人向建模形象，或者真人形象，那差异会明显大一些，且老游戏失败概率更大（很可能是素材喂得不够多）。需要导入样图并且修正、过多的提示才可能会有更好效果；另外，模仿galgame或想其他游戏的立绘时，目前总体效果不佳，《白色相簿2》和《幽灵诡计》都会有比较明显的跑偏，即便我说明了是立绘跑出来的也比较四不像。
但无论如何，以上绝大部分第一稿就有如上的效果，确实已经非常惊人了…抽卡一样多抽几次，再多点关键词，效果肯定会更好。
而且这个回答展示的也只是最最简单的初级图一乐用法，更高端的其他回答都有写，加字、改变视角、做海报、微调等等...回答仅图一乐…
（有想要一起玩的也可以需求丢评论区，不过我20美元版本的频率也有限，无法随时满足，见谅…）

页: [1]

发现AI问答's Archiver

OpenAI GPT-4o 推出原生图像生成功能，这次升级有哪些看点？