xingke LV
发表于 2025-3-28 16:49:03
Hello 大家好,我是日码未来,夜探AI的开发者鹿先森,用生产力革命,为十万开拓者打开AI财富新大陆。
今日凌晨两点(2025年3月26日),OpenAI直播放大招,GPT-4o原生文生图功能全面开放!这场对谷歌Gemini 2.5的精准狙击战,把AI图像生成赛道卷出了新高度。
划重点:所有用户免费开放(包括免费版!),现在打开ChatGPT就能玩转这些高级功能,从此你不需要在Sora中画图了,也不需要用DALL·E 3了。
简单来说,就是一句话或者一张图,就能让GPT-4o帮你生成超逼真图片!
多模态生图:从文字到图像的无缝衔接
GPT-4o多模态生图功能的核心突破,在于其原生融合的端到端架构。用户仅需通过文字描述或上传图片,即可驱动系统生成专业级视觉内容。相较于传统需要切换DALL·E 3或Stable Diffusion等独立模型的繁琐流程,GPT-4o通过统一的多模态大脑实现了输入-理解-生成的全链路贯通。这种深度集成不仅将创作耗时压缩至1分钟级别,更通过语义理解与视觉生成的原子级耦合,让创意落地过程如同对话般自然。
例如,直接给GPT-4o一个提示词
在一个俯瞰海湾大桥的房间里,用手机拍摄的玻璃白板的宽图像。视野显示一名女性正在写作,穿着一件带有大型 OpenAl 标志的T恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。
GPT-4o能迅速生成符合预期的图像。
摄影师的自拍视角,当她转身与他击掌
怎么样,玻璃白板上的英文都如此的逼真,你是否感到震惊?
技术突破:自回归模式的图像生成
GPT-4o生图引擎的背后,是一项突破性的技术创新。不同于传统的扩散模型(Diffusion Model)从噪声中逐步还原图像,GPT-4o采用了“自回归”(autoregressive)生成方式。这种方法模仿了人类写作的逻辑,从图像的左上角开始逐步绘制至右下角,每一步都基于前一步的内容进行预测和扩展。这种生成模式显著提升了图像细节的精准度,尤其是在复杂文字呈现(如广告牌/书本排版)和几何结构控制(建筑/工业设计)方面表现尤为出色。
GPT-4o作为原生多模态架构的最新迭代,本次升级在文生图领域的技术突破主要体现在以下核心维度
拆解GPT-4o文生图能力跃迁
一、文本渲染
创建一张逼真的图片,其中两个 20 多岁的女巫(一个染着灰色挑染发,另一个留着长长的波浪形赤褐色头发)正在阅读路牌。
背景:纽约州威廉斯堡的一条随机街道上的一条城市街道,一根柱子上完全覆盖着许多详细的路牌(例如,街道清扫时间、停车许可证要求、车辆分类、拖车规则),中间还有一些荒谬的标志:(将其改写为合法的路牌)“C 区禁止女巫使用扫帚停车”和“仅允许魔毯装卸(15 分钟限制)”和“仅允许驯鹿凭许可证停车(12 月 24 日至 25 日)违反者将被列入淘气名单。”路标位于街道的右侧。请勿重复标志。标志必须逼真。
人物:一个女巫拿着扫帚,> 另一个拿着卷起的魔毯。他们站在前景中,背对着镜头,头部微微倾斜,仔细观察路标。
从背景到前景的构图:街道 + 停放的汽车 + 建筑物 -> 路标 -> 女巫。人物必须距离拍摄镜头最近的位置
根据上面的提示词就可以生成令人难以置信的街道标志图片
二、多轮对话
由于图像生成现在是 GPT-4o 的原生功能,您可以通过自然对话来优化图像。GPT-4o 可以在聊天环境中基于图像和文本进行构建,从而确保始终保持一致性。例如,如果您正在设计视频游戏角色,那么在您进行优化和实验的过程中,该角色的外观在多次迭代中保持一致。
可以看到浣熊在多次迭代中始终是保持一致的
三、遵循指令
GPT‑4o 的图像生成遵循详细的提示,注重细节。其他系统在处理约 5-8 个对象时会遇到困难,而 GPT‑4o 可以处理多达 10-20 个不同的对象。对象与其特征和关系的更紧密绑定可以实现更好的控制。
一张正方形图片,包含一个 4 行 4 列的网格,网格上有 16 个对> 象,背景为白色。从左到右,从上到下。列表如下:
- 一颗蓝色的星星
- 红色三角形
- 绿色正方形
- 粉色圆圈
- 橙色沙漏
- 紫色无限符号
- 黑白圆点领结
- 扎染“42”
- 一只戴着黑色棒球帽的橙色猫
- 一张带有宝箱的地图
- 一双活动眼珠
- 一个竖起大拇指的表情符号
- 一把剪刀
- 一只蓝白相间的长颈鹿
- 用草书写的“OpenAI”一词
- 一道彩虹色的闪电
四、情境学习
GPT‑4o 可以分析和学习用户上传的图像,将其细节无缝集成到其上下文中以指导图像生成。
现在把它放在一张在纽约市拍摄的照片中。
五、世界知识
原生图像生成使 4o 能够将其知识链接到文本和图像之间,从而产生一个感觉更智能、更高效的模型。
以活泼的水彩风格创建不同类型鲸鱼的教育海报。使背景为纯白色。
六、照片写实主义和风格
通过对反映各种图像风格的图像进行训练,模型可以令人信服地创建或转换图像。
马就在海天相接的地平线上。使用三分法来定位马。马的大小是整个图像的 1%,因为相机距离拍摄对象很远。相机视图非常接近地面/海洋,就像虫眼视图一样。马就在海天相接的地方奔跑
目前,GPT-4o 图像生成已经作为ChatGPT中的默认图像生成器使用了,包括:Plus、Pro、Team和Free版本,Enterprise和Edu版本也会很快推出。同时Sora中也可以使用。
好了,大家可以去试试了。 |
|