如何看待 OpenAI 新推出的 4O Image Generation？_发现AI问答

情感职场成长师 发表于 2025-4-8 14:08:11

如何看待 OpenAI 新推出的 4O Image Generation？

mjfh 发表于 2025-4-8 14:16:54

利好自回归

迟钝的小松鼠 发表于 2025-4-8 14:28:25

测试效果还不错，效果很惊艳：

OpenAI这次发布的4o图像生成技术，以多模态模型的深度整合为核心，通过联合训练文本、图像和声音数据，实现跨模态的深度关联。下面的白板示例展示了模型如何将复杂技术方案（如“自回归先验+扩散解码器”架构）转化为可视化图表，同时保留公式与逻辑细节。

精准文本渲染与场景构建

支持生成含精确文字的场景图像（如带有政策说明的路标、餐厅菜单、婚礼请柬），文字排版准确且风格适配场景。

示例包括：纽约街头带有“女巫专用扫帚停车区”的恶搞路标、韩式餐厅的手绘风格菜单、结合雕塑与渐变效果的产品广告海报。

多轮对话迭代优化

用户可通过自然对话持续调整图像。例如，将戴侦探帽的猫咪逐步扩展为蒸汽朋克风格的游戏角色界面，并保持角色设计的一致性。

指令遵循能力
GPT‑4o的图像生成功能能够精准遵循复杂提示词，对细节的关注度显著提升。相较于其他系统仅能处理约5-8个对象，GPT‑4o可同时控制10-20个不同对象。通过更紧密地将对象与其属性、关联关系绑定，模型实现了更精准的图像控制力。

上下文学习与知识整合

模型能解析用户上传的参考图（如三角形车轮设计草图），生成符合要求的延展场景（如纽约街景中的专利车辆展示）。

结合世界知识生成科普内容，如旧金山雾霾成因信息图、鲸类水彩科普海报。

多样化风格与真实感

覆盖从极简主义贴纸到电影级画面的风格：

拟真场景：2006年多伦多农贸市场的怀旧照片、海底地铁站的海豚漫游。

创意合成：水果与微型星球共存的静物摄影、宇航员在空间站绘制星系的超现实画面。

当前限制与改进方向

[*]技术瓶颈：处理超20个对象的复杂构图、非拉丁文字渲染、密集小字号文本时存在挑战。
[*]编辑精度：局部修改可能影响整体画面，人脸编辑一致性仍在优化。
[*]安全措施：采用C2PA元数据溯源生成内容，通过推理模型强化审核机制，限制敏感内容生成。

应用场景与可用性

该功能已向ChatGPT免费版及付费用户开放，即将支持企业版和API调用。用户可通过自然语言描述需求（指定宽高比、颜色代码等），平均生成时间约1分钟。DALL·E仍作为独立GPT保留。

页: [1]

发现AI问答's Archiver

如何看待 OpenAI 新推出的 4O Image Generation？