情感职场成长师 发表于 2025-4-8 14:08:11

如何看待 OpenAI 新推出的 4O Image Generation?

如何看待 OpenAI 新推出的 4O Image Generation?

mjfh 发表于 2025-4-8 14:16:54

利好自回归

迟钝的小松鼠 发表于 2025-4-8 14:28:25

测试效果还不错,效果很惊艳:






OpenAI这次发布的4o图像生成技术,以多模态模型的深度整合为核心,通过联合训练文本、图像和声音数据,实现跨模态的深度关联。下面的白板示例展示了模型如何将复杂技术方案(如“自回归先验+扩散解码器”架构)转化为可视化图表,同时保留公式与逻辑细节。




精准文本渲染与场景构建

支持生成含精确文字的场景图像(如带有政策说明的路标、餐厅菜单、婚礼请柬),文字排版准确且风格适配场景。


示例包括:纽约街头带有“女巫专用扫帚停车区”的恶搞路标、韩式餐厅的手绘风格菜单、结合雕塑与渐变效果的产品广告海报。






多轮对话迭代优化

用户可通过自然对话持续调整图像。例如,将戴侦探帽的猫咪逐步扩展为蒸汽朋克风格的游戏角色界面,并保持角色设计的一致性。










指令遵循能力
GPT‑4o的图像生成功能能够精准遵循复杂提示词,对细节的关注度显著提升。相较于其他系统仅能处理约5-8个对象,GPT‑4o可同时控制10-20个不同对象。通过更紧密地将对象与其属性、关联关系绑定,模型实现了更精准的图像控制力。






上下文学习与知识整合

模型能解析用户上传的参考图(如三角形车轮设计草图),生成符合要求的延展场景(如纽约街景中的专利车辆展示)。


结合世界知识生成科普内容,如旧金山雾霾成因信息图、鲸类水彩科普海报。




多样化风格与真实感

覆盖从极简主义贴纸到电影级画面的风格:



拟真场景:2006年多伦多农贸市场的怀旧照片、海底地铁站的海豚漫游。


创意合成:水果与微型星球共存的静物摄影、宇航员在空间站绘制星系的超现实画面。





当前限制与改进方向


[*]技术瓶颈:处理超20个对象的复杂构图、非拉丁文字渲染、密集小字号文本时存在挑战。
[*]编辑精度:局部修改可能影响整体画面,人脸编辑一致性仍在优化。
[*]安全措施:采用C2PA元数据溯源生成内容,通过推理模型强化审核机制,限制敏感内容生成。


应用场景与可用性

该功能已向ChatGPT免费版及付费用户开放,即将支持企业版和API调用。用户可通过自然语言描述需求(指定宽高比、颜色代码等),平均生成时间约1分钟。DALL·E仍作为独立GPT保留。
页: [1]
查看完整版本: 如何看待 OpenAI 新推出的 4O Image Generation?