玛卡巴卡 LV
发表于 2025-4-8 11:02:45
最近几天整个AI圈的朋友都在关注GPT-4o本次针对图像生成的更新,亲自试了一下,确实表现非常不俗,集支持上下文理解的多模态生图、对标豆包的图片编辑、文字海报生成等多种能力,具体如下:
一.本次更新的GPT-4o有哪些能力升级?
1.原生多模态架构
- GPT-4o首次将文本、图像、语音生成能力整合至统一神经网络框架,形成一个综合文本、图像语音一体的多模态模型,能直接端到端的理解和输出多种模态内容;
- 在生图这个领域,相比之前的DALL·E模型,差异包括生成图像的时候具备直接理解上下文,不需要通过基础模型辅助,原来的DALL·E等图像生成模型,用户需要提供非常精确的提示词才能让模型准确的生成相关的视觉内容,并且生成模型不具备记忆能力,单次生成之后,继续提指令需求的时候,模型生成的结果可能跟原来的没有关系,而多模态的模型可以解决这个问题,真正意义的实现通过对话的方式生成、编辑图片;
2.自回归生成技术
- 采用类似人类绘画逻辑的“从左到右”逐步生成模式,支持同时控制20个以上对象的属性及关系,远超同类模型上限。这一技术尤其擅长复杂构图(如含文字的海报、多元素场景);
3.图像生成性能优化
- 精准文字渲染:复杂设计素材(如Logo、菜单)的文字排版准确率超95%,支持中文等多语言,也就是说,4o也支持了类似豆包的文字海报生成的功能;
- 视觉一致性:通过联合表征学习和上下文感知技术,确保多轮对话中图像风格统一。
- 生成速度:4K图像生成耗时约30秒,较前代缩短50%。
二.4o生图能力的主要应用场景有哪些?
- 设计领域广告与商业设计:对于商品图和海报生成场景有一定的帮助,AI原创生成再搭配上局部重绘、涂抹消除、抠图、扩图、传统设计编辑器等能力,可以达到完成商品图和海报制作的效果;
- 内容创作与IP开发内容制作:攻克“人物一致性”难题,同一角色在不同分镜中保持形象统一,大幅降低创作门槛。
- 影视动漫工业化:支持剧本自动分镜、角色设定生成;
- 复杂方案设计工业设计、建筑设计、医疗设计等。
三.对行业和竞品的影响如何?
- 替代传统AI生图工具:Midjourney和Stable Diffusion因操作复杂、更新滞后面临挑战;
- 替代传统的设计编辑器工具:包括以canva、稿定设计等为主的在线设计编辑器产品
四.目前还有哪些局限性?
- 当前不足裁剪:高分辨率图像生成仍存在裁剪问题,GPT-4o 有时会将较长的图像(如海报)裁剪得太紧,尤其是靠近底部的位置。
- 幻觉:生成结果存在幻觉情况,生成不符合事实的内容;
- 理解对象数量有限:当生成依赖于其知识库的图像时,它可能难以同时准确地呈现 10-20 多个不同的概念,例如完整的元素周期表。
- 编辑能力的精准度:要求编辑图像生成的特定部分(例如拼写错误)并不总是有效,还可能以未请求的方式更改图像的其他部分或引入更多错误。
- 难以处理超长截图,比如非常小的尺寸、文字信息密集的图片;
|
|