如何看待 GPT-4o 出现后，ComfyUI 等一众工作流软件会被淘汰的言论？

工作流软件真的直接白学了吗，工作流生图软件的核心意义在哪？

发表于 2025-4-8 11:02:52

ComfyUI重度用户来发表下自己看法吧。简单的回答是否定的。
这个问题涉及几个维度的比较。
工作流vs大模型

GPT-4o等新出的大模型确实会取代掉很多精心编排的工作流，但不会取代ComfyUI本身，ComfyUI它本身只是一个工作流编排工具，只是它被AI绘画用户用得更多。
你以为ComfyUI用户日常的工作流：简单加载个模型，输入prompt，接个sampler就能出图

如何看待 GPT-4o 出现后，ComfyUI 等一众工作流软件会被淘汰的言论？-1.jpg

你以为ComfyUI用户日常工作流

实际上ComfyUI用户日常的工作流：除了生成AI图片和视频，还有一大堆预处理，后处理，甚至还涉及LLM的调用，我可以在ComfyUI里用ollama调用DeepSeek，可以调用Qwen VL来读图，甚至可以调用翻译工具。

如何看待 GPT-4o 出现后，ComfyUI 等一众工作流软件会被淘汰的言论？-2.jpg

实际上ComfyUI用户日常工作流

当然，很多工作流将会过时，例如我前段时间做的一个工作流，是通过DeepSeek+In-Context loRA生成插画
桔了个仔：Deepseek-r1 + In-Context LoRA ，一键生成故事并生成角色一致的插图（ComfyUI实现）其实人物一致性从现在看来，大模型本身已经开始能解决了，现在GPT-4o已经能够生成一致性相当高的图片了，只要你给定指定人物，它就能按照指定人物生成新的图片。
当然，上面这个工作流相比起GPT-4o，它的优势是更加高度自动化，故事本身都是AI写的。
其实当你的需求越来越复杂，你就会发现，你需要是自动化，是效果可控，而不是让AI自己天马行空。就好像Dify并不会被大模型本身取代一样，ComfyUI作为工作流软件，它也不会被淘汰。

整个开源模型社区vs闭源多模态模型

其实用ComfyUI和GPT-4o比，是一件很奇怪的事情。我相信有经验的ComfyUI玩家都不会只调用一个模型，一般都是Lora+ControlNet+AnimateDiff等多种模型串起来用。
例如我想做一个特定效果的图片或者视频，我可能需要选定一个参考风格，然后通过Qwen VL提词反推，得到这个风格的prompt，又或者把这个图片转成Latent输入给Sampler等方法，再加上深度ControlNet/边缘ControlNet，再加上某种特定画风的LoRA，就能生成满意的效果。
虽然说即使在ComfyUI用上各种ControlNet，其实结果也需要「抽卡」（注：抽卡的意思是多生成几次选一个满意的）
当然，我相信80%的AI绘画需求可能会被一个单一的大模型解决，但还有20%的需求是需要定制化的。举个例子吧，某个设计团队，他们希望AI能根据他们过去的设计风格，能帮忙生成一些风格一样的底图，这时候可以拿团队过去的设计稿训练一个LoRA，后续就用这个LoRA来生成设计图，这样才能保证设计风格一致性。而用闭源多模态模型，则很难控制风格。
况且，这还涉及一个问题：数据保护。

私有vs公有

很多公司其实一直都很想利用AI进行设计，但很大的一个问题是，我不可能放心的把公司数据喂给别人部署的AI吧？尤其是大公司，数据保护政策很严格，例如三星等公司甚至在内部网络禁用ChatGPT，不是三星不想用AI，而是谁知道OpenAI会怎么用你的数据。
三星限制工作中使用 AI，禁用 ChatGPT 队伍再添一员，如何看待未来 AI 在企业应用的发展？而私有化部署才能解决企业的这种顾虑。
ComfyUI作为开源软件，任何公司都能在自己服务器部署，再加上开源社区各种模型，可以说，通用大模型能办到的，ComfyUI+开源大模型也能办到的；通用大模型办不到的，ComfyUI+开源大模也许有机会能办到。
例如，私有化后，你可以针对不同的风格，训练不同的LoRA。例如一个服装公司，可以针对运动装/休闲装等不同风格的产品线，训练不同的LoRA。

总结

最后总结一下。ComfyUI 等一众工作流软件不会被淘汰，原因很简单，大家不仅要用AI，而且要可控地用AI。

发表于 2025-4-8 11:15:26

GPT-4o生图火了以后，一会儿有人说PS被取代，一会儿有人说ComfyUI被取代。
这种言论其实跟Manus淘汰Coze是一个意思。
大模型随着能力增强，一定会内化workflow的能力，内化prompt的效果，这是明眼人都能看得出来的事情。
workflow的核心在哪？
workflow的核心就在于编织确定性。
什么节点、插件，都不是核心的东西，当大模型代码的能力足够强，它自己就能够开发出那些东西来。
workflow在大模型面前，提供的就是确定性。
大模型的输出的其实是什么？
是概率。
当你让大模型画一片天空，哪怕你想要的就是一片晴天的蓝天，但大模型的输出结果不一定是100%蓝天。
因为晚上天是黑的，傍晚天是红的，下雨天是灰的，这些可能性固有存在。所以你顶多抽卡得到蓝天次数最多，不能保证100%。
复杂的任务更是这样，各种可能性交织在一起，你根本没法确保大模型对同一任务处理的结果就是100%。
而很多时候，不能确定的事情，就没法用于生产环境。
我跟同事说，做表格的时候，能用公式的，尽量不要用AI字段做，就是这个道理。
甚至更节省能源，更环保。
workflow也是这个道理。
通过workflow，可以规划好，先做这个，再做那个，先加载checkpoint，后加载lora，它就能确保没有错。
比如说，你要做面部重绘，那你的工作流一定是先把脸抠出来，再进行重绘，哪怕你是一个节点把这两个功能包了，它也是先把脸抠出来再重绘。这样才是面部重绘，对吧？不然你不就重绘全图了吗？
巧了，GPT-4o就是全图重绘。
我发给过GPT-4o这样一张图片，从百度搜到的：

我让它把这个女孩的纹身去掉，它发回来这样一张图。

纹身确实是去掉了。
但不是「这个女孩」。
仔细看两张图对比，重绘的真的非常非常像。
但不光女孩的人换了。
桌上的包变成帽子，手里的多边形玻璃杯变成了圆杯，脚上的鞋也换了，手的姿势和坐姿也变了，窗帘的纹理也变了……
整张图完全是另一张图。
确定性在哪里？
如果这个女孩是我的客户，她就是付费让我帮她去掉纹身，她拿到这种图会买单吗？
再举个例子。
小罗伯特·唐尼官宣出演毁灭博士的时候戴了个面具，
这是他和面具的合影：

如何看待 GPT-4o 出现后，ComfyUI 等一众工作流软件会被淘汰的言论？-3.jpg

我现在想去掉这个面具，用ComfyUI工作流做：

如何看待 GPT-4o 出现后，ComfyUI 等一众工作流软件会被淘汰的言论？-4.jpg

抠出mask，然后，去掉了。

如何看待 GPT-4o 出现后，ComfyUI 等一众工作流软件会被淘汰的言论？-5.jpg

面具去掉了，其他东西都没有变。
现在换成4o来做：

如何看待 GPT-4o 出现后，ComfyUI 等一众工作流软件会被淘汰的言论？-6.jpg

如何看待 GPT-4o 出现后，ComfyUI 等一众工作流软件会被淘汰的言论？-7.jpg

变得细节更丰富了，更有质感了，甚至人都年轻了，好棒棒。
但你仔细看，眼睛颜色变了，手放下去了，袍子变成了卫衣，脖子上这玩意儿像个听诊器。
这个图，依旧能看出来是小罗伯特唐尼，你拿去发Twitter发朋友圈都没有问题，但唯独不能正经用。穿个卫衣，你说他是钢铁侠都行，但不能说他是毁灭博士。
所以，workflow带来的是什么？是让你能够指哪打哪。
要改A就改A，不要给我乱动B、C、D，哪怕只是概率，也不行。
再回到Manus和Coze，也是一样。
辛辛苦苦搭的工作流，AI能自己自动完成了。有没有？有。
但Manus不出错吗？当然不是，出错的案例比比皆是。
只要AI自己还独立完成不了足够复杂的任务，就需要人为给它设计workflow，先怎么样，再怎么样，提高它的任务准确率。
当然，不可以否认的是，大模型真的在内化很多能力。
比如说prompt。
最早ChatGPT刚出来的时候，给模型定义一个角色，你是XXX领域的专家，通常很有效。
有没有角色定义，结果差异很大。
使用结构化的提示词，效果就很好。
所以当时大家都认为提示词很重要，是一门学问，将来Prompt Engineer会成为一个普遍的社会岗位。
但后来就不一样了，很多模型哪怕没有角色定义，效果也不错。为什么呢？因为大模型厂家也不傻，发现这个prompt效果拔群，我直接训练进模型里面让它自己判断应该作为什么角色好不就好了？
再后来更是有了推理模型。
当DeepSeek-R1爆火的时候，大家发现，我原来不用跟大模型说那么一大堆复杂的结构化提示词，它也能给我不错效果的回答。我不用成为Prompt Engineer，好像也能愉快使用AI。
当然prompt依旧重要，好的prompt效果依旧跟随口问两句的prompt在效果上有很大的差异。但至少，简单的任务，真的不再需要有专门的提示词工程师写prompt了。AI能够自己进行思考，理解用户的意图，并做出最合适的回答。
Prompt Engineer也不会消失，但由于简单的任务不再需要，所以门槛一定更高了，需要的能力也更高了，也不再会那么普遍。
再重复一遍，大模型正在内化很多现在以外挂的形式挂在它身上的能力。
因为科技在进步，而不是退步。
AI最终将通往AGI，这也是大家都知道的目标。
那个需要workflow来消弭的不确定性会变得越来越小，这是一个毫无疑问的推论。
大模型本身的能力在成长，挤压的就是这一部分空间。
4o现在不支持局部重绘，可能很会支持。
AI去年还不能生成中文，现在生成的不也挺好的么。
但你要说淘汰掉workflow，那还为时过早。
如果以AGI为100%，那没达到AGI，自然就不是100%。
也就还是需要手搓的workflow的存在。
学肯定不白学，一个很重要的事情就是不要搞非此即彼，淘汰了什么远远没有接收并结合了什么新事物更重要。

发表于 2025-4-8 11:27:45

我真就是觉得ComfyUI会被淘汰，或者说如果没有很好的商业化路径，他最终只能是发烧友们的小众软件，只是这个时间点不是现在，而是在未来的几年里。
人们对于复杂流程的忍耐，是因为唯一和必要这两个前提条件。
ComfyUI之所以存在，是因为扩散模型生成的图像存在很多不完美的地方，而修复各种不完美的插件又比较零碎，因此需要一个统一的界面去整合这些东西，使得后加工的图像/视频可以达到远超模型直出的质量。ComfyUI就是在诸多开源技术的基础上扮演了唯一且必要的整合角色，它的路径是：聚合即应用。
但是这个世界不会永远这样，如果模型一次直出的效果已经达到了大部分人满意的预期，那么模型即应用这条路径就会有更好的前景。
很多年前我刚开始学设计的时候非常享受P图的过程，因为所有的不完美都可以通过数字手工的方式去修补，来达到一种“好像真的是那么一回事”的呈现效果。
那些年里有两个人的网站点亮了我的PS启蒙，一个人是Alex Hogrefe，另一个是韩世麟。他们的教程像是一种魔法，可以把粗鄙不堪的渲染底图甚至截图通过无数素材、图层、特效，调整成美轮美奂的电影级摄影大片。
这些魔法的背后是什么？是动辄几个G甚至十几个G的细分领域P图素材包，是几分钟到一两个钟头的倍速视频教程，是每一个创作先驱人肉帮你踩出一条路来，然后告诉你：“素材A”+“蒙版B”+“特效C”=“细密的雨点划过玻璃的效果”。好了，现在魔法解密已经给你了，你可以去复现了。
如果你的运气足够好，你大概会花费不少于教程的时长把这些魔法复现出来。
去年夏天，Adobe在西雅图这边开了一个座谈会，会上讲到Generative Fill这个背后由Adobe Firefly模型支撑的AI功能，这个功能甚至会贴心地把生成的结果放在一个单独的图层里，每一次生成都提供三种不同的效果供用户选择。魔法？现在秒出。
这当然不是什么新的东西，我在23年用过之后就知道过去这些年疯狂找素材，抠图，叠图层，加特效的数字手工逻辑已经被颠覆了。所以会后我去问Adobe其中一位项目负责人为什么会想要开发这个功能的时候，他回答道：当扩散模型作为这一轮生成式AI的主角之一登场的时候，不自我革命，就只能等着公司的拳头产品被扫进垃圾堆里。
你看，就连卖PS的也知道数字手工在生成式浪潮面前不可能独善其身。如果世界上存在这么一条捷径，使得复杂流程不是唯一且必要的，那么绝大多数人都将选择这条捷径。
<hr/>ChatGPT-4o最近更新的图像生成是一个信号，不是说它现在就能把ComfyUI淘汰，而是说它显示了另一条路径——模型即应用的生命力。
与其去鸡蛋里挑骨头说ChatGPT开始限制人像处理，倒不如期待其他几家CloseAI会在年内搞出有差异化的类似产品。不是每一家AI厂商的审核机制都那么严格的，不信你看Grok的底线就已经低到开始不穿裤子了。
ComfyUI能不能不被淘汰呢？当然是有可能的，前提条件是：他也能自我革命，不是增加几个CloseAI的大模型选项，而是能比CloseAI的使用方法更简便更迅速，效果还更好，那这样的ComfyUI没有人能拒绝。
但这不是现在的ComfyUI展示出的潜力，现在的ComfyUI使用门槛依然远高于CloseAI。都不用说学习难度，就说硬件，一个三百刀的垃圾笔记本可以毫无压力地打开CloseAI的网页，但是它能毫无压力地运行ComfyUI加载的模型和节点吗？
不会真以为这个世界上大多数人都已经能用得起N卡电脑了吧？
<hr/>设计师们纠结的点无非在于控制，在于那种近乎病态的精细控制。
就像外行人不会理解过去多少建筑景观等设计专业的学生曾经把时间浪费在寻找一棵恰当的素材树这种微不足道的事情上。
这种执着背后得有一种很强的理由去支撑，但如果只讨论赚钱的商业模式，最终你会发现大部分设计师这一生也不过是庸碌的凡人，小米不会因为你把它的Logo倒了个N个不同的圆角版本就付给你上百万的设计费——你面对的现实是在更改了10086个版本之后，甲方决定回归最初的那一版。
这种情况下ComfyUI也救不了你，反倒是可以试想一种结合了CloseAI已有的Fine-tune + Batch API的生产流程。
因为如果文生图直出真的可以稳定在相当的准确率之上的时候，暴力抽卡的枚举方式就是一个可以接受的选项。无非是我睡前运行的任务是生成一百张还是一百万张的区别（对于后者的数量级来说我不认为那是一个本地机器应该承受的东西）——前提是CloseAI这项服务的API收费不是那么丧心病狂（当然理想状态下这部分费用是生产成本的一部分，理应由公司承担）。不过我想就算CloseAI漫天要价，总会有友商上去拆台的，狗家可是一直盯着呢，也说不定会有一个DeepSeek类似的新源神去放出毫不逊色的东西。
只要出现这么一种保质保量且省心的服务，无论是ComfyUI还是Midjourney都会有生存危机——OG两家反正是已经正式开始跨过来了，我并不觉得ComfyUI和Midjourney有这个本事反向跨过去写代码搞推理。
Midjourney比ComfyUI强一些的地方在于，它已经形成了一个规模稍大的用户社群和对应的图像分享渠道，这使得它再不济也是AIGC时代的Pinterest/Behance。ComfyUI的路子更像当年的Food4Rhino或者Grasshopper吧，一堆tech-savvy分享中间过程，给你详解节点怎么连，每个node数值怎么调，热心一点的直接把文件分享出来——这很好，很有早年互联网开放共享的精神，却很难持久，也很难增长。
我赞赏ComfyUI带来的时代精神，却并不会有朝一日看到它小众化甚至消失就感到可惜。
这只不过是聚合路径败给了模型本身的进步。
如果你相信模型永远是残疾，那么工作流就有存在的必要。反之，工作流就是一个过渡阶段。
那些嘲讽模型是黑箱不好控制的人，说的像是你们的工作流不是搭建在这些黑箱之上一样。
我知道很多人都在赌模型直出的成果永远有上限，永远不完美。
我却想看看，五年之内，这些所谓的“精加工”“后处理”，会不会在模型的进步面前微不足道。
人总是乐意沉浸在造物的愉悦感当中，但这种价值一旦跳出了自我欣赏的范畴，它交换出去很难说被如何衡量。
我想人们最难接受的一点是：另一种智能的造物在未来某天不再需要人类加工干预，得以畅通无阻地流通在人类的世界里，而人类自己的作品却如同幼儿拙劣的画作，无人问津。

发表于 2025-4-8 11:39:03

我不知道为什么GPT - 4o出来了之后，那么多人炒作ComfyUI/Flux/SD被淘汰的言论
GPT - 4o确实很强大，但是他的生态位是对标Midjourney啊，完全不和ComfyUI/Flux/SD这类本地部署，自由扩展性强，可以用自有素材炼制成模型，丰富的各种第三方库的生态对标。
就说一个最简单的吧，人像的处理，GPT - 4o已经开始限制了。你怎么和ComfyUI/Flux/SD比？
我知道有人要说了，你满脑子都是搞黄的，搞黄的场景不多，根本影响不到GPT - 4o。
这都是乱说，很多人像处理根本不涉及黄的，比如去电商拍摄模特后的去雀斑，抠图。这和搞黄没有任何关系。但是close ai根本没有想法，也懒得去管你个人用户是不是和这个模特有签约得到了肖像权和著作权的许可。直接就一刀切了。
这是我在getting image合法购买的著名模特的twiggy的授权商用的照片

我让gpt帮忙去掉雀斑，结果他显示

“很抱歉，我无法处理这个请求，因为它违反了我们的内容政策。如果你有其他图像编辑需求，例如调整背景、更换发型、添加滤镜等，我很乐意帮你！请告诉我新的想法吧。”
这种限制因为使用的人越来越多，会越来越严格，不仅仅限于人物，连风格也开始限制。要模仿没有过了版权保护期艺术家风格的画风也是越来越严格。因为他是一家面向大众的公司，如果不一刀切的管理这些问题，很容易惹上天价的官司。
而ComfyUI/Flux/SD这类本地部署的流程，如果出了版权问题，受侵害方会直接找到使用者比去找工具提供商，更容易获得经济上的补偿，所以ComfyUI/Flux/SD并没有这样的限制。自由度就大大提高，就和平常用ps，adobe illustrator工具那样。
所以ComfyUI/Flux/SD虽然复杂，但是因为其自由度和丰富性并不和GPT - 4o形成竞争关系。
相反的，Midjourney和GPT - 4o才形成强烈的竞争关系。
Midjourney之所以能火，就是它的易用性和质量平衡得比较好。相对ComfyUI/Flux/SD的流程没有那么复杂，生成的图片虽然自由度没有那么高，但是下限不会太低。
结果现在GPT - 4o出来以后，易用性比Midjourney更高，而且理解能力更强，出图的质量下限也不低，自由度比Midjourney高。那么冲击的肯定是Midjourney
说一个鬼故事，Midjourney到现在的版本V6，还是不能正常理解半人马（centaur）是一种什么东西。而GPT - 4o理解没有障碍
这是我用GPT - 4o生成的半人马

这是我用midjouney生成

我在这里用了centaur，这在英文中就是很明确的古希腊神话中的半人马形象。GPT - 4o很明显理解了centaur这个词。但是midjouney依然没有理解这个词的意思。给我画出了三张马，一张鹿走在森林里面的图。说明他的理解能力太差。
甚至GPT - 4o可以在centaur的基础生成半人狼

很明显GPT - 4o不仅仅是理解centaur这个词，还可以根据这个词来衍生生成类似的半人狼的影响。
GPT - 4o对语义的理解和应用是完全吊打midjouney
而且我估计很快会有其他厂商跟进GPT - 4o的脚步，按照他们现在的思路走下去。很快midjouney这类厂商就会在竞争上败下阵来。
midjourney 说会在3月31日发布v7版本，但是如果没有GPT - 4o这样的强大的功能，最多是献祭一波给GPT - 4o。我认识很多设计师现在已经退了midjouney的包月服务，本来也想不用ComfyUI/Flux/SD，但是两天前人像受限制之后，又用了回来。现在打击最大的应该就是midjouney这个生态位的公司了。

发表于 2025-4-8 11:52:01

Comfy本人现在（2025年3月30日）就在上海，
ComfyUI中国官方会议正在上海举行。
作为ComfyUI爱好者，我收到了邀请，但没有时间去上海，发一下群友的摆拍：

这是到场的Comfy本人：

这是Comfy的微信头像（我真的和Comfy在一个群）：

尽管AI绘画圈最近一直在自嘲，ComfyUI药丸的言论层出不穷。
但是，Comfy本人的回应我非常认可：

以前这样的事情也发生过，但是总是有开源的勇士站出来，总会有一个开源的类似gpt4o的模型出现，那个时候ComfyUI会整合。

他还特别提到了，中国是开源模型的故乡。
理论上，使用ComfyUI通过挂载LLM然后自然语言驱动工作流实现gpt4o的效果，并没有什么难度，这么久没出现的根本原因是广大爱好者ComfyUI用熟练了都懒得用LLM了... ...
其实阿里头一段时间出了一个ComfyUI插件，叫ComfyUI-Copilot，挂接了DeepSeek等大模型，可以自然语言查找并执行工作流，已经非常接近gpt4o的模式了：

可以说，距离实现gpt4o的效果，官方再稍微配合一下下，只有一步之遥。
至于自回归模型和扩散模型之间的区别，我不认为在实现相同效果方面有太大的区别，殊途同归而已。
gpt4o最大的一个问题，是不能涩涩。
对于AI绘画来说，涩涩是第一生产力，这是开源的魅力。

发表于 2025-4-8 13:55:49

关于GPT-4o出现后，一些人认为ComfyUI等工作流软件会被淘汰的言论，我们可以从以下几个方面进行理性分析。 首先，任何新技术的出现并不意味着旧技术会被完全淘汰。GPT-4o的先进功能可能会对工作流软件产生一定影响，但工作流软件在流程管理、团队协作、任务分配等方面具有不可替代的作用。它们的核心意义在于帮助企业实现更高效、更智能的工作流程，提高工作效率。 其次，工作流软件的核心竞争力在于其不断进化的功能和不断满足用户需求的能力。面对新技术挑战，工作流软件应积极拥抱变革，不断创新，以适应市场需求。 因此，我们不能断言工作流软件会因此直接白学。相反，它们的核心意义在于不断优化工作流程，提高工作效率。面对新技术，工作流软件应积极应对挑战，不断创新发展。

如何看待 GPT-4o 出现后，ComfyUI 等一众工作流软件会被淘汰的言论？

本周热门