轩辕 LV
发表于 2025-4-8 11:02:52
ComfyUI重度用户来发表下自己看法吧。简单的回答是否定的。
这个问题涉及几个维度的比较。
工作流vs大模型
GPT-4o等新出的大模型确实会取代掉很多精心编排的工作流,但不会取代ComfyUI本身,ComfyUI它本身只是一个工作流编排工具,只是它被AI绘画用户用得更多。
你以为ComfyUI用户日常的工作流:简单加载个模型,输入prompt,接个sampler就能出图
你以为ComfyUI用户日常工作流
实际上ComfyUI用户日常的工作流:除了生成AI图片和视频,还有一大堆预处理,后处理,甚至还涉及LLM的调用,我可以在ComfyUI里用ollama调用DeepSeek,可以调用Qwen VL来读图,甚至可以调用翻译工具。
实际上ComfyUI用户日常工作流
当然,很多工作流将会过时,例如我前段时间做的一个工作流,是通过DeepSeek+In-Context loRA生成插画
桔了个仔:Deepseek-r1 + In-Context LoRA ,一键生成故事并生成角色一致的插图(ComfyUI实现)其实人物一致性从现在看来,大模型本身已经开始能解决了,现在GPT-4o已经能够生成一致性相当高的图片了,只要你给定指定人物,它就能按照指定人物生成新的图片。
当然,上面这个工作流相比起GPT-4o,它的优势是更加高度自动化,故事本身都是AI写的。
其实当你的需求越来越复杂,你就会发现,你需要是自动化,是效果可控,而不是让AI自己天马行空。就好像Dify并不会被大模型本身取代一样,ComfyUI作为工作流软件,它也不会被淘汰。
整个开源模型社区vs闭源多模态模型
其实用ComfyUI和GPT-4o比,是一件很奇怪的事情。我相信有经验的ComfyUI玩家都不会只调用一个模型,一般都是Lora+ControlNet+AnimateDiff等多种模型串起来用。
例如我想做一个特定效果的图片或者视频,我可能需要选定一个参考风格,然后通过Qwen VL提词反推,得到这个风格的prompt,又或者把这个图片转成Latent输入给Sampler等方法,再加上深度ControlNet/边缘ControlNet,再加上某种特定画风的LoRA,就能生成满意的效果。
虽然说即使在ComfyUI用上各种ControlNet,其实结果也需要「抽卡」(注:抽卡的意思是多生成几次选一个满意的)
当然,我相信80%的AI绘画需求可能会被一个单一的大模型解决,但还有20%的需求是需要定制化的。举个例子吧,某个设计团队,他们希望AI能根据他们过去的设计风格,能帮忙生成一些风格一样的底图,这时候可以拿团队过去的设计稿训练一个LoRA,后续就用这个LoRA来生成设计图,这样才能保证设计风格一致性。而用闭源多模态模型,则很难控制风格。
况且,这还涉及一个问题:数据保护。
私有vs公有
很多公司其实一直都很想利用AI进行设计,但很大的一个问题是,我不可能放心的把公司数据喂给别人部署的AI吧?尤其是大公司,数据保护政策很严格,例如三星等公司甚至在内部网络禁用ChatGPT,不是三星不想用AI,而是谁知道OpenAI会怎么用你的数据。
三星限制工作中使用 AI,禁用 ChatGPT 队伍再添一员,如何看待未来 AI 在企业应用的发展?而私有化部署才能解决企业的这种顾虑。
ComfyUI作为开源软件,任何公司都能在自己服务器部署,再加上开源社区各种模型,可以说,通用大模型能办到的,ComfyUI+开源大模型也能办到的;通用大模型办不到的,ComfyUI+开源大模也许有机会能办到。
例如,私有化后,你可以针对不同的风格,训练不同的LoRA。例如一个服装公司,可以针对运动装/休闲装等不同风格的产品线,训练不同的LoRA。
总结
最后总结一下。ComfyUI 等一众工作流软件不会被淘汰,原因很简单,大家不仅要用AI,而且要可控地用AI。 |
|