能大致讲一下 Manus 的原理吗?

能大致讲一下 Manus 的原理吗?
收藏者
0
被浏览
96

1 个回答

urizen LV

发表于 2025-4-7 15:38:28

当然可以。Manus通过大量的自媒体营销号迅速刷屏爆火后,似乎关于这款产品的讨论热度降下来了,可能是因为大家发现,其实并没有这些文章里面所形容的那样惊艳和无敌,能迅速大火主要得益于所对标的OpenAI AI Agent 产品,发布后订阅价格太贵并不为大众所熟悉。
于是很多人是首次了解到相关的 AI agent 产品,之前并没有多少概念和使用体验,所以很容易被大量推广和新闻标题误导,现在热度差不多已经过去了,我趁这个机会简单写一下 Manus 的工作原理。这是Manus官网自己放的几种典型的应用场景,包括research 场景,生活,数据分析,教育和生产力等等。

能大致讲一下 Manus 的原理吗?-1.jpg

其实宝玉老师做的下面这张图已经比较明确的涵盖了主要部分了,当然因为 Manus 开放的资料很少,这里对工作原理的介绍有猜测的成分,后面有最新消息可以再更新。从图上可以看出来整个过程,跟 OpenAI 的 Operator 和 Deep Research等很多AI Agent 产品都很类似。
Manus的处理流程从任务规划器开始,基本上是根据用户输入的查询prompt,任务规划器可能使用 Claude 3.5 Sonnet(后面再具体分析这个基座模型),利用语言理解和推理能力,将比较复杂的用户请求进行拆解,得到一系列子任务,一般都是已经拆解到的具体的可以直接执行的子任务了。
然后这些将用户请求拆分之后的子任务,组成为 Todo List,为后续执行提供一系列指导。任务执行调度器(可能用微调的 Qwen模型)分配给专用 Agents,可以根据每个子任务的性质、优先级和依赖关系,将其分配给相应的专用Agents。Qwen模型在任务分配中的作用是确保任务的最佳匹配。  
这些专用Agents往往都运行在Linux虚拟机上,虚拟机配备了Chrome浏览器和Python环境,以支持多样化的任务执行需求。每个Agent专注于特定类型的任务,比如常用的几种,包括网页浏览Agent,数据分析 Agent,代码执行Agent,文本生成 Agent 等等等等。将来这部分肯定还会有扩展。
这些专用 Agents 将任务执行完毕后,最后由任务汇总生成器(也可能用 Claude)整合结果,生成最终输出,一般是结构化的结果,包括文本报告、图表或者 python 代码等等。

能大致讲一下 Manus 的原理吗?-2.jpg

其能力受限于模型和子任务Agent 的性能。已经有新闻提到Manus用的是Claude 3.5 Sonnet模型,后面他们计划用Claude 3.7,还在内部测试中。还使用了Qwen微调后的模型,总之是没有自己的基座大模型的,只是基于现有的大模型进行应用层优化,通过上图中所画出的一系列任务tasks拆解,然后多AI Agents合作,以及工具调用,来实现整体AI Agent的通用架构。
所以我常说护城河几乎没有,这也是为什么经过短暂的爆火后,能被其他开源模型迅速复刻。比如前段时间迅速出现OpenManus等等复刻项目。
更重要的是价格问题,已经有人估算过,平均完成一项任务的成本在2美元左右,差不多十几块人民币,这个运行成本可不算低了。
至于将来真正好用的 AI Agent 架构,其实说不定不是现在基于 GUI 这一套 pipeline 开发出来的,完全模拟人类的操作习惯而训练的,也有可能是另一种形态被用户所接受。这个我们要看技术的演进,当前遇到的问题肯定会逐渐被迭代慢慢解决。由此可见,如果能真正了解大模型和 Manus 这类 AI Agent 的原理等相关知识,非常重要。正好啊,知乎知学堂推出了大模型应用开发公开课,这门课程将深入讲解大模型相关知识,帮助你全面了解 Manus 等 AI Agent 的架构原理。同时,课程还会讲解AI Agent 所依赖的基座模型,并介绍大语言模型相关的前沿研究进展。如果你想更熟悉 AI Agent 的研发流程,掌握 Manus 这类 AI Agent 的核心原理,并了解如何基于大模型进行开发,这门课一定能帮到你!
相信经过学习之后,你会更熟悉Manus这类 AI Agent的基本原理和典型研发流程。
为了更清楚地了解这种 AI Agent 产品,我们拿对标的 Operator 产品,简单介绍这种 GUI Agent,工作原理本质就是基于多模态大模型(当然他们发布的时候,用的还是GPT4o),使用思维链(CoT)进行推理任务时,其框架已相当常见,主要分为三个部分:感知(perception)、推理(reasoning)和行动(action)。感知部分以截图作为视觉输入,通过多模态模型进行理解;推理过程则采用强化学习(reinforcement learning)训练,遵循逐步慢推理的方式;行动部分则是模仿人类的鼠标操作。
另一款就是Deep Research 产品,其实已经有免费的这类 AI Agent,包括 Grok3 的 deep search 和 Google 的Gemini Deep Research 功能。这类就是典型的基于Test-time scaling开发的AI Agent,比如Deep Research产品,我们可以看到在openai内部Expert-Level Tasks的测试上,这条测试曲线表明,模型浏览和思考它所浏览的内容越多,它的表现就越好,这就是为什么给它时间思考很重要。下图这款就是 Grok3 的 deep search 产品,我经常用,因为很难得,在香港没有任何限制。

能大致讲一下 Manus 的原理吗?-3.jpg

您需要登录后才可以回帖 登录 | 立即注册