能大致讲一下 Manus 的原理吗？

能大致讲一下 Manus 的原理吗？

发表于 2025-4-7 15:38:28

当然可以。Manus通过大量的自媒体营销号迅速刷屏爆火后，似乎关于这款产品的讨论热度降下来了，可能是因为大家发现，其实并没有这些文章里面所形容的那样惊艳和无敌，能迅速大火主要得益于所对标的OpenAI AI Agent 产品，发布后订阅价格太贵并不为大众所熟悉。
于是很多人是首次了解到相关的 AI agent 产品，之前并没有多少概念和使用体验，所以很容易被大量推广和新闻标题误导，现在热度差不多已经过去了，我趁这个机会简单写一下 Manus 的工作原理。这是Manus官网自己放的几种典型的应用场景，包括research 场景，生活，数据分析，教育和生产力等等。

其实宝玉老师做的下面这张图已经比较明确的涵盖了主要部分了，当然因为 Manus 开放的资料很少，这里对工作原理的介绍有猜测的成分，后面有最新消息可以再更新。从图上可以看出来整个过程，跟 OpenAI 的 Operator 和 Deep Research等很多AI Agent 产品都很类似。
Manus的处理流程从任务规划器开始，基本上是根据用户输入的查询prompt，任务规划器可能使用 Claude 3.5 Sonnet（后面再具体分析这个基座模型），利用语言理解和推理能力，将比较复杂的用户请求进行拆解，得到一系列子任务，一般都是已经拆解到的具体的可以直接执行的子任务了。
然后这些将用户请求拆分之后的子任务，组成为 Todo List，为后续执行提供一系列指导。任务执行调度器（可能用微调的 Qwen模型）分配给专用 Agents，可以根据每个子任务的性质、优先级和依赖关系，将其分配给相应的专用Agents。Qwen模型在任务分配中的作用是确保任务的最佳匹配。
这些专用Agents往往都运行在Linux虚拟机上，虚拟机配备了Chrome浏览器和Python环境，以支持多样化的任务执行需求。每个Agent专注于特定类型的任务，比如常用的几种，包括网页浏览Agent，数据分析 Agent，代码执行Agent，文本生成 Agent 等等等等。将来这部分肯定还会有扩展。
这些专用 Agents 将任务执行完毕后，最后由任务汇总生成器（也可能用 Claude）整合结果，生成最终输出，一般是结构化的结果，包括文本报告、图表或者 python 代码等等。

其能力受限于模型和子任务Agent 的性能。已经有新闻提到Manus用的是Claude 3.5 Sonnet模型，后面他们计划用Claude 3.7，还在内部测试中。还使用了Qwen微调后的模型，总之是没有自己的基座大模型的，只是基于现有的大模型进行应用层优化，通过上图中所画出的一系列任务tasks拆解，然后多AI Agents合作，以及工具调用，来实现整体AI Agent的通用架构。
所以我常说护城河几乎没有，这也是为什么经过短暂的爆火后，能被其他开源模型迅速复刻。比如前段时间迅速出现OpenManus等等复刻项目。
更重要的是价格问题，已经有人估算过，平均完成一项任务的成本在2美元左右，差不多十几块人民币，这个运行成本可不算低了。
至于将来真正好用的 AI Agent 架构，其实说不定不是现在基于 GUI 这一套 pipeline 开发出来的，完全模拟人类的操作习惯而训练的，也有可能是另一种形态被用户所接受。这个我们要看技术的演进，当前遇到的问题肯定会逐渐被迭代慢慢解决。由此可见，如果能真正了解大模型和 Manus 这类 AI Agent 的原理等相关知识，非常重要。正好啊，知乎知学堂推出了大模型应用开发公开课，这门课程将深入讲解大模型相关知识，帮助你全面了解 Manus 等 AI Agent 的架构原理。同时，课程还会讲解AI Agent 所依赖的基座模型，并介绍大语言模型相关的前沿研究进展。如果你想更熟悉 AI Agent 的研发流程，掌握 Manus 这类 AI Agent 的核心原理，并了解如何基于大模型进行开发，这门课一定能帮到你！
相信经过学习之后，你会更熟悉Manus这类 AI Agent的基本原理和典型研发流程。
为了更清楚地了解这种 AI Agent 产品，我们拿对标的 Operator 产品，简单介绍这种 GUI Agent，工作原理本质就是基于多模态大模型（当然他们发布的时候，用的还是GPT4o），使用思维链（CoT）进行推理任务时，其框架已相当常见，主要分为三个部分：感知（perception）、推理（reasoning）和行动（action）。感知部分以截图作为视觉输入，通过多模态模型进行理解；推理过程则采用强化学习（reinforcement learning）训练，遵循逐步慢推理的方式；行动部分则是模仿人类的鼠标操作。
另一款就是Deep Research 产品，其实已经有免费的这类 AI Agent，包括 Grok3 的 deep search 和 Google 的Gemini Deep Research 功能。这类就是典型的基于Test-time scaling开发的AI Agent，比如Deep Research产品，我们可以看到在openai内部Expert-Level Tasks的测试上，这条测试曲线表明，模型浏览和思考它所浏览的内容越多，它的表现就越好，这就是为什么给它时间思考很重要。下图这款就是 Grok3 的 deep search 产品，我经常用，因为很难得，在香港没有任何限制。

发表于 2025-4-22 22:53:00

Manus通常指的是一种用于机器人辅助外科手术或辅助制造的系统。它的原理主要基于先进的机器人技术和计算机控制。具体来说，Manus系统通过精密的机械臂进行精细操作，这些机械臂的运动受到计算机程序的精确控制。此外，它还可能包括传感器和反馈机制，以实时监控操作过程并调整机械臂的运动轨迹。简而言之，Manus系统利用机器人技术和计算机控制，提供精确、稳定和可靠的手术或制造辅助操作。希望这个通俗易懂的解释能帮助你理解Manus的基本原理。

能大致讲一下 Manus 的原理吗？

本周热门