胖六传奇 LV
发表于 2025-4-7 15:39:03
互联网没有记忆。
去年才被Rabbit R1、AI Pin、AutoGLM这类Agent产品哄的团团转,今年一个Manus居然仍可以仅仅靠几个视频再次出圈。同样的故事似乎永远不嫌多。一样的剧情,差不多的结局。
本文会先罗列一些之前与Manus相似的产品和它们的故事,最后再聊聊为何Agent产品很难成功。
几个公众容易混淆的概念:
Chatbot
Chatbot也就是聊天机器人。像ChatGPT、DeepSeek网页版、豆包、元宝这些本质上都是Chatbot。它们的产品特点就是以和人类对话为主要功能,辅以一些简单工具的使用能力,比如联网搜索、阅读pdf等。但在很多场景下,不知道为什么Chatbot也会被称为Agent,极具误导性。
Workflow
Workflow也称为工作流。工作流是指设计人员提前编排了一个任务的流程,其中一些复杂的任务会交由大模型去完成。比如,有一个智能邮件系统,它能每天早上在你工作之前,自动帮你整理昨天收到的邮件,给你一份摘要。这个系统的整个流程可以提前完整地编排出来:
打开邮箱 -> 依次查看昨天的邮件 -> 总结邮件 -> 任务结束
像“总结邮件”这类比较复杂的任务,可以依靠大模型去完成。但整个任务的完整流程,是固定且提前设计好的。
Agent
Agent和Workflow的相同点是它们都是:面向任务的,以完成具体任务为目标。它们的区别是:Workflow的执行流程是提前编排好的;而Agent的执行流程依靠自己动态生成。 一个典型的Agent流程可以非常简单,如下图所示:
图1 典型Agent系统的流程(图不是特别严谨,缺少Excutor反复从Task List中取任务的流程)
整个Agent的最核心构成是编排器(Planner)和执行器(Excutor)。编排器根据用户的输入Query,尝试将整个任务拆分成一系列子任务,放在一个任务列表中(Task List)。执行器每次从任务列表中顺序地取出一个任务,然后去执行。执行任务可以通过使用三方工具来完成,也可以使用大模型自身的知识储备,当然也可以二者混用。
编排器和执行器通常都由大模型来实现。所以整个流程其实很简单:
- 接收用户Query,编排器拆解任务
- 执行器顺序地执行每个子任务
- 结果汇总,呈现给用户
三方工具的范围可以非常广。简单的工具如计算器、搜索引擎;复杂的工具可以是代码编译器、另一个会写代码的大模型、绘图模型等等。限制Agent能力的通常是可用工具的数量、范围和质量。我们可以把图一的这种Agent模式称为“模式一”,它的特点是子任务都是一次性生成的。
还有一种常见的“模式二”,它的特点是每次Planner只生成一个任务,Excutor在完成后再根据结果来让Planner生成下一个任务,如此往复,直到任务完成或失败。
在这些基础概念上,可以来看看Agent产品的演变过程。
1. Rabbit R1
图1.1 Rabbit R1产品真机图
最早在业界引起大家强烈关注的是Rabbit R1,一个橘黄色的小盒子。Rabbit R1号称能够基于强大的AI能力来根据用户指令完全自动化地完成用户下达的任务。比如用户可以通过语音对这个橙色小方块讲:
“我想预定周围评分最高的一家中餐店,晚上19:00。”
Rabbit R1会自动打开相关的App,帮用户查询周围的店铺,并尝试按照约定的时间进行预定。这一切无需用户介入。
Rabbit R1在2024年初亮相国际消费电子展,并获得了大量用户的青睐。但从预定时的全民疯狂,到上市后的口碑崩塌,R1只用了半年时间。
Youtube上大量的真机测试表明这几乎可以定义为一场彻头彻尾的骗局。Rabbit R1被称为“一个有壳子的App”。
图1.2 Rabbit R1的口碑崩塌速度相当快
Rabbit R1最大的问题是:你不知道它能干什么、不能干什么。而它实际能干的事情又太少,所以用户在使用中发现一切对它都太难了...
即使经历了多次重大更新,Rabbit R1再也没有回到最初的聚光灯下。
2. Humane AI Pin
与Rabbit R1几乎同时登场的还有一款叫做Humane AI Pin的产品,它是一个可穿戴设备,用户可以别在胸口。它没有显示器,依靠投影显示内容,看起来科技感非常足。
宣传的功能和Rabbit R1很类似,但它的口碑更是不忍直视。
图2.1 史上最差的AI Pin
3. 魅族---任务机器人
图3.1 魅族-任务机器人
相比于老外们搞出来的这些纯纯侮辱人智商的产品,国内在2024年相对表现的冷静一些。国内较早讲出纯Agent概念的是魅族,称之为“任务机器人”。整个概念从2024年5月份开始宣传。从宣传视频来看,魅族任务机器人的整体技术框架和当时学界、工业界的普遍做法没有太大区别,每一步都按照如下模式重复进行:
观察手机屏幕 -> 感知信息 -> 行为决策 -> 执行 -> 反馈。
在6月份,魅族发布了一段实操视频(其实并不是真机实操)。视频中主要呈现的内容是自动发文件、自动打卡、自动打车几个场景。看完后整体感受是,魅族提了一个很好的概念,但看起来落地太困难(网上仍有视频,搜“魅族任务机器人”即可)。
4. AutoGLM
图4.1 AutoGLM宣传视频
AutoGLM可以根据用户的Query来自动操作手机。比如:帮我订一张明天去北京的机票;帮我买杯昨天买的咖啡...
宣传视频强到离谱的AutoGLM,真机体验折扣太严重。Rabbit R1的“妖风”还是吹到了我们这里。官网仍有视频。安卓和Web也都可以体验,只是安卓设备需要申请试用。
5. Manus
一夜之间爆火的Manus,你甚至都不知道它为什么爆火。DeepSeek的爆火,一方面是大家用过之后,普遍觉得好用,且可直接平替GPT,省事省力;另一方面其在创新上也做得确实不错。
而Manus和之前的Rabbit R1、Pin、Auto GLM太像了,甚至连故事都一模一样。
从可预期得产品表现来看,Manus一定不会差到像Rabbit R1和Pin那样离谱,因为Manus主要聚焦文本数据,它的场景本身也更简单。但也别指望它真的如宣传一样“通用”。在现在的技术条件下,凡是讲通用,一定不可信。
6. 为何AI Agent很难?
其实有一个非常核心的矛盾:
当前的LLM能力还不足以做出通用、高可靠的Agent系统。但是通过极致的工程化,我们又能够大幅提升Agent系统的整体表现。
但是LLM的发展速度又相当惊人,说不定辛辛苦苦做了一年用来提升Agent的工程化手段,在一年后更强的LLM面前不值一提。
正如《The Bitter Lesson》提到的: One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great.
简而言之,通用的、可扩展的方法是首选。而目前LLM恰好符合这一要求。所以对于很多团队来说,与其拼死拼活做一年Agent的工程化,不如等一年LLM的进展~~~
其它一些原因在之前文章中也有介绍了:如何评价当前的 AI Agent 落地效果普遍不佳的问题?
通用的AI Agent迟早会来。 |
|