AI Agent目前应用落地有哪些局限性？

AI Agent感觉未来有前景，但实际效果上取决于大模型的影响，各位在实际的探索落地中遇到那些障碍，能分享一下吗？

发表于 2025-4-9 11:47:47

市面上很多所谓的AI Agent应用就压根算不上Agent，撑死了是个定制版ChatBot。

图源：https://www.1ai.net/19552.html

国内把AI Agent翻译成智能体，这种命名本来是去对标24年年初OpenAI的GPT Store。但问题是GPT Store可从来没说自己Store里的东西是Agent，官方的介绍是：

允许用户创建和分享自定义版本的ChatGPT，用户可以通过自然语言提示创建GPTs，无需编写代码。

所以人家Store里的东西就是定制版ChatBot，底模是GPT，OpenAI的官方产品叫ChatGPT，用户创建的定制化产品就是它说的GPTs。

图源：https://www.yicai.com/video/102178259.html

结果“AI Agent = 智能体”这种宣传对很多人产生了误导，以为所谓智能体就是“大模型 + 系统提示词 + 知识库 + 插件”，果然最后做出来的东西还是一个聊天机器人。
AI工具集——12个AI智能体开发平台你就看国内那些个智能体平台是不是都是换了皮的聊天机器人？又有几个团队有本事靠卖定制版聊天机器人保持盈利的？
<hr/>其实AI Agent一个比较合理的翻译应该是“AI代理”，也就是说这个AI得有能力在用户不在或者不主动交互的情况下，代替用户去处理一些任务。
这个场景相比聊天会复杂很多，按照23年Lilian Weng的那篇《LLM Powered Autonomous Agents》，自动化的AI代理在开始执行前，至少需要三个模块：记忆、工具、计划。

图源：https://lilianweng.github.io/posts/2023-06-23-agent/

工具相对来说好解决一些，要么大模型自带Tool Calling，要么用API调用外部的工具。
记忆在长期来看可能会变得非常重要，短期来说不算刚需。像mem0这样专做Memory Layer的本质上也还是一个数据库混合存储和检索（向量、键值、图）。现阶段主流的记忆方式还是通过把一定轮数的对话内容发送给LLM，不算高效，但已经能覆盖一次对话内的大多数场景了。这还得感谢主流的LLM几乎都到了128k的上下文长度，要还是停留在4k，8k，32k上下文的水平，LLM连保持前几轮对话的记忆都难。
计划和执行能力则是现阶段正在解决的难点。
23年那会儿AutoGPT刚出来的时候，油管上一众科技博主造出的声势和最近的DeepSeek颇有几分相似之处。但你真把它的Github Repo克隆到本地跑一下会发现：GPT-3.5和GPT-4级别的智能用来处理很多任务真就是力有未逮。它处理任务的每一个环节几乎都有问题，包括但不限于幻觉、分解任务的能力、复用前面已经生成的子任务的能力……简单讲就是底模的智力和上下文长度就不太行，复杂任务执行成功的概率非常低。
24年Claude 3.5 Sonnet的的推出使得Agentic Coding首先看到了曙光。大众所熟知的Copilot，Cursor，Windsurf，Bolt.new等等编程产品可以视作是针对编程任务的AI代理。这些产品在权限放开的前提下可以读取代码库里的文件，更改文件，自动检查错误，修正错误，也确实在这个细分领域达到了“代理”的效果。

图源：https://www.anthropic.com/news/claude-3-5-sonnet

之后到24年底如果不把LLM的迭代算在内，Agent方面的两个里程碑一个是Scheduled Tasks，另一个是Computer Operator。
前者允许用户使用自然语言构建一个RPA + AI的任务流程，后者则通过放开部分权限实现由大模型直接操作计算机。
Scheduled Tasks：RPA 与 LLM 的融合，有限的自主性

Scheduled Tasks 代表了 AI Agent 发展的一个重要方向，它巧妙地将 RPA（Robotic Process Automation，机器人流程自动化）与 LLM（Large Language Model，大型语言模型）融合在一起。我们知道，传统的 RPA 就像一位一丝不苟的“执行者”，擅长处理那些预先定义好的、重复性的任务，但它缺乏灵活性，也无法理解人类的自然语言。而 LLM 则是一位“语言大师”，精通自然语言的理解和生成，却苦于没有“手脚”，无法直接执行具体的操作。

图源：https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt

Scheduled Tasks 的出现，恰好弥补了这两者的不足。用户可以用自然的语言来描述任务流程，就像跟一位助手交代工作一样。LLM 会负责将这些自然语言指令，翻译成 RPA 能够执行的具体步骤，然后由 RPA 引擎一丝不苟地去执行。这种“强强联合”，让 AI Agent 能够处理更复杂的任务，那些需要一定程度自然语言理解的任务也不在话下。
与传统的 AI Agent 相比，Scheduled Tasks 的不同之处主要体现在三个方面。

首先是触发方式，传统的 AI Agent 通常需要用户主动发起对话才能“唤醒”，而 Scheduled Tasks 则可以根据预设的时间、事件或其他条件自动“苏醒”，开始工作。
其次是任务类型，传统的 AI Agent 更擅长处理对话式的、信息查询类的任务，而 Scheduled Tasks 则更适合处理那些流程化的、需要与外部系统交互的任务。
最后是自主性，Scheduled Tasks 仍然需要用户预先定义好任务流程，AI Agent 只是按照预设的“剧本”来执行，自主性相对有限。

举例来说，Zapier Central就是一款结合了 RPA 和 LLM 的工具，它允许用户通过自然语言创建自动化工作流程。根据Zapier的数据，用户创建的自动化流程平均每月能节省 10 个小时的工作时间。但是，Zapier Central主要适用于相对简单的、跨应用的自动化任务，对于更复杂的、需要深度定制的任务，仍然需要专业的RPA工具。
这也反映出Scheduled Tasks的局限性：对于高度复杂、需要灵活应变的流程，它的处理能力仍然有限；如果任务执行过程中出现异常，它的错误处理能力也可能不足，需要人工干预。
Operator：赋予 LLM “手脚”，安全与可控性的挑战

Operator 则代表了AI Agent发展的另一个更具野心的方向，它的核心在于赋予 LLM 直接操作计算机的能力，让 LLM 真正拥有了“手脚”。这通常有两种实现方式：

一种是通过 API 调用，LLM 可以调用操作系统提供的 API（Application Programming Interface，应用程序编程接口）来控制鼠标、键盘、应用程序等；
另一种是结合视觉模型（如 GPT-4V），LLM 通过分析屏幕内容来理解当前的操作环境，并生成相应的操作指令。

相比 Scheduled Tasks，Operator 的操作粒度更精细，可以实现像素级别的操作；它还能通过视觉模型感知操作环境，做出更智能的决策；更重要的是，它具有更高的自主性，可以根据当前的任务和环境，自主决定下一步的操作。

图源：https://openai.com/index/introducing-operator/

然而，Operator 也面临着巨大的挑战：

首当其冲的就是安全性问题，直接赋予 LLM 操作计算机的权限，就像把家里的钥匙交给了一个陌生人，如何防止 LLM 执行恶意操作、泄露用户隐私、破坏系统稳定，是Operator 必须解决的首要问题。
其次是可控性问题，如何确保 LLM 的操作符合用户的预期？如何防止 LLM 出现误操作？如何对 LLM 的操作进行监控和审计？这些都是需要仔细考虑的问题。

OpenAI 曾展示过一个名为“WebGPT”的项目，它可以通过控制浏览器来完成各种网络任务，但它仍然需要人类提供明确的指令，且操作范围仅限于浏览器。Adept 公司的“ACT-1”模型展示了通过观察人类操作来学习如何使用各种软件的能力，但距离完全自主操作还有很大差距。Rabbit R1 是一款基于“Large Action Model (LAM)”的设备，虽然展示了Operator的潜力，但它仍然依赖于预先训练好的模型，且操作范围受限于特定的应用程序。
<hr/>你会发现，AI Agent落地的难点在于：现阶段的LLM才刚刚能让用户体验到Co-pilot（辅助驾驶）的感受，而市场已经在开始做Auto-pilot（自动驾驶）的梦了。只要人工的干预不能完全避免，那就谈不上 100% 的 AI 代理。这中间的鸿沟，不仅仅是技术上的差距，更是对 AI Agent 认知和期望上的错位。
目前AI Agent的发展仍处于早期阶段，远未达到理想中的“自主”、“智能”和“可靠”。无论是 Scheduled Tasks 还是 Computer Operator，都还只是在特定领域、特定场景下的初步尝试。它们更像是“工具”而非“代理”，更像是“助手”而非“管家”。
当然，永远会有一个魔鬼般的问题横亘在我们面前：
一个只能计划和执行，却没有决策权的高智商“代理”，真的符合人类对于 AI“代理”的期望吗？或者说，这真的是我们想要的“代理”吗？

发表于 2025-4-9 11:57:05

更好的阅读体验请见：
UI Agents（智能体）技术综述 | Breezedeus.com<hr/>一、UI Agents技术概述

UI Agents 技术利用大模型技术（VLM / LLM）实现智能体对手机或电脑的自动操作，模拟人类行为完成指定任务，涵盖 Web GUI 和 Mobile GUI 等多种应用场景，甚至与 Embodied Navigation 中的 Vision Language Navigation（VLN）任务也有相似之处。
UI Agents的定义与示例

UI Agents 的核心在于智能体能够模拟人类操作，自动执行任务。例如，当我们下达“微信给小明发送一条消息：‘吃了吗？’”这样的指令时，UI Agents 会像人类一样理解任务，然后在手机或电脑上执行一系列操作，如打开微信、找到小明的聊天窗口、输入消息并发送。这一过程涉及到对UI界面的感知、理解以及精确操作，其本质是一个 Partially Observable Markov Decision Process (POMDP) 问题，智能体无法观察到所有的状态信息，需要根据当前可观察到的状态（如UI截图和对应的XML）做出决策，输出如“CLICK(100, 200)”这样的操作指令，其中“CLICK”为动作名称，“(100, 200)”为动作参数，即点击的坐标。

UI Agents面临的独特挑战

尽管 UI Agents 前景广阔，但在实际应用中面临诸多挑战。首先是序列决策问题，其收益具有延迟性，这意味着智能体在执行任务过程中，可能无法立即知晓当前操作的有效性，直到任务完成才能确定最终收益。其次，网站和应用程序的频繁更新导致在线观测结果与离线数据不一致，给智能体的学习和决策带来困难。此外，各种不可预测的干扰项，如弹出广告、登录请求以及搜索结果的随机顺序等，都会影响智能体的正常操作。技术方面，网页加载不完整或对某些网站的临时访问受限等问题也时有发生，这些都对 UI Agents 的性能和稳定性提出了更高要求。

二、UI Agents技术路线

实现 UI Agents 主要涉及感知（Perception）、规划/决策（Planning/Decision）等关键环节，技术路线多样，包括基于Closed LLM、VLM等不同方式，各有优劣。

感知（Perception）技术

在 Perception 方法中，智能体通过截屏XML、截屏图片、OCR、Summarization、Icon Detection & Captioning 等技术，将 UI 截图转换为结构化信息，以便进行后续的规划和决策。

Closed LLM (Training-free)

这种方法先利用感知技术将当前状态转换为文本，再借助 LLM 进行推理和决策。以 AutoDroid（清华）和 AWM（CMU & MIT）为代表，其优化方向主要集中在 Memory Construction & Usage、Prompt 以及Trajectory Planning 等方面。在这一过程中，感知能力至关重要，它决定了如何用文本准确表达当前状态，而LLM的推理能力则直接影响决策的准确性。

Memory的构建与使用（以AWM为例）
AWM 从已有路径中抽取公共的抽象子路径（workflow），每个 workflow 包含 workflow 描述（自然语言描述功能）和具体路径（节点包含当前环境描述、推理说明和动作等信息）。Memory 使用时，通过向量检索得到 top-k 个结果并加入 prompt，以增强决策依据。

VLM - driven UI Agents

VLM-driven UI Agents 的 Policy Model 基于 VLM 实现，VLM 同时完成感知、规划和决策任务。对 VLM 的独特要求包括UI任务执行和推理能力、全局理解能力和局部细节理解能力。

VLM 在 UI Agents 中承担着感知、规划和决策的多重任务，对其有独特要求。它需要具备 UI 任务执行和推理能力，包括全局理解能力（如细粒度 OCR、UI 界面理解）和局部细节理解能力（如元素定位、指称能力），以应对UI操作中的各种需求。

Perception + Closed VLM

SoM (Set-of-Mark Prompting)：Microsoft 提出的 SoM 利用检测模型将图像分区并添加标记，辅助 VLM 进行推理决策，如在 GPT-4V 中通过这种方式提高视觉定位能力。
Closed VLM代表性工作：包括 MM-Navigator（Microsoft）、AppAgent（Tencent）、Mobile-Agent-v2（Alibaba）、OmniParser（Microsoft）等。以 OmniParser 为例，它融合多个感知模块结果（如微调的可交互图标检测模型、图标描述模型和 OCR 模块）后输入到 GPT-4V 中，生成类似 DOM 的 UI 界面结构化表示形式，提升对 UI 的理解和操作能力。

Open VLM (Training-based)

Open VLM技术路线中，VLM通过训练数据精调，不改变其架构。代表性工作包括 CogAgent、Ferret-UI 和 SeeClick，它们各自采用了不同的技术和方法来提升VLM的效果。

针对GUI任务设计特有VLM结构：

CogAgent（Zhipu）：在 CogVLM 基础上新增小型高分辨率图像编码器（0.3B参数），支持超高分辨率图像输入，降低处理高分辨率图像的计算成本，增强与 GUI 相关的问答和 OCR 任务能力。

Ferret-UI（Apple）：基于 Ferret VLM 训练，通过特定的 anyRes 方法（根据屏幕纵横比切分原始图片为子图并单独编码）执行精确指称和定位任务，其训练涉及多种任务，如指称、定位、问答、Summarization和功能判断等。

使用GUI任务数据精调通用VLM：

SeeClick（Shanghai AI Lab）：分两阶段训练，预训练阶段利用GUI grounding基础预训练策略增强通用VLM（Qwen - VL）的grounding能力，包括预测坐标、基于坐标或边界框预测文本、UI总结和通用视觉语言指令跟随等任务；微调阶段将指令、当前界面截图和历史动作作为输入，预测下一步操作。

MobileVLM（XiaoMi）：基于Qwen - VL - 9B利用UI数据进一步训练，构建了包含大量UI截图、XML和动作的Mobile3M数据集，通过该数据集开展元素定位、动作预测、元素列表生成和动作空间生成等任务，并采用三阶段训练（难度渐进式增加）提升模型对单个UI页面内部、两个页面之间关系以及端到端任务完成能力。

Pipeline: Planning + Precise Grounding

此方法将规划和精确定位分离，使用 VLM 进行规划，输出动作的文本描述，再用其他模型精确定位动作信息（如坐标、输入文本等）。代表性工作如 ClickAgent（Samsung），其决策模块使用InternVL2.0-76B 进行推理、动作规划和反思，UI Location Model 对“CLICK”动作使用 TinyClick 产生精确点击坐标；LiMAC（Huawei）由 AcT（预测动作类型和参数）和 VLM（生成 text 字符串）组成 pipeline 执行 UI 任务；AutoGLM（Zhipu）基于“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”，将任务规划与动作执行解耦，规划器给出动作文本描述，执行器给出具体参数。

三、UI Agents 的高级优化技术

为了进一步提升 UI Agents 的性能，研究人员探索了多种高级优化技术，从不同方面改进模型。
这些优化技术涵盖多个方面，包括增强 Memory/Knowledge，使用更好的 Base VLM，获取更多更好的数据（如通过搜索方法如 MCTS 进行数据探索和利用），改进训练方法（如确定训练任务和顺序，采用 RL（DPO）提升推理和规划能力）以及优化推理方法（如 CoT、ReAct、多智能体协作、树搜索等）。

代表性工作

Agent Q（MultiOn & Stanford）
利用 MCTS + Step-DPO + PlanReAct 训练 LLM/VLM 模型。训练时，MCTS 自动探索和执行动作获取正负样本数据，Selection 阶段使用过程奖励模型预测节点潜在收益，Expansion 阶段基于 Critic Model 选择 top-K 动作扩展，Simulation 阶段用 GPT-4V 判断任务完成情况；然后使用 Step-DPO 精调模型以提升推理和规划能力。

Inference-time Tree Search（CMU）

在推理时采用 best-first 树搜索提升效果。基于 LLM/VLM 的 Policy 函数选择最优 top-b 个 actions，Value 函数（使用 GPT-4o 并采用 self-consistency 机制取20次调用平均得分）判断当前状态期望收益，树搜索优先探索Value值大的节点。

Mobile-Agent-v2（Alibaba）

引入多智能体（规划、决策、反思智能体）和记忆单元协同工作。记忆单元存储任务相关焦点内容并随任务更新；规划智能体生成任务进度辅助决策；决策智能体根据任务进度、屏幕状态和反思结果生成操作并更新记忆单元；反思智能体观察操作前后屏幕状态，判断操作是否符合预期，若错误则回退页面，若无效则维持状态。

四、UI Agents的评测方法

准确评测 UI Agents 的性能对于其发展至关重要，目前主要采用人工评测和自动评测两种方式，同时也有专门的测试平台。
评测方式与指标

人工评测：精度高，但耗时且成本高。
自动评测：速度快、成本较低，但精度相对不高。
评测指标：

Step-wise：包括动作准确率（Act.Acc，所有动作成功率平均分，点击准确率反映定位能力，类型匹配率反映动作名称准确率）。
Episode-wise/Trajectory-wise：涵盖任务成功率和任务完成效率（完成任务平均步数）。
Path-wise：包含路径匹配度、路径节点最高收益值（从节点到达任务完成的概率）和Essential States（任务完成必要状态或关键节点）。

Testbed for Task Automation：为UI任务自动化提供了专门的测试环境，有助于更全面准确地评估UI Agents的性能。

五、UI Agents技术的回顾与总结

综合来看，不同 UI Agents 技术路线在效果、资源需求和风险等方面存在差异。

Closed LLM：公开工作中的效果一般（⭐⭐），算力和数据需求很低，但后续效果优化难度大，推理耗时一般，隐私安全低，达成效果的风险较高。
Closed VLM：效果相对较好（⭐⭐⭐），算力需求较低，数据需求低，后续优化较难，推理慢，隐私安全低，风险一般。
新架构VLM：效果上限高（⭐⭐⭐⭐），但算力和数据需求极高（百卡量级和百M量级），优化有点难，推理耗时一般，隐私安全高，工作量大导致达成效果的风险较高。
通用VLM微调：效果较好（⭐⭐⭐⭐），算力和数据需求一般（8～16卡量级和M量级），后续优化难度一般，推理耗时一般，隐私安全高，风险一般。

在选择UI Agents技术路线时，需要综合考虑效果上限、训练资源需求和风险、服务部署风险等因素。例如，资源有限的情况下，Closed LLM 或 Closed VLM 可能是较合适的选择；而对于追求高性能且有足够资源的场景，新架构 VLM 或通用 VLM 微调可能更具潜力，但也要权衡其带来的风险。

六、UI Agents技术的未来展望

展望未来，UI Agents技术在两个核心能力上有望持续发展。

UI界面理解能力：进一步增强UI相关问答能力，使智能体能更深入理解UI界面的各种元素和功能。
UI任务规划和执行能力：优化规划和推理算法，更精准地规划下一步操作，提高任务执行的成功率和效率。

技术发展方向：

Memory/Knowledge Enhanced：不断改进记忆和知识增强技术，让智能体能够更好地利用历史经验和知识进行决策。
Better Base VLM：提升基础VLM的性能，包括元素定位、指称和细粒度OCR能力。例如，通过改进图像分区方法（sub - images / patches）、添加额外模块处理高分辨率图像或采用动态分辨率技术，适应不同UI场景的需求。
More and Better Data：探索更多数据获取和利用方式，如利用搜索技术（如MCTS）挖掘更多有效数据。
Better Training Methods：优化训练方法，确定更合适的训练任务和顺序，采用强化学习（如DPO）提升推理和规划能力。
Better Inferencing Methods：持续改进推理方法，如通过CoT、ReAct实现更好的推理和规划，利用多智能体协作（规划、决策、反思智能体）以及树搜索技术提升性能。

UI Agents 技术作为一项具有巨大潜力的技术，虽然目前仍面临诸多挑战，但随着技术的不断发展和优化，有望在未来为我们带来更加智能、高效的人机交互体验，广泛应用于智能客服、自动化测试、智能办公等多个领域，推动数字化进程不断向前发展。

分享视频

Youtube: https://youtu.be/YAhXGjV25zU
Bilibili: https://www.bilibili.com/video/BV1CtDWYzE9b

AI Agents 知识星球

UI Agents 技术发展迅猛，想紧跟 UI agents 技术前沿？我们的知识星球每周以视频方式解读最新论文，为你开启技术新视野，快来加入吧！本文完整 slides 也可在星球中下载查看。
https://t.zsxq.com/1uB5s
欢迎转载，转载请注明出处：UI Agents（智能体）技术综述 | Breezedeus.com。

发表于 2025-4-9 12:12:03

玩LLM和agent有一段时间了，目前觉得AI agent落地是一个很尴尬的阶段。学术上是一个富矿，有点当年专家系统火起来的感觉了。
agent work吗，他work，很多bert无法做好的任务，LLM能有不错的效果，在agent框架加持下，针对特定任务效果会好，不得不承认，不管是LLM还是agent在效果上都是实打实的进步。
那agent足够work吗，这个答案显然是否的。如果说以前深度学习大家是炼丹师，那现在做agent应用是真的木匠手艺人了。不同的记忆库，不同的prompt方法，用不同的LLM 拼起来效果差别都蛮大的。
那这些局限性是怎么产生的呢，有一个很核心的问题我称之为shallow reasoning，也即是说那怕是年初的GPT4，他的推理都是比较浅层的。GPT5可以解决吗，也许。但是这也有可能是decoder-only transformer架构的固有缺陷。所以目前看来agent的神经中枢还是很原始的阶段。
其实agent四大模块除了tool use都存在类似的问题。
记忆模块，目前的RAG也十分原始。仅仅通过文本相似性来搜索是不是也太简单粗暴了？比如说，我的目标是从A地到C地，但是我必须加油，中间只有B地有加油站，那么显然我需要完成A-B-C的路径。那如果我现在是A我想认识C，有中间人B。那我完全可以回想之前加油的例子，来完成我的目标。之前加油的例子虽然和当前任务是共通的，但是文本相似性很低。所以个人看法是我们需要更高级的记忆模块。
逻辑推理模块现在有很多比如，COT, TOT,GOT，类比相似的例子等等。这些模块一定程度上解决了浅层推理的问题，但是依然，目前agent的推理深度是不够。所以大部分论文还是在简单的数据集上测试（这里的简单数据集相对于之前的NLP方法也很难了）。那随之而来的问题是，对于不同的任务，我要选择哪种方法去推理呢，我需要花多少算力去推理是合适的呢？目前即使是最高级的prompt技巧，也需要很多手工调整。所以推理模块也依然是十分原始的。

如果不说那么远，如果基于目前agent已经有的能力去落地呢？依然还有很多问题。
从需求上，比方说现在agent可以帮你订个外卖，酒店，机票。问题是他真的比用APP顺手吗？我想我们不要小看了十多年来移动互联网发展中，对APP的优化程度。再比如说像characterAI这样，真的比刷抖音和看短剧有意思吗？
目前觉得几个比较好的应用方向是，医疗多模态大模型+agent，如果医疗影像可以对于新任务可以直接few-shot，而且效果能够商用，会是一个很好的突破。还有做游戏也是很好的方向，agent可以产生很多很有趣的游戏内容，我想这类游戏已经在路上了。还有社交领域，当然这里不是真人社交，是虚拟伴侣，虚拟偶像，这些需求肯定是存在的，但是产品开发也需要摸着石头过河。
至于软件开发，现在用GPT4的能力，完全是扯蛋的。
最后是算力的问题，serving cost真的太高了。现在能做agent的LLM，只有GPT4，3.5水平同样的模型做agent很勉强。一个用户单次交互，也许要花好几毛人民币。什么样的产品，满足什么样的需求才能卖得起这个价钱呢？
所以说目前落地是个尴尬的阶段，要么等算力，推理框架，蒸馏技术发展，让服务成本足够便宜。要么等agent这套框架发展处更好的记忆，和推理能力。

发表于 2025-4-9 12:24:13

无比赞同俞扬老师的看法，我认为真正的agent的决策能力应该是能做外推（extrapolation）的，也就是像alphago那样在人类历史棋谱上训练，却能找到比人类经验更好的策略。这才是一个真正能决策的agent，也同时是模仿和涌现（emergence）之间的区别。模仿者只会照猫画虎，而涌现出的决策能力才是真正的decision making的能力。
现在基于llm的agent是个啥水平呢？很多都是因为历史熟稔，所以能把历史经验复述给你听，但是碰到没见过的案例他是没着的，或者不能针对见过的案例给出比人类已知更好的解决方案。当然我认为llm会是agent的重要组成部分，因为经验在决策中的角色很重。只不过现在很多llm agent的paper就是prompting 套壳，光想靠更好的prompt已有的llm是根本没可能做成autonomous agent的。
就拿cvpr今年的best paper做例子。visual programming这篇文章其实就是拿gpt3做agent来解决vision问题。我对这篇文章没有意见，也觉得这个思路很新颖。但我个人很主观地反对接受这是vision未来正确的道路。我是认为这个work好是好，但是根本不值得follow。因为他所提出的逐步分解困难的视觉任务然后分而治之的思路只能够利用我们已知的解决方案和已经存在的模型，但我们都知道现在的视觉领域的根本问题根本就不是如何对已有模型进行排列组合。我们需要的是如何训练更好的模型或者更好的解决问题的思路，但gpt3、gpt4现在还都不能给出全新的方案或者idea。这也就意味着单纯prompting现有的llm只会将我们的知识局限在已经存在的人类知识之中。而我觉得AI Agent的未来应该是overman intelligence，超人智能，就像尼采的超人哲学一样，想人类想不到的，做人类所做不到的。

发表于 2025-4-9 12:38:09

首先，Agent 这个词在AI领域是一个很古老的词汇，任何能够感知环境、输入行动的实体都可以称为agent，发明agent这个词主要意图是将智能体与环境相区别：

An AI system is composed of an agent and its environment. The agents act in their environment. The environment may contain other agents.

在1995年第一次出版的著名教科书AIMA《Artificial Intelligent: A modern approach》中就用agent这个概念将全书的内容串联在一起，即各种搜索、知识表达、不确定性建模、学习技术都是在实现某种级别的agent。1997年专注智能体的国际会议International Conference on Autonomous Agents (AGENTS)开始举办，2002年与其他两个agent的会议合并为International Joint Conference on Autonomous Agents & Multiagent Systems (AAMAS)。
在这些学术研究中，修饰agent最多的词汇是“自主”，即autonomous agent，其次是intelligent agent。AIMA对AI的定义是

The study and design of rational agents

AIMA对“rational agent”理性智能体给出的定义是

An agent that acts so as to maximize the expected value of a performance measure based on past experience and knowledge

可见，对比AIMA给出的rational agent的定义，“Agent = LLM + planning + memory + tools” 并不科学，更多的是当下时髦词汇的拼接。
目前围绕LLM的工作，更适合叫做 language model-based agent 研究。
关于局限，从agent这个词的含义就能看到。wikipedia解释agent：

In artificial intelligence, an intelligent agent (IA) is an agent acting in an intelligent manner; It perceives its environment, takes actions autonomously in order to achieve goals, and may improve its performance with learning or acquiring knowledge.

其中能看到一个很关键描述是agent需要自主决策(take actions autonomously) 以达成目的(achieve goals)。目前围绕LLM的agents主要缺乏的就是

不能自主决策
不能达成目的

对比决策系统，例如AlphaGo，就能看到其自主决策能力的体现：找到超越人类历史数据的走法，达成目的能力的体现：取得超越人类顶尖选手的胜率。而目前围绕LLM的agents，其决策能力来源于对数据中相似决策文本的模仿，表现好坏取决于数据是否覆盖，尚难以针对给定目的形成自主决策。

AI Agent目前应用落地有哪些局限性？

本周热门