AI agent是什么意思？

什么时候有可能实现AI agent？

发表于 2025-3-31 08:08:42

可以将Agent视为人工智能大脑，它使用LLM进行推理、计划和采取行动。

智能体（AI Agent）的定义多种。一些人认为它是完全自主的系统，可独立完成复杂任务；另一些人则认为它是遵循预定义工作流的实现。目前，基于大语言模型（LLM）的AI Agent被广泛认可。其架构包括基础规划、工具使用等模块，通过感知、规划和行动（PPA）循环实现智能决策。
<hr/>
2025研报显示，AI Agent市场潜力巨大。AI Agent正迅速普及，改变企业运营模式和客户体验，尤其在金融、零售和医疗保健等领域的应用。

到2028年，15%的日常工作决策将由AI Agent自主完成，33%的企业软件将包含Agentic AI。
到2027年，50%使用生成式AI的企业将部署AI Agents。
82%的企业到2026年集成AI Agent，主要用于电子邮件生成、代码编程和数据分析等任务。
到2026年，50%的中国500强数据团队将使用AI Agent进行数据清洗和分析。

人能够在处理复杂的模式识别任务时表现出很强的自主性和思考力。不过在得出结论前，他们往往需要借助书籍、谷歌搜索或计算器等工具来补充已有知识。同样地，生成式AI模型也可以通过训练来使用工具，实现实时信息获取或现实世界的参考资料以及行动。例如，大模型可以通过数据库检索工具访问客户的购买历史等特定信息，从而生成个性化购物推荐。另外，大模型还可以根据用户命令发起API调用，完成发送邮件或执行金融交易等任务。
要实现这些功能，大模型不仅需要获得外部工具的使用权限，还要具备自主规划和执行任务的能力。这种集成了推理能力、逻辑判断和外部信息获取的生成式AI模型，可以理解成智能体（Agent）。
随着LLM在理解复杂输入、推理与规划、工具使用的可靠性以及错误恢复能力方面不断进步，智能体在实际应用中逐渐普及。
智能体是一种突破了传统生成式AI模型能力边界的程序，本文将深入探讨这些相关内容。本文将总结在过去一年里业界积累下来的Agent实战经验和技巧。

智能体（Agent）

什么是智能体

智能体（AI Agent）的定义多样。一些人认为它是完全自主的系统，可独立完成复杂任务；另一些人则认为它是遵循预定义工作流的实现。目前，基于大语言模型（LLM）的AI Agent被广泛认可。其架构包括基础规划、工具使用等模块，通过感知、规划和行动（PPA）循环实现智能决策。
可以将Agent视为人工智能大脑，它使用LLM进行推理、计划和采取行动。

一般将这些统称为智能体系统，但在架构上，他们在工作流和智能体之间划分了一个重要的区别：

工作流：是指通过预定义的代码路径对LLM和工具进行编排的系统，侧重于流程的设计和执行。
智能体：是指LLM动态指挥其自身的流程和工具使用的系统，并保持对任务完成方式的控制权，侧重于大模型的分析调度能力。

接下来，本文将详细探讨这两种类型的智能体系统。在原文附录1（“实践中的智能体”）中将描述客户发现这些系统特别有价值的两个领域。
智能体的工作通常从用户指令或交互式讨论开始。在任务明确后，智能体独立规划并执行任务，并可能在执行过程中再次向用户寻求信息或判断支持。在运行过程中，智能体需要在每一步从环境中获取“真实情况”（如工具调用或代码执行的结果）来评估进展。在某些节点或遇到阻碍时，智能体可以等待用户的反馈。任务的终止条件可以是完成任务目标，也可以通过设置最大迭代次数等机制来确保运行受控。

AI Agent的诞生就是为了处理各种复杂任务的，就复杂任务的处理流程而言AI Agent主要分为两大类：行动类、规划执行类。

-行动类

行动类Agent负责执行简单直接的任务，例如他们可以通过调用API来检索最新的天气信息。
-规划执行类

Agent首先会制定一个包含多个操作的计划任务，然后按照顺序去执行这些操作。
这种方案对于复杂任务的执行而言是非常有用的，AutoGPT、BabyAGI、GPTEngineer等都是这样的例子。
同时Agent在执行计划时会有以下特别重要的两点：
1）反思与完善：Agent中设置了一些反思完善的Agent机制，可以让其进行自我批评和反思，与其它一些信息源形成对比，从错误中不断地吸取教训，同时完善未来的步骤，提供最终的效果和质量！
2）长期记忆：常见的上下文学习的提升工程项目都是利用模型的短期记忆来学习的，但是AI Agent则提供了长期保留和调用无限信息的能力，通常是利用外部的向量储存和快速检索来实现！
尽管智能体能够处理复杂任务，但现在的实现方式通常较为简单，主要通过LLM基于环境反馈循环调用工具。因此，清晰设计并精心文档化的工具集对于智能体的成功运行至关重要。有关工具开发的详细建议，请参阅附录2（“工具的提示词工程”）。
适用场景：自主智能体适合处理开放式问题，尤其是那些难以预测所需步骤或无法通过硬编码预设路径的任务。在这些场景中，LLM可能需要经过多轮交互完成任务，因此需要对其决策能力有足够的信任。自主智能体非常适合在可信环境中扩展任务。
<a data-draft-node="block" data-draft-type="mcn-link-card" data-mcn-id="1874902405860175872">智能体的组成

AI Agent充当大语言模型的大脑，主要有以下几个关键组件进行补充：
规划组件（Planning）

子目标和分解：代理将大型任务分解为更小的、可管理的子目标，从而能够有效处理复杂的任务。
反思和完善：智能体可以对过去的行为进行自我批评和自我反思，从错误中吸取教训，并针对未来的步骤进行完善，从而提高最终结果的质量。

记忆组件（Memory）

短期记忆：我认为所有的上下文学习（参见提示工程）都是利用模型的短期记忆来学习。
长期记忆：这为代理提供了长时间保留和回忆（无限）信息的能力，通常是通过利用外部向量存储和快速检索。

工具组件（Tools）

代理学习调用外部 API 来获取模型权重中缺失的额外信息（通常在预训练后很难更改），包括当前信息、代码执行能力、对专有信息源的访问等。

在使用LLM构建应用程序时，建议尽可能选择简单的解决方案，只有在必要时才增加复杂性。因此，某些情况下可能完全不需要构建智能体系统。
智能体系统通常需要在延迟和成本上做出妥协，以换取更高的任务性能。在决定使用智能体之前，需要仔细评估这种权衡是否值得。
当任务复杂性较高时，工作流可以为明确的任务提供稳定性和一致性，而在需要灵活性以及大规模模型驱动决策的场景中，智能体则是更好的选择。
然而，对于多数应用场景，通过检索和上下文示例优化单次LLM调用通常已经足以满足需求。
智能体的框架

目前有多种框架可以简化智能体系统的实现，包括：

LangGraph（LangChain提供的工具），
亚马逊Bedrock的AI Agent框架，
Rivet，一个拖放式的GUI工具，用于构建LLM工作流，
Vellum，另一款支持构建和测试复杂工作流的GUI工具。

这些框架通过处理底层的常规任务（如调用LLM、定义和解析工具、链式调用等），大大降低了开发难度。然而，它们也会增加额外的抽象层，可能掩盖提示词和响应的实际逻辑，从而增加调试难度。此外，这些框架可能让开发者倾向于引入不必要的复杂性，而简单的实现方式可能已经足够。
建议开发者优先直接使用LLM的API，许多功能可以通过简单的几行代码实现。如果选择使用框架，务必确保理解底层的实现逻辑，因为对底层机制的错误假设往往是开发中的主要问题之一。
智能体的定义与特征

从最基本的角度来看，生成式AI智能体是一种应用程序，它通过观察周围环境并运用各种可用工具来实现既定目标。智能体具有自主性,尤其是在明确目标后,能够独立于人类干预开展行动。在目标实现过程中,智能体表现出主动性特征。它能够自主推理下一步行动方案，即使没有人类的具体指令。
虽然AI领域中智能体的概念已较为成熟且应用广泛，本白皮书将重点关注当前生成式AI模型能够构建的特定类型智能体。为了深入理解智能体的运作机制，首先需要了解驱动其行为、行动和决策的基础组件。这些组件共同构成了认知架构，通过不同组件的组合可以实现多样化的架构设计。
如图1所示，智能体的认知架构主要包含三个核心组件：Model（模型）、Tools（工具）、Orchestration（编排层）。

图1：通用智能体架构及其组件构成

模型、工具、编排层

在智能体框架中，大模型（LLM）是核心决策单元，可以是通用型、多模态型或特定微调的专用模型，规模和类型不一，支持如ReAct、CoT或ToT等推理和逻辑框架。
为达到最佳效果，应对比选择最适合目标应用场景且经过相关数据训练的模型。虽然模型通常未针对智能体的具体配置进行专门训练，但可通过示例优化其适应性。工具的引入使智能体能与外部数据和服务交互，执行如更新数据库或获取天气数据等操作，支持RAG等专业系统，扩展功能范围。编排层管理智能体的信息接收、推理和行动决策，其复杂性根据智能体类型和任务需求而变化，可能包括简单计算、链式逻辑或概率推理技术，将在认知架构部分详细讨论。总之，工具在连接智能体内部能力与外部世界方面发挥关键作用，为智能体开启更广阔的应用空间。
智能体对比模型

为了更清晰地理解智能体和模型的区别，我们可以从以下几个方面进行对比：

	模型	智能体
知识范围	仅限于训练数据中包含的内容	可通过工具接入外部系统获取扩展知识
推理能力	仅能进行单次查询响应，除非特别设计，否则无法维护会话历史和上下文连续性	能够维护完整会话历史，支持基于用户查询和编排层决策的多轮对话
工具使用	不具备内置工具调用能力	在架构层面直接支持工具集成
逻辑处理	无内置逻辑处理层，需要用户通过简单问询或利用CoT、ReAct等推理框架构建复杂提示来引导预测	具备完整的认知架构，能够集成CoT、ReAct或LangChain等预置智能体框架

*注：在智能体语境中，一轮对话指的是系统接收一个查询并生成一个响应的完整交互过程。
模型性能优化对正确选择工具至关重要，尤其是在大规模生产环境中。虽然通用训练有助于模型学习使用工具，但现实场景往往需要超出训练数据范围的知识。这就像基础烹饪技能与精通特定菜系的差异：后者需要针对性学习来掌握更精细技巧。
我们可以通过三种方法帮助模型获取专门知识：

上下文学习：在推理阶段提供提示词、工具和少样本示例，让模型实时学习工具使用。
基于检索的上下文学习：从外部存储检索相关信息和示例，动态构建模型提示词。
基于微调的学习：使用大规模特定示例数据集训练模型，使其在接收用户查询前理解工具使用。

通过烹饪类比理解这些方法：

上下文学习：厨师根据顾客提供的菜谱、食材和参考菜品，实时思考如何制作菜品。
基于检索的上下文学习：厨师在储藏室中选择合适的食材和参考资料，结合经验创造菜品。
基于微调的学习：厨师通过专门学习新菜系获得专业知识，更好地应对烹饪要求。

这些方法在速度、成本和延迟方面各有优劣，但综合运用可以构建更可靠和灵活的解决方案。
认知架构：智能体的运作机制

接下来用厨师在餐厅繁忙工作的场景来比喻、理解智能体的运作方式。厨师的目标是为顾客准备美味菜品，这个过程涉及持续的计划、执行和调整：

首先需要收集信息，包括顾客点单内容、储藏室和冰箱中的食材库存；
然后基于收集到的信息进行内部分析，思考可以制作的菜品类型和口味搭配；
最后付诸行动：切配食材、调配香料、煎炒烹饪。

在整个过程中，厨师会根据食材消耗情况和顾客反馈不断调整计划，并借鉴之前的经验来优化后续行动。这种信息获取、规划、执行和调整的循环过程，正是厨师为实现目标而采用的独特认知架构。
智能体与厨师类似，也通过认知架构来实现其目标。它通过迭代式的信息处理、决策制定和基于先前输出的行动优化来完成任务。智能体认知架构的核心是编排层，负责管理记忆（memory）、状态（state）、推理（reasoning）和规划（planning）等功能。它利用快速发展的提示词工程技术和相关框架来指导推理和规划，使智能体能够更有效地与环境交互并完成任务。
语言模型在提示词工程框架和任务规划领域的研究正在快速发展，已经产生了多种有前景的方法。虽然不是完整列表,以下是目前最受欢迎的几种框架和推理技术:

ReAct是一个提示词工程框架，为语言模型提供一种思维过程策略，可以对用户查询进行推理和采取行动，不论是否有上下文示例。实践证明，ReAct提示方式的性能超过了多个目前最优的基准，并提高了LLM的人机交互能力和可信度。
CoT是一个通过中间步骤实现推理能力的提示词工程框架。它包括多个子技术，如自我一致性（self-consistency）、主动提示（active-prompt）和多模态CoT，这些技术根据具体应用场景各有优势。
ToT是一个特别适合探索和战略前瞻任务的提示词工程框架。它在CoT提示的基础上进行了扩展，允许模型探索多条思维路径，作为语言模型解决通用问题的中间步骤。

智能体可以使用上述某一种推理技术或其他技术来为用户请求选择最佳的下一步行动。例如，对于一个使用ReAct框架来为用户查询选择正确行动和工具的智能体。其事件序列可能如下:

用户向智能体发出查询
智能体启动ReAct序列
智能体向模型提供提示词，要求生成下一个ReAct步骤及其对应输出: a. 问题：用户查询中的输入问题,与提示一起提供。 b. 思考：模型关于下一步行动的思考。 c. 行动：模型对下一步行动的决定 (i). 这里涉及工具选择 (ii). 例如，行动可以是[Flights, Search, Code, None]之一，前三个代表模型可选择的已知工具，最后一个表示“不使用工具”。 d. 行动输入：模型决定提供给工具的输入内容（如果需要）。 e. 观察：行动/行动输入序列的结果 (i). 这个思考/行动/行动输入/观察过程可能根据需要重复多次。 f. 最终答案：模型对原始用户查询的最终回答。
ReAct循环结束,将最终答案返回给用户

图2. 编排层中使用ReAct推理的示例智能体

如图2所示，模型、工具和智能体配置协同工作，基于用户的原始查询提供有依据的简明回答。虽然模型可以基于已有知识推测答案（产生非真实信息），但它选择使用工具（Flights）来获取实时外部信息。这些额外信息被提供给模型，使其能够基于真实数据做出更明智的决定，并将这些信息总结反馈给用户。
智能体响应的质量与模型的推理和行动能力直接相关，包括选择正确工具的能力，以及工具定义的完善程度。就像厨师使用新鲜食材制作菜品并重视顾客反馈一样，智能体依靠合理的推理和可靠的信息来提供最佳结果。
接下来，我们将深入探讨智能体连接新数据的各种方式。
智能体的构建模块、工作流与智能体

本节将介绍生产环境中智能体系统的常见设计模式。从基础构建模块——增强型LLM开始，逐步扩展至复杂度更高的组合工作流和完全自主的智能体。
构建模块：增强型LLM

智能体系统的核心构建模块是增强型LLM，它结合了检索（Retrieval）、工具使用(Tools)以及记忆（Memory）等功能。目前的模型能够主动利用这些能力，例如生成搜索查询、选择适合的工具以及确定需要保存的重要信息。

图1：增强型LLM

在实际应用中，应重点关注两个方面：一是根据具体的业务场景对这些功能进行定制化；二是确保为LLM提供一个简洁且文档完善的接口。
实现这些增强功能的方法有多种，其中之一是利用最新发布的模型上下文协议（Model Context Protocol），通过这一协议，开发者可以使用简单的客户端集成到不断扩展的第三方工具生态系统中。
在后续内容中，将默认每次LLM调用都可访问上述增强功能。
工作流：提示词链式调用

提示词链式调用是一种将任务分解为一系列步骤的流程，其中每次LLM调用都会基于上一步的输出进行处理。在流程的任意中间步骤，可以加入程序化检查（如图2中的“门控”所示），以确保流程按照预期顺利推进。

图2：提示词链式调用的工作流

适用场景：这种工作流适合那些可以被清晰分解为固定子任务的场景。其核心目标是在延迟与更高的准确性之间找到平衡，通过简化每次LLM调用的复杂度来提升整体效果。
提示词链式调用的典型应用示例：

生成营销文案并将其翻译为其他语言。
撰写文档的大纲，验证大纲是否符合特定标准，再基于大纲撰写完整文档。

工作流：路由

路由是一种将输入分类并引导到特定后续任务的工作流。这种方法能够有效地分离关注点，便于针对不同输入类型设计更专业的提示词。如果不使用路由，优化某一类型输入时可能会影响其他输入的性能。

图3：路由工作流

适用场景：路由适合处理复杂任务，尤其是当任务包含可分别处理的不同类别，并且可以通过LLM或传统分类模型/算法准确完成分类时。
路由的典型应用示例：

将不同类型的客户服务请求（如常规问题、退款申请、技术支持）分别引导至对应的下游流程、提示词或工具。
将简单或常见问题分配给较小的模型（如Claude 3.5 Haiku），将复杂或罕见问题分配给更强大的模型（如Claude 3.5 Sonnet），从而平衡成本与响应速度。

工作流：并行化

并行化是一种让LLM同时处理任务并通过程序汇总输出的工作流。这种方式通常有两种实现形式：

分块：将任务拆分为相互独立的子任务，并行执行。
投票：对同一任务运行多次，以获得多样化的视角或结果。

图4：并行化工作流

适用场景：当任务能够被分解成独立子任务以提升速度，或者需要通过多次尝试来增强结果置信度时，并行化是一种高效的工作流。对于涉及多个考量的复杂任务，让LLM分别处理每个考量，可以更专注地关注各自的具体内容，从而提升整体性能。
并行化的典型应用示例：

分块：
- 实现防护机制：一个模型实例负责回答用户查询，另一个实例同时筛查不适当内容或请求。将防护和核心任务分离处理的效果通常优于单一调用。
- 自动化性能评估：在评估LLM表现时，每次调用分别评估模型对特定提示词的不同性能维度。

投票：
- 代码漏洞审查：利用多个提示词从不同角度审查代码是否存在漏洞，并标记出潜在问题。
- 内容适当性评估：通过多个提示词从不同角度对内容进行评估，并设定投票机制，如不同的通过门槛，以平衡误报与漏报的风险。

工作流：协调器-工作者

协调器-工作者工作流由一个中心LLM负责，它根据任务动态分解子任务，分派给多个工作者LLM处理，并最终整合所有工作者的结果。

图5：协调器-工作者工作流

适用场景：这种工作流非常适合处理无法预先确定子任务的复杂场景。例如，在编程任务中，需修改的文件数量及其具体修改内容通常取决于任务的具体要求。与并行化工作流类似，协调器-工作者的区别在于灵活性：子任务不是事先规划好的，而是由协调器根据输入动态生成。
协调器-工作者的典型应用示例：

编程工具：支持对多个文件进行复杂修改的任务，动态调整每个文件的修改内容。
搜索任务：从多个信息来源中动态收集、分析数据，并提取最相关的信息。

工作流：评估器-优化器

评估器-优化器工作流通过一个LLM生成响应，另一个LLM对其进行评估并提供反馈，形成一个迭代循环。

图6：评估器-优化器工作流

适用场景：当任务有明确的评估标准且迭代优化能够显著提高质量时，这种工作流效果尤为突出。两个关键特征是：第一，LLM生成的响应在获得明确反馈后能够显著改进；第二，LLM可以自动生成这样的反馈。这种流程类似于人类作家通过多次修改完善文档的过程。
评估器-优化器的典型应用示例：

文学翻译：在翻译复杂文学作品时，翻译LLM可能无法初步捕捉其中的细微差别，而评估器LLM可以提供精准的修改建议。
复杂搜索任务：在需要多轮搜索和分析的场景下，评估器判断当前信息是否足够全面，并决定是否需要进一步搜索和优化。

智能体的应用：

语言模型 (LLM) 仅限于它们所训练的知识，并且这些知识很快就会过时。（每天用最新信息重新训练这么大的模型是不可行的。）
以下是LLM的一些缺点：
1）会产生幻觉。
2）结果并不总是真实的。
3）对时事的了解有限或一无所知。
4）很难应对复杂的计算。
这就是AI Agent的用武之地，它可以利用外部工具来克服这些限制。

编程智能体：处理SWE-bench任务，根据任务描述对多个文件进行复杂编辑。
“计算机使用”参考实现：智能体（如Claude）通过与计算机交互完成复杂任务，如数据处理或信息检索。

图8：编码智能体的High-Level工作流

智能体的工具就是代理用它来完成特定任务的一个插件、一个集成API、一个代码库等等，例如：
1）Google搜索：获取最新信息
2）Python REPL：执行代码
3）Wolfram：进行复杂的计算
4）外部API：获取特定信息
而LangChain则是提供一种通用的框架通过大语言模型的指令来轻松地实现这些工具的调用。
使用LangChain开发智能体

为了展示一个可实际运行的智能体示例，我们将使用LangChain和LangGraph库构建一个快速原型。
这两个广受欢迎的开源库允许用户通过串联逻辑序列、推理过程和工具调用来构建自定义智能体，以响应用户查询。我们将使用gemini-1.5-flash-001模型和一些基础工具来处理用户的多阶段查询，
如代码片段8所示，该示例中使用的工具包括SerpAPI（用于Google搜索）和Google Places API。

代码片段8：使用LangChain和LangGraph的智能体及其工具示例

from langgraph.prebuilt import create_react_agent
from langchain_core.tools import tool
from langchain_community.utilities import SerpAPIWrapper
from langchain_community.tools import GooglePlacesTool

os.environ[&#34;SERPAPI_API_KEY&#34;] = &#34;XXXXX&#34;
os.environ[&#34;GPLACES_API_KEY&#34;] = &#34;XXXXX&#34;

@tool
def search(query: str):
&#34;&#34;&#34;Use the SerpAPI to run a Google Search.&#34;&#34;&#34;
search = SerpAPIWrapper()
return search.run(query)

@tool
def places(query: str):
&#34;&#34;&#34;Use the Google Places API to run a Google Places Query.&#34;&#34;&#34;
places = GooglePlacesTool()
return places.run(query)
model = ChatVertexAI(model=&#34;gemini-1.5-flash-001&#34;)
tools = [search, places]

query = &#34;Who did the Texas Longhorns play in football last week? What is the address of the other team&#39;s stadium?&#34;

agent = create_react_agent(model, tools)
input = {&#34;messages&#34;: [(&#34;human&#34;, query)]}

for s in agent.stream(input, stream_mode=&#34;values&#34;):
message = s[&#34;messages&#34;][-1]
if isinstance(message, tuple):
print(message)
else:
message.pretty_print()代码片段9展示了代码片段8程序的运行结果。

代码片段9. 程序执行结果

=============================== Human Message ================================
Who did the Texas Longhorns play in football last week? What is the address of the other team&#39;s stadium?
================================= Ai Message =================================
Tool Calls:search
Args:
query: Texas Longhorns football schedule
================================ Tool Message ================================
Name:search
{...Results:&#34;NCAA Division I Football, Georgia, Date...&#34;}
================================= Ai Message =================================
The Texas Longhorns played the Georgia Bulldogs last week.
Tool Calls: places
Args:
query: Georgia Bulldogs stadium
================================ Tool Message ================================
Name:places

{...Sanford Stadium Address: 100 Sanford...}
================================= Ai Message =================================
The address of the Georgia Bulldogs stadium is 100 Sanford Dr, Athens, GA 30602, USA.尽管这是一个相对简单的智能体示例，但它展示了模型、编排层和工具这三个基础组件如何协同工作以实现特定目标。
在最后一节中，我们将探讨这些组件在Vertex AI智能体和生成式操作手册等Google规模托管产品中的应用方式。
使用Vertex AI构建智能体

虽然本白皮书讨论了智能体的核心组件，但构建企业级应用需要将它们与用户界面、评估框架和持续优化机制等额外工具整合。Google的Vertex AI平台通过提供包含前文介绍的所有基础要素的完整托管环境来简化这个过程。
通过自然语言界面，开发人员可以快速定义智能体的关键要素 - 目标、任务指令、工具、用于任务委派的子智能体和示例 - 以构建所需的系统行为。此外，该平台配备了完整的开发工具套件，支持测试、评估、性能度量、调试和质量提升。这使开发人员能够专注于智能体的构建和优化，而将基础设施、部署和维护等复杂工作交由平台处理。
图15展示了一个在Vertex AI平台上构建的智能体架构示例，其中使用了Vertex Agent Builder、Vertex Extensions、Vertex Function Calling和Vertex Example Store等多个平台功能。该架构包含了企业级应用所需的各项核心组件。

图15. Vertex AI平台上的端到端智能体架构示例

总结

要在大型语言模型（LLM）应用中取得成功，关键是找到最适合需求的方案，从简单提示词开始，仅在必要时引入复杂的多步骤智能体系统。构建智能体时，应遵循三个原则：保持设计简洁，提高透明度，优化接口设计。这有助于构建可靠、易维护的系统，赢得用户信任。
智能体通过使用工具扩展了语言模型的能力，可以访问实时信息、提出行动建议、规划和执行复杂任务。编排层是智能体运作的核心，负责构建推理过程、规划决策并指导行动。工具是智能体连接外部世界的关键，包括扩展、函数和数据存储，它们使智能体能与外部系统交互并获取额外知识。
智能体发展前景广阔，目前仅触及潜力表面。随着工具完善和推理能力提升，智能体将能应对更复杂挑战。通过组合专业智能体，我们可以创建智能体专家组合模式，在不同领域实现卓越成果。构建复杂智能体架构需要迭代方法，通过不断试验和优化找到适合特定业务场景的解决方案。
智能体构建平台，现在已经成为已经成为智能体应用构建与承载的中流砥柱。大家看到的或者体验的很多智能体基本都是通过一些智能体平台的构建的。目前智能体平台更多的还是面向开发者，普通用户想构建适合自身需求的智能体还有一定的门槛，当然直接使用开发者们构建的智能体是没有问题的。像coze、文心智能体、智谱清言等现在创建和使用已经很简单，能够实现一句话创建一个智能体，当然要实现多智能体、工作流等复杂的功能仍旧需要一些时间去学习、理解和应用。所以要想让更多人更简单的构建和使用智能体，还需要进一步降低这个门槛。在AI应用构建方面，智能体构建平台初步把智能体改造成了基于LLM的低\无代码平台，低\无代码平台也正在积极融合Agent技术升级为Agent构建平台。接下来这类平台都会先向LLM低\无代码平台过渡，再慢慢进化为具备更多功能能够构建复杂智能体的平台。
总体评估：仍处于AI Agent的初级阶段

当前仍处于AI Agent的初级阶段。更多智能体更像是对话机器人，能够执行相对复杂的任务，距离终极目标自主Agent还有很大一段距离。即便如此，它的应用趋势已经势不可挡。基础模型的生成特性使每个智能体独一无二，但通过发挥基础组件优势，我们可以开发出扩展语言模型能力并创造实际价值的应用。本文讨论了生成式AI智能体的基础构建模块及其实现方法。
AI Agent在多个行业如客服、编程、内容创作等领域广泛应用，尤其在中国电商、教育等行业落地显著。技术进步使AI Agent能自主工作，展现人类推理和创造性思维。安全性和伦理问题受到关注，多模态交互界面实现突破。AI Agent在科研等领域应用拓展，预计5-10年内将推动企业分层和应用聚焦，商业价值逐渐显现。
趋势预测

我们再来看AI Agent在2025年的一些发展趋势。这里，我列举了五个趋势，如下：

AI Agent采用率显著增加
多模态Agent增强用户体验
多Agent系统开始流行
AI Agent集群与AI Agent网络
垂直AI Agent蓄势待发

1、AI Agent采用率显著增加

AI Agent的采用率在未来一年将显著增加，各行各业的组织计划将其用于处理跨部门任务，如电子邮件生成、编码和数据分析等。据Capgemini报告，82%的组织计划到2026年集成AI Agent。德勤预测，到2025年，25%使用GenAI的企业将部署AI Agents，到2027年将增长到50%。Gartner预测，到2028年，至少15%的日常工作决策将通过Agent AI自主做出，且33%的企业软件应用程序将包含Agent AI。未来一年，还将出现专门从事金融、零售和医疗保健等领域的AI Agent。 2、多模态Agent增强用户体验

多模态AI Agent的兴起标志着AI能力的重大进步，它们能处理文本、图像、音频和视频等多种输入数据，为各行业带来广泛应用。比如在医疗保健领域，这些Agent通过分析医学成像、患者记录和症状，提供更全面准确的诊断建议。在零售业，它们结合视觉识别与自然语言处理，打造更直观交互的购物助手。在创意产业，如广告和设计，多模态AI Agent可生成融合文本与图像的内容，理解视觉与语言交流的细微差别，对创建针对性营销材料和个性化内容极具价值。随着AI Agent在特定行业影响的增长，多模态AI处于转型前沿，其处理和合成多类型信息的能力更贴近人类认知过程，成为复杂决策场景中的重要工具。 3、多Agent系统开始流行

多Agent系统因企业对复杂解决方案的需求而开始流行，成为开发的中心。AI Agent将协作解决问题，执行多层决策任务，共享信息、协调行动，处理跨部门复杂工作流程。例如在物流领域，可优化供应链、管理库存、预测需求波动。 2025年，更多组织将部署多Agent系统管理优化业务流程，OpenAI Swarm和Microsoft的Magentic AI等Agent编排平台将引领这一趋势，助力企业协作部署管理多个Agent。 4、AI Agent集群与AI Agent网络

2025年，AI Agent将迈向更高层次的协作与协同工作阶段。Salesforce AI研究负责人Silvio Savarese预测，未来一年AI Agent将像蚂蚁一样成群结队合作，解决日常任务和业务挑战，以空前规模重新定义生产力和问题解决能力。 AI Agent将无缝融入生活，个人拥有个人Agent，组织部署专业Agent，这些Agent可通过Agentforce等平台获取，针对特定任务定制并协同达成共同目标。未来，AI应用将聚焦于创建和定制协作执行战略任务与决策的Agent，无论在个人还是商业环境。 5、垂直AI Agent蓄势待发

垂直AI Agent专注于特定行业或领域，利用AI技术自动执行任务、提高效率并部分取代人工。业内人士预测，其未来市场规模可能是SaaS市场的10倍，并有望在多领域取代SaaS。从2025年起，凭借更成熟的技术和增长的用户需求，垂直Agent将迅速占领市场。它们的主要优势是高度专业化和定制化，在特定领域表现优于通用智能体，具有高效率、快速响应以及经大量训练优化后的高稳定性和可靠性。应用领域广泛，涵盖医疗、金融、客户支持、市场研究与分析等。
<hr/>附录1：智能体的实际应用

通过与客户合作，团队发现智能体在两个领域中展现出显著的应用潜力，这些领域也清晰地体现了智能体模式的实际价值。这些应用表明，智能体特别适用于以下场景：需要兼顾对话与操作，有明确的成功标准，支持反馈机制，并能有效结合人类监督。
A. 客户支持

客户支持结合了聊天机器人界面的直观性与工具集成后的增强能力，是开放式智能体的理想应用场景。原因包括：

客户支持交互既需要自然的对话流程，也需要访问外部信息和完成任务；
智能体可以集成工具，用于提取客户数据、查询订单记录、访问知识库内容；
操作（如退款处理或工单更新）可以通过自动化程序高效完成；
成功标准清晰，可通过客户问题的解决情况进行衡量。

一些公司已通过“基于成功解决的计费模式”验证了这一方法的可行性，这种模s式仅对成功完成问题的智能体任务收费，充分展现了对其可靠性的信心。
B. 编程智能体

在软件开发领域，LLM功能从代码补全演变为自主问题解决，为智能体提供了广阔的应用前景。智能体在此领域的优势包括：

代码解决方案可以通过自动化测试直接验证其正确性；
测试结果为智能体提供反馈，帮助其反复优化解决方案；
编程问题通常具有清晰的定义和结构化特征；
输出质量可以通过客观的标准（如测试通过率）进行评价。

在团队的实现中，智能体能够基于拉取请求描述，在SWE-bench Verified基准测试中解决实际的GitHub问题。然而，尽管自动化测试能够验证功能实现，确保解决方案与系统的整体需求一致仍需要人类审查的参与，以提升质量控制。
附录2：工具的提示词工程

在智能体系统的构建中，工具往往是关键组成部分之一。通过API定义的工具使Claude能够与外部服务交互。当Claude需要调用工具时，API响应中会包含一个特定的工具调用部分。因此，工具的定义与规范设计应像整体提示词工程一样受到重视。以下是提示词工程在工具设计中的一些要点。
通常，同一操作可以有多种定义方式。例如，文件编辑既可以通过编写差异来实现，也可以通过重写整个文件完成。而对于结构化输出，代码既可以嵌入markdown中，也可以用JSON格式返回。虽然这些在软件工程中属于可互相转换的格式，但对LLM而言，某些格式生成起来更加复杂。例如，编写差异需要在生成代码前准确计算变化的行数；而将代码嵌入JSON则需要对换行符和引号进行额外的转义。
以下是选择工具格式时的一些建议：

留有余地：为模型提供足够的tokens，让其有“思考空间”，避免写入死胡同。
贴近自然：选择与模型在互联网上常见的格式相似的形式。
简化负担：避免让模型处理额外的格式复杂度，例如大规模行计数或代码转义。

智能体与计算机接口（ACI）的优化建议

与设计人机交互（HCI）同样重要，ACI的设计也需要足够的投入。以下是具体优化方法：

站在模型的角度思考
确保工具描述和参数定义清晰易懂。一个优秀的工具定义应包括使用示例、特殊情况说明、输入格式要求，以及与其他工具的明确界限。
优化参数设计
参数名称和描述应清晰直观，便于理解。可以将其视为为团队中的新手开发者撰写注释文档，尤其是在多个类似工具共存时，这一点尤为重要。
测试并迭代
使用工作台运行大量示例输入，观察模型的错误表现，并逐步优化工具设计，确保可靠性。
防错设计（Poka-yoke）
通过调整参数或设计限制，降低模型犯错的可能性。例如，将工具参数限制为绝对路径而非相对路径，可有效避免路径错误。

在为SWE-bench构建智能体时，团队发现优化工具的重要性甚至超过了整体提示词。例如，他们发现模型在使用相对路径的工具时容易出错，特别是智能体从根目录切换到其他目录后。通过调整工具以要求使用绝对路径，模型显著提高了任务完成的准确性。
附录3：连接外部世界的工具

语言模型虽然在信息处理方面表现出色，但它们缺乏直接感知和影响现实世界的能力。这一限制降低了它们在需要与外部系统或数据交互场景下的实用性。这意味着从某种程度上说，语言模型的能力仅限于从其训练数据中获得的知识。无论输入多少训练数据，模型仍然缺乏与外部世界交互的基本能力。
那么，如何使模型能够与外部系统进行实时、具有上下文感知的交互呢？
函数、扩展、数据存储和插件都是为模型提供这种核心能力的方式。尽管这些工具有不同的名称，但它们都是连接基础模型与外部世界的桥梁。这种与外部系统和数据的连接使智能体能够执行更广泛的任务，并提供更高的准确性和可靠性。例如，通过工具，智能体可以调整智能家居设置、更新日历、从数据库获取用户信息或按照特定指令发送电子邮件。
目前，Google模型可以与三种主要工具类型交互：扩展（Extensions）、函数（Functions）和数据存储（Data Stores）。通过配备这些工具，智能体不仅能够理解世界，还能够对世界采取行动，从而开启了众多新的应用可能。
扩展（Extensions）

理解扩展最直观的方式是将其视为API和智能体之间的标准化桥梁，使智能体能够无缝调用API，而不受其具体实现方式的影响。假设您正在开发一个帮助用户订票的智能体。您计划使用Google Flights API获取航班信息，但需要确定如何让智能体调用这个API端点。

图3. 智能体与外部API的交互机制

一种实现方式是编写自定义代码，接收用户查询，解析相关信息，然后执行API调用。
例如，在航班预订场景中，用户可能会说“我想订从奥斯汀到苏黎世的机票。”此时，自定义代码需要先从用户查询中提取“奥斯汀”和“苏黎世”这两个关键信息，才能进行API调用。但如果用户只说“我想订去苏黎世的机票”而未提供出发城市，API调用就会因缺少必要数据而失败。为了处理这类边界情况，需要编写更多代码进行异常处理。这种方法缺乏可扩展性，在遇到预设场景之外的情况时容易失效。
相比之下，使用扩展是一种更具韧性的方法。扩展通过以下方式建立智能体和API之间的连接：

通过示例教导智能体如何使用API端点
指导智能体了解成功调用API所需的参数要求

图4. 扩展作为智能体和外部API的连接器

扩展可以独立于智能体开发，但需要作为智能体配置的组成部分。智能体在运行时基于模型和示例判断哪个扩展最适合处理用户查询。这体现了扩展的核心优势：其内置的示例类型使智能体能够动态选择最适合任务的工具。

图5. 智能体、扩展和API的一对多关系

这类似于软件开发者解决用户问题时选择API端点的过程。当用户需要订机票时，开发者会选用Google Flights API；当用户询问附近咖啡店位置时，则会使用Google Maps API。智能体/模型系统同样通过已知的扩展集合来选择最适合用户查询的工具。
如果您想体验扩展的实际应用，可以在Gemini应用中通过Settings > Extensions启用并测试这些功能。例如，启用Google Flights扩展后，您可以询问Gemini“显示下周五从奥斯汀到苏黎世的航班。”
扩展示例

为简化扩展的使用，Google提供了一系列预置扩展，这些扩展可以快速导入项目并通过最简配置即可使用。例如，代码片段1中展示的Code Interpreter扩展能够将自然语言描述转换为可执行的Python代码。

代码片段1. Code Interpreter扩展可生成并执行Python代码

import vertexai
import pprint

PROJECT_ID = &#34;YOUR_PROJECT_ID&#34;
REGION = &#34;us-central1&#34;

vertexai.init(project=PROJECT_ID, location=REGION)

from vertexai.preview.extensions import Extension

extension_code_interpreter = Extension.from_hub(&#34;code_interpreter&#34;)
CODE_QUERY = &#34;&#34;&#34;Write a python method to invert a binary tree in O(n) time.&#34;&#34;&#34;

response = extension_code_interpreter.execute(
  operation_id = &#34;generate_and_execute&#34;,
  operation_params = {&#34;query&#34;: CODE_QUERY}
)

print(&#34;Generated Code:&#34;)
pprint.pprint({response[&#39;generated_code&#39;]})
# The above snippet will generate the following code.
```
Generated Code:
class TreeNode:
  def __init__(self, val=0, left=None, right=None):
self.val = val
self.left = left
self.right = right

  def invert_binary_tree(root):
&#34;&#34;&#34;
Inverts a binary tree.
Args:
      root: The root of the binary tree.
Returns:
      The root of the inverted binary tree.
&#34;&#34;&#34;
if not root:
   return None
# Swap the left and right children recursively
root.left, root.right = invert_binary_tree(root.right), invert_binary_tree(root.left)

return root

# 例程:
# 构建一颗二叉树示例
root = TreeNode(4)
root.left = TreeNode(2)
root.right = TreeNode(7)
root.left.left = TreeNode(1)
root.left.right = TreeNode(3)
root.right.left = TreeNode(6)
root.right.right = TreeNode(9)

# 翻转二叉树
inverted_root = invert_binary_tree(root)
```总之，扩展为智能体提供了多种感知、交互和影响外部世界的方式。扩展的选择和调用过程由配置中定义的示例来引导。
函数（Functions）

在软件工程中，函数是指完成特定任务且可重复使用的独立代码模块。软件开发人员在编程时通常会创建多个函数来执行不同任务。他们会明确定义何时调用function_a或function_b的逻辑，以及相应的输入输出规范。
在智能体领域，函数的工作机制与此类似，但由模型代替了软件开发人员的角色。模型可以基于一组预定义函数，根据具体规范决定使用哪个函数以及需要哪些参数。
函数与扩展的主要区别在于：

模型输出函数及其参数，但不直接执行API调用
函数在客户端执行，而扩展在智能体端执行

以Google Flights为例，函数的基本设置如图7所示。

图7. 函数与外部API的交互机制

需要注意的是，此处的关键区别在于函数和智能体都不直接与Google Flights API交互。
那么API调用是如何实现的呢？
在函数调用模式下，实际API端点的调用逻辑和执行过程从智能体转移到了客户端应用程序，如图8和图9所示。这使开发人员能够更精细地控制应用程序中的数据流。
开发人员选择使用函数而非扩展的常见原因包括：

API调用需要在应用程序其他层级执行，如中间件系统或前端框架等
由于安全或认证限制，智能体无法直接调用API
时序或操作顺序限制导致智能体无法实时调用API
API响应需要额外的数据转换处理，而智能体无法完成
开发人员希望在不部署额外基础设施的情况下进行智能体开发迭代

如图8所示，虽然两种方法在内部架构上的差异较小，但函数调用为开发人员提供了更多的控制权限，并降低了对外部基础设施的依赖。

图8. 扩展（A）和函数（B）调用在客户端与智能体端的控制边界

应用场景

模型可以用于调用函数，处理最终用户的复杂客户端执行流程。在这种情况下，智能体开发人员可能不希望由语言模型来管理API执行（这与扩展机制不同）。
让我们看一个示例：某智能体被训练成旅游顾问，负责与想要预订度假行程的用户互动。目标是让智能体生成城市列表，中间件应用程序可以使用这些信息为用户的旅行计划下载图片和相关数据。用户可能会这样询问：&#34;我想带家人去滑雪，但不知道该去哪里。&#34;在传统的模型提示词下，输出可能是这样的：
以下是适合家庭滑雪旅行的城市推荐：

美国科罗拉多州克雷斯特德比特
加拿大不列颠哥伦比亚省惠斯勒
瑞士采尔马特

虽然上述输出包含了所需的城市名称信息，但这种格式不便于系统解析。通过函数调用，我们可以训练模型生成结构化输出（如JSON格式），使其更易被其他系统处理。对于相同的用户输入，函数可能会输出如代码片段5所示的JSON数据。

代码片段5. 展示城市列表和用户偏好的函数调用数据示例

function_call {
name: &#34;display_cities&#34;
args: {
&#34;cities&#34;: [&#34;Crested Butte&#34;, &#34;Whistler&#34;, &#34;Zermatt&#34;],
&#34;preferences&#34;: &#34;skiing&#34;
}
}模型生成的JSON数据会被发送到客户端服务器进行后续处理。在这个例子中，我们会调用Google Places API获取这些城市的图片，然后将格式化后的富媒体内容返回给用户。图9的序列图详细展示了这个交互过程。

图9. 函数调用的生命周期序列图

图9示例展示了模型如何为客户端UI提供调用Google Places API所需的参数。客户端UI使用模型在返回函数中提供的参数来执行实际的API调用。这只是函数调用的其中一个应用场景，还有其他值得考虑的场景：

当需要语言模型推荐代码中可用的函数，但不希望在代码中包含访问凭据时。由于函数调用不直接执行函数，因此无需在函数信息中包含凭据。
处理需要较长执行时间的异步操作时。函数调用的异步特性使其特别适合这类场景。
需要在不同于函数调用生成系统的设备上执行函数时。

关于函数机制，最重要的是要理解它们的设计目的是为开发人员提供更大的控制权限，不仅包括API调用的执行，还包括应用程序整体的数据流向。
在图9的示例中，开发人员选择不将API信息返回给智能体，因为这对智能体的后续行为并无影响。但根据具体的应用架构，有时将外部API调用的数据返回给智能体可能更有价值，因为这些数据可能会影响后续的推理、逻辑判断和行动选择。最终，应该由应用程序开发人员根据具体需求做出选择。
函数代码示例

为了在滑雪度假场景中实现上述输出，需要构建相关组件以配合gemini-1.5-flash-001模型工作。
首先，将display_cities函数实现为一个基本的Python方法。

代码片段6. 实现城市列表显示功能的Python方法示例

def display_cities(cities: list[str], preferences: Optional[str] = None):
&#34;&#34;&#34;Provides a list of cities based on the user&#39;s search query and preferences.

Args:
      preferences (str): The user&#39;s preferences for the search, like skiing,
      beach, restaurants, bbq, etc.
      cities (list[str]): The list of cities being recommended to the user.
Returns:
      list[str]: The list of cities being recommended to the user.
&#34;&#34;&#34;

return cities然后我们需要初始化模型，构建工具，并将用户查询和工具传递给模型。执行下面的代码将生成如代码片段末尾所示的输出结果。

代码片段7. 构建工具，将用户查询发送至模型并执行函数调用

from vertexai.generative_models import GenerativeModel, Tool, FunctionDeclaration

model = GenerativeModel(&#34;gemini-1.5-flash-001&#34;)
display_cities_function = FunctionDeclaration.from_func(display_cities)
tool = Tool(function_declarations=[display_cities_function])

message = &#34;I’d like to take a ski trip with my family but I’m not sure where to go.&#34;

res = model.generate_content(message, tools=[tool])

print(f&#34;Function Name: {res.candidates[0].content.parts[0].function_call.name}&#34;)
print(f&#34;Function Args: {res.candidates[0].content.parts[0].function_call.args}&#34;)

> Function Name: display_cities
> Function Args: {&#39;preferences&#39;: &#39;skiing&#39;, &#39;cities&#39;: [&#39;Aspen&#39;, &#39;Vail&#39;, &#39;Park City&#39;]}总而言之，函数为应用程序开发人员提供了一个清晰的框架，既能精确控制数据流和系统执行，又能有效利用智能体/模型生成关键输入。开发人员可以根据应用程序架构的具体需求，灵活选择是否通过返回外部数据来维持智能体参与处理流程，或是将其排除在外。
数据存储（Data Stores）

语言模型可以类比为一个巨大的知识库，其中包含了训练数据积累的信息。但与持续更新的实体知识库不同，这个知识库是静态的，仅包含初始训练时获得的知识。这种局限性带来了挑战，因为现实世界的知识在不断演进。
数据存储通过提供对动态和最新信息的访问来克服这一限制，确保模型的响应始终建立在准确和相关的事实基础之上。例如，开发人员经常需要通过电子表格或PDF等形式向模型提供补充数据。

图10. 智能体与结构化和非结构化数据的交互机制

数据存储允许开发人员以原始格式向智能体提供额外数据，避免了繁琐的数据转换、模型重训练或微调过程。数据存储将输入文档转换为向量数据库中的向量集合，智能体可以利用这些向量提取所需信息，用于补充下一步行动或用户响应。

图11. 数据存储连接智能体与多种类型的实时数据源

实现与应用

在生成式AI智能体框架中，数据存储通常以向量数据库的形式实现，智能体在运行时访问这些数据库。虽然本文不会深入讨论向量数据库的技术细节，但关键是要理解它们将数据以向量形式存储，这是对原始数据的高维数学表示。

过于向量数据库可以参考文章：https://zhuanlan.zhihu.com/p/18822987637?utm_psn=1867129908569968641

近期，检索增强生成(RAG)应用是语言模型使用数据存储最典型的例子之一。这类应用通过使模型能够访问多种格式的数据来扩展其知识范围：

网站内容
PDF、Word文档、CSV、电子表格等结构化数据
HTML、PDF、TXT等非结构化数据

图12. 智能体与数据存储的一对多关系，展示各类预索引数据类型

用户请求和智能体响应的基本循环过程如图13所示：

将用户查询发送至向量模型生成查询向量
使用SCaNN等算法将查询向量与数据库内容匹配
以文本格式检索匹配内容并返回给智能体
智能体处理用户查询和检索内容，制定响应策略
向用户发送最终响应

图13. RAG应用中用户请求和智能体响应的完整流程

这种方式使智能体能够通过向量搜索将用户查询与数据存储中的信息匹配，获取原始内容，并将其提供给编排层和模型进行处理。后续步骤可能是直接向用户提供答案，或进行额外的向量搜索以优化结果。
图14展示了一个集成ReAct推理/规划的RAG应用示例交互过程。

图14. 结合ReAct推理/规划的RAG应用示例

工具总结

扩展、函数和数据存储是智能体在运行时可以使用的三种主要工具类型。每种工具都有其特定用途，开发人员可以根据具体需求选择组合使用或独立使用。

	扩展	函数	数据存储
执行位置	智能体端	客户端	智能体端
适用场景	1.开发人员需要智能体控制API端点交互； 2.使用原生预构建扩展（如Vertex Search、Code Interpreter）； 3.需要连续API调用和规划（后续动作依赖前序API调用结果）； 4.存在安全或认证限制的API调用。	1.存在时序或操作顺序限制，无法实时调用API（如批处理、人工审核流程）； 2.API不对外开放或系统无法直接访问。	开发人员需要实现RAG，处理以下数据类型： 1.预索引域名和URL的网站内容； 2.结构化数据（PDF、Word、CSV、电子表格等）； 3.关系型/非关系型数据库内容； 4.非结构化数据（HTML、PDF、TXT等）。

附录4：业界AI Agent全景图框架

国外全景图

大家看一下这两张图，左边这张是New Economies在6月份绘制的市场地图，右边这张是投资机构Insight Partners给出的12月市场全景图。可以看到从6月到12月，AI Agent项目增加了这么多，变化还是蛮大的。半年时间便有大量的AI Agent项目出现，并且实现了产品化，可以用于企业与个人的工作与生产。这张图中间主体是Agents部分，这些公司已经推出了AI Agent产品、解决方案或者服务，或者是在原有AI产品基础上推出的AI Agent。其他部分厂商，他们也正在向AI Agent过渡，或者已经推出了相关产品或服务，还有一些是从自动化角度切入到Agent赛道。但不管过去的产品形态怎样，现在他们都在向Agent过渡或转型。这些企业既有科技巨头，也有企业服务及自动化领域的名宿，更有大量初创企业。所以，这张图名为AI Automation & Agents Market Map。这里多说一句，其实从自动化角度看，包括LLM及AI Agent等在内的任何类型的AI技术带来的都是业务流程的自动化，区别只是自动化程度的高低。所以王吉伟频道才在《一本书读懂AI Agent：技术、应用与商业》中感慨，近几年生成式AI和AI Agent带来的企业经营管理与范式的颠覆性变革，但无论技术、架构和方案怎么变化，只要抓住业务流程再造与自动化需求这两个点，产业链上所有参与者都能因创造商业价值而获得成功。我们不用过多关注技术的变革与颠覆，重要的是在每个技术变革时代善用这些技术去解决问题，那么你就能成为每个时代的弄潮儿。
国内全景图

国内的市场情况，王吉伟频道查阅了两份行业报告。左边这张图是甲子光年在4月份发布的《中国AI Agent行业研究报告》，他们根据当时的市场情况绘制了中国AI Agent生态图谱1.0版本。当然，这张图也体现了去年国内智能体行业的生态结构。右边这张图是InfoQ发布的第二季度报告。可以看到智能体产品明显多了。从4月到6月，一些创业型产品出来了，还有一些大公司也推出了相关产品。当然这是半年前的市场情况，现在的产品要更多。
产品现状

当前的AI Agent产品及服务形态，大概有以下几种。其中常见AI Agent产品包括聊天助手、编码助手、AI搜索等。

当前的AI Agent产品，具备以下几个产品通性：

聊天机器人如ChatGPT、Kimi、通义千问等已发展为综合应用类AI Agent，具备工具使用和推理功能。AI搜索和编码助手是较成功的AI Agent产品，传统搜索引擎和创业项目均有相关产品推出。 C端产品主要集中在AI Agent构建平台上的用户自建产品，尚未出现大量爆款应用。众多厂商将AI Agent开发应用于B端，提供企业级解决方案，企业软件厂商也纷纷推出相关产品。目前，B端是AI Agent红利的主要领域，因企业对安全、可信、可控智能体的需求，以及大语言模型存在的问题，使得基于软件架构集成Agent的企业级产品更受青睐。市面上的AI Agent多基于特定知识库或数据构建，在问答交互方面表现出色，但在程序联动和操作，如直接操作ERP系统等方面存在局限。
Ageng框架

AI Agent技术框架不断推陈出新。这里列举了代表性科技企业微软和谷歌推出的部分AI Agent技术框架。这个图表中列举了微软的8种技术架构和解决方案，这只是其中一部分，实际上他们推出的相关技术还有很多。包括谷歌也是一样，现在开始重点发力AI Agent。在技术社区，AI Agent技术框架更是百花齐放，预计2025年就开始卷多智能体、GUI（UI）智能体和端侧智能体了。

这里，也列举一些AI Agent的开源项目与闭源项目。下面的两个表格中列出的是已经推出AI Agent技术框架、产品及解决方案的开源与闭源项目。左边是开源项目，右边是闭源项目。这些项目来自智能体沙盒技术供应商e2b的Github仓库awesome-ai-agents，它通过搜集和提交的方式来累积智能体项目。这里只对这些项目做了简单介绍，关于每个项目的具体介绍大家可以到Github去查阅。
开源AI Agent框架：

1.AgentGPT
基于浏览器的 AutoGPT 实现，可通过无代码平台访问。
https://agentgpt.reworkd.ai/zh
2.AI Legion
一个让智能体协同工作的平台，其类似于 AutoGPT 和 Baby AGI，但用 TypeScript 编写。https://github.com/eumemic/ai-legion
3.AutoGPT
一项旨在使 GPT-4 完全自动化的实验性开源尝试，在 GitHub 上拥有超过 14k星标。
https://agpt.co/?utm_source=awesome-ai-agents
4.Automata
一个复杂的系统，根据项目的上下文自动生成自己的代码。
https://github.com/emrgnt-cmplxty/automata
5.AutoPR
AI 生成的拉取请求来解决问题，由 ChatGPT 提供支持。
https://github.com/irgolic/AutoPR
6.Autonomous HR Chatbot
企业应用程序 - 由 GPT-3.5 提供支持的自主 HR 助理。
https://github.com/stepanogil/autonomous-hr-chatbot
7.BabyAGI
使用人工智能管理任务的简单框架。
https://github.com/yoheinakajima/babyagi
8.BabyBeeAGI
BabyAGI 之上的任务管理和功能扩展。
https://yoheinakajima.com/babybeeagi-task-management-and-functionality-expansion-on-top-of-babyagi/
9.BabyCatAGI
BabyCatAGI 是 BabyBeeAGI 的 mod，BabyBeeAGI 是 OG BabyAGI 的 mod。
https://replit.com/@YoheiNakajima/BabyCatAGI
10.BabyDeerAGI
BabyDeerAGI 是 BabyAGI 的 mod，大约 350 行代码
https://twitter.com/yoheinakajima/status/1678443482866933760
11.BabyElfAGI
BabyDeerAGI 和 OG BabyAGI 的最新 mod，大约 895 行代码
https://twitter.com/yoheinakajima/status/1678443482866933760
12.BabyCommandAGI
一个 AI 代理，旨在测试结合 CLI 和 LLM 时会发生什么，它们是比 GUI 更传统的界面
https://github.com/saten-private/BabyCommandAGI
13.BabyFoxAGI
BabyAGI 的最新版本带有新的并行 UI 面板
https://github.com/yoheinakajima/babyagi/tree/main/classic/babyfoxagi
14.BambooAI
BambooAI 库是一个用户友好的半自主人工智能代理，旨在使非程序员更容易进行数据探索和分析。
https://github.com/pgalko/BambooAI
15.BeeBot
自主人工智能助手，旨在自主执行各种实际任务。
https://github.com/AutoPackAI/beebot
16.Bloop
使用 AI 代理的 GPT-4 支持的语义代码搜索引擎
https://bloop.ai/
17.Cal.ai
基于 http://Cal.com 构建的开源日程安排助手。
https://cal.ai/
18.Camel
大规模语言模型社会“心灵”探索的代理架构。
https://github.com/camel-ai/camel
19.ChemCrow
一种执行合成、药物发现和材料设计任务的化学试剂。
https://github.com/ur-whitelab/chemcrow-public
20.Clippy
Clippy 的目的是为用户或与用户一起编写代码。它可以自主规划、编写、调试和测试一些项目。对于较困难的任务，使用它的最佳方法是查看其工作并向其提供反馈。
https://github.com/ennucore/clippy/
21.Cody by ajhous44
人工智能助手，旨在让您使用自然语言交互式查询代码库。通过利用向量嵌入、分块和 OpenAI 的语言模型，Cody 可以帮助您以高效、直观的方式浏览代码。
https://github.com/ajhous44/cody
22.Cody by Sourcegraph
Sourcegraph 的人工智能代码助手，可以通过阅读您的整个代码库和代码图来编写代码并回答您的问题。
https://docs.sourcegraph.com/cody
23.Continue
用于软件开发的开源自动驾驶仪。
https://continue.dev/
24.Cursor
人工智能优先的代码编辑器。在专为与人工智能进行结对编程而设计的编辑器中更快地构建软件。
https://www.cursor.so/
25.Databerry
一个超级简单的无代码平台，用于创建根据您自己的数据进行训练的人工智能聊天机器人。
https://www.databerry.ai/
26.Deepnote AI Copilot
人工智能代码副驾驶可以立即建立代码并与整个笔记本环境配合使用。
https://deepnote.com/blog/introducing-deepnote-ai
27.DemoGPT
一种人工智能，只需使用提示即可快速生成基于 LLM 的应用程序的演示。
https://github.com/melih-unsal/DemoGPT
28.DevGPT
虚拟软件开发团队。
https://github.com/jina-ai/dev-gpt
29.DevOpsGPT
DevOpsGPT：人工智能驱动的软件开发自动化解决方案。
https://github.com/kuafuai/DevOpsGPT
30.English Compiler
基于 POC AI 的编译器，用于将基于英语的 Markdown 规范转换为功能代码。
https://github.com/uilicious/english-compiler
31.Friday
一个开发助手，能够以无限的提示创建整个nodejs项目。
https://github.com/amirrezasalimi/friday/
32.GeniA
Engineering Gen AI平台工程团队成员。
https://github.com/genia-dev/GeniA
33.Godmode
受Auto-GPT 和 BabyAGI 启发的项目，通过漂亮的 UI 执行各种任务。
https://godmode.space/
34.GPT Engineer
一个人工智能代理，根据提示生成整个代码库。
https://github.com/AntonOsika/gpt-engineer
35.GPT Migrate
轻松地将代码库从一种框架或语言迁移到另一种框架或语言。
https://github.com/0xpayne/gpt-migrate
36.GPT Researcher
基于 GPT 的自主代理，可对任何给定主题进行在线综合研究。
https://github.com/assafelovic/gpt-researcher
37.GPT Runner
与您选择的文件对话！管理并运行您的 AI 预设。
https://github.com/nicepkg/gpt-runner
38.Lemon Agent
计划-验证-解决 (PVS) 代理，实现准确、可靠和可重复的工作流程自动化。
https://github.com/felixbrock/lemon-agent
39.Loop GPT
将流行的 Auto-GPT 项目重新实现为适当的 python 包，编写时考虑了模块化和可扩展性。
https://github.com/farizrahman4u/loopgpt/tree/main
40.LocalGPT
受 privateGPT 启发，允许使用您自己的文档作为信息源。
https://github.com/PromtEngineer/localGPT
41.Mentat
Mentat 是一款人工智能工具，可以直接从命令行帮助您完成任何编码任务。
与 Copilot 不同，Mentat 协调多个位置和文件的编辑。与 ChatGPT 不同的是，Mentat 已经拥有您项目的上下文 - 无需复制和粘贴！
https://github.com/biobootloader/mentat
42.MetaGPT
一种多代理框架，根据一条线的要求，返回 PRD、设计、任务或存储库。
https://github.com/geekan/MetaGPT
43.Mini AGI
基于 GPT-3.5 / GPT-4 的最小通用自治代理。
https://github.com/muellerberndt/mini-agi
44.Multi GPT
使 GPT-4 完全自治的实验性开源尝试。
https://github.com/rumpfmax/Multi-GPT
45.OpenAGI
开源 AGI 研发平台，支持代理执行基准任务和开放式任务。
https://github.com/agiresearch/OpenAGI
46.Open Interpreter
一个开源解释器，让大语言模型在您的计算机上运行代码来完成任务
https://openinterpreter.com/
47.Pezzo
旨在简化提示设计、版本管理、发布、协作、故障排除、可观察性等的开发工具包。
https://www.pezzo.ai/
48.Private GPT
无需互联网连接即可与文档进行私人交互的工具。
https://www.privategpt.io/
49.PromethAI
个性化人工智能助手，帮助实现营养和其他目标。
https://github.com/topoteretes/PromethAI-Backend
50.React Agent
开源 React.js 自治 LLM 代理。
https://reactagent.io/
51.Smol developer
您自己的初级开发人员，通过 e2b 在几秒钟内完成部署。
52.Superagent
不是单个代理，而是一个无需编码即可创建代理的工具。
https://www.superagent.sh/
53.SuperAGI
一个开源自主人工智能框架，支持开发和部署自主代理。
https://superagi.com/
54.Sweep
Github 助手可帮助修复小错误并实现小功能。
https://sweep.dev/
55.Teenage AGI
一款受BabyAGI启发的智能体，可以回忆无限的记忆，在采取行动之前“思考”，并且在关闭后不会丢失记忆。
https://github.com/seanpixel/Teenage-AGI/blob/main/README.md#experiments
56.“Westworld” simulation
《西部世界》的多智能体模拟库，旨在模拟和优化多个智能体交互的系统和环境。
https://theolvs.github.io/westworld/
57.Voyager
Minecraft 中由大语言模型驱动的终身学习代理。
https://voyager.minedojo.org/
58.WorkGPT
用于调用 API 的 GPT 代理框架。
https://github.com/team-openpm/workgpt
59.yAgents
yAgents 是 Yeager.ai 制作的 Agent-Builder Agent，能够设计、编码和调试自己的工具。
https://github.com/yeagerai/yeagerai-agent
60.Yourgoal
BabyAGI 的快速实现。
https://github.com/pj4533/yourgoal/?utm_source=awesome-ai-agents

闭源AI Agent

1.Ability AI
为企业提供安全、以人为本的自主人工智能代理。
https://ability.ai/2.Adept AI
机器学习研究和产品实验室通过使人类和计算机创造性地协作来构建通用智能。
https://www.adept.ai/?utm_source=awesome-ai-agents
3.Airkit.ai
Airkit 是一个开发人员优先的平台，用于构建、测试和部署 AI 代理。
https://www.airkit.ai/
4.Airplane Autopilot
Airplane 是一家构建内部工具的公司，他们正在构建自动驾驶仪人工智能助手。
https://www.airplane.dev/autopilot/?utm_source=awesome-ai-agents/
5.Aomni
专为商业智能设计的AI代理。
https://www.aomni.com/?utm_source=awesome-ai-agents
6.BitBuilder
“开发人员虚拟实习生”，通过针对您的存储库提出的 PR 生成代码。
https://www.bitbuilder.ai/?utm_source=awesome-ai-agents
7.broadn
AI 无代码副驾驶，允许用户构建AI应用程序。
https://www.broadn.io/?utm_source=awesome-ai-agents
8.Butternut AI
一款可在 20 秒内创建功能齐全、可随时启动的网站的工具。
https://butternut.ai/
9.Codium AI
由人工智能驱动的交互式代码完整性开发工具使开发人员能够更快地交付软件并减少错误。
https://www.codium.ai/
10.Commit
软件开发人员的职业副驾驶和人工智能代理。
https://commit.dev/
11.Cognosys
基于网络的 AutoGPT/babyAGI 版本。
https://cognosys.ai/
12.Diagram
人工智能驱动的设计工具适用于从文案写作到从文本生成独特图标的所有内容，最近被 Figma 收购。
https://diagram.com/
13.encode
完全自主的软件工程师。
https://encode.software/
14.Factory
致力于开发用于端到端构建软件的自主编码机器人。
https://www.factory.ai/
15.Fine
使用 AI 代理构建软件。最大限度地利用 AI 并将您的开发速度提高 10 倍。
https://www.fine.dev/
16.Fine Tuner
用于无代码构建 AI 代理的平台。
https://fine-tuner.ai/
17.Fixie
用于创建由大语言模型支持的应用程序（例如人工智能代理）的平台
https://www.fixie.ai/
18.Floode
人工智能行政助理，可自动处理通信事务。
https://floodehq.com/
19.GitHub Copilot X
人工智能驱动的软件开发商。
https://github.com/features/preview/copilot-x
20.GitLab Duo
适用于软件开发生命周期每个步骤的一套人工智能功能。
https://about.gitlab.com/gitlab-duo/
21.GitWit
为全栈开发人员创建的自动化代码生成工具（测试版）。
https://www.gitwit.dev/
22.Grit
自动修复技术差距、将代码迁移和依赖项升级置于自动驾驶仪的工具的测试版。
https://www.grit.io/
23.Heights Platform
您的AI教练和AI副驾驶，适合课程创建者、社区建设者和教练。内置于一体化课程创建和社区软件中。
https://www.heightsplatform.com/
24.Hex Magic
Hex 人工智能驱动的工具帮助人类利用数据做出惊人的事情。
https://hex.tech/product/magic-ai/
27.Heymoon.ai
终身私人助理：让您随时掌握日历、任务和信息。
https://heymoon.ai/
28.Julius
Julius AI允许数据处理、分析和可视化。
https://julius.ai/
29.Kadoa
使用 AI 自动驾驶仪进行网页抓取
https://www.kadoa.com/
30.Lindy
人工智能助手，可以帮助完成日常任务，例如日历管理、电子邮件起草和合同发送。
https://www.lindy.ai/
31.Minion AI
由 GitHub Copilot 的创建者制作，目前处于候补阶段。
https://minion.ai/
32.MultiOn
AI私人助理，保持首个AI机票预订、点餐（一个汉堡）和职场证明记录。
https://multion.ai/
33.Mutable AI
人工智能加速软件开发。
https://mutable.ai/
34.Naut
仍处于早期阶段，有抢先体验的等候名单。
https://www.naut.ai/
35.Otherside&#39;s AI Assistant
用于日常任务的人工智能浏览助手，可以操作网络浏览器来完成几乎任何任务。
https://www.hyperwriteai.com/personal-assistant
36.Phind
个人编程和研究助理。
https://www.phind.com/
37.Proficient AI
交互 API 和 SDK 允许开发人员在其应用程序中构建、部署和操作对话式 AI 代理。
https://proficientai.com/
38.Questflow
Questflow 是一个面向无代码自主人工智能工作者的市场。
https://questflow.ai/
39.Saga
数字AI助手，集成笔记、任务和工具的AI驱动的工作空间。
https://saga.so/ai
40.Second
每个代码库的自动迁移和升级。
https://www.second.dev/
41.Spell
带有插件的AutoGPT代理
https://spell.so/
42.Superluminal
只需几行代码即可将人工智能副驾驶添加到产品的数据仪表板中。
https://superluminal.dev/
43.TalktoData
TalktoData AI允许高级数据发现、清理、分析和可视化。
https://talktodata.ai/
44.ThinkChain AI
使用您自己的知识库的金融人工智能代理平台。
https://www.thinkchain.ai/

AI Agent的爆发现状

我们已经熟悉了AI Agent，再来看看行业的情况。接下来有一个问题需要大家思考：为什么这个时间节点智能体爆发了？开头也说过，AutoGPT作为第一个被大家关注的LLM Agent，它出现到现在已经1年8个月了，实际时间还要长，为什么到现在AI Agent才真正火爆起来呢？

首先，我们来看两个近期的现象： 二级市场火爆。现在有大量的机构，研报机构、券商等，发布了对解读智能体的市场趋势的报告。然后二级市场涌入了很多智能体相关的概念股，一些上市公司都开始关注相关的概念，包括一些股民也开始研究相关的概念。这就导致很多人开始围绕智能体进行炒作，包括公募基金等。然后市场一起来，大家就开始更多地关注。 币圈市场疯狂。web 3 代币领域AI Agent现在特别火，10月中旬首个AI Agent代币GOAT发布后，迅速成为市场的焦点，现在很多组织都在考虑基于AI Agent技术来发行代币。GOAT与ACT两个代币在这个赛道上线后短时间内实现了惊人的价值飞跃，市场空前高涨。币圈包括其他金融市场的很多人，都是因为这个知道了AI Agent。比如我有个混币圈的读者，就是因为Agent代币现在买了书恶补相关知识。这里有个数据，ACT代币在币安上市24小时内，涨幅超过2000%，GOAT代币市值一度突破14亿。

AI Agent在这个事件节点爆发，主要有三个原因： 原因1：商业化临界点突破实现落地商用。确实，现在很多企业开始应用并取得了不错的成效。与半年前或一年前不同，那时大家都在讨论概念和发展趋势，实际应用案例很少。如今，包括很多个人用户也在探索和应用AI Agent。微软之前在大会上公布，已有超过十万用户在使用他们的智能体产品。京东之前也有数据，他们已经有7000多个智能体。通过与一些创业公司交流得知，他们现在每个员工至少在用10个智能体。当然，这些智能体有的可能只是简单的问答机器人，有的能执行一些简单的文本搜索任务，但他们都算当前业内定义的智能体。此外，豆包用户据说已突破6000万。现在，使用豆包这类智能体进行创作、数据处理的案例越来越多。用户也越来越多，用户年龄小到10来岁的小学生，大到年过五旬的大爷大妈。 原因2：真正能够解决实际问题。大语言模型不断进化，今年当中大语言模型就迭代多次。多模态、推理微化、端侧应用包括RAG等技术的不断突破，让大语言模型能力不断增强。这些新技术、新的大语言模型技术、新的技术架构，让智能体真正能够让大模型实现从理论到实际执行任务的转变。尤其是工作流的引入，让智能体能够更强地执行更复杂的任务。 原因3：商业应用可见。Coze、文心智能体、元器、智谱清言等智能体平台上，已经有大量用户构建了很多AI Agent。智能体平台的手机端应用，手机厂商提出的手机智能体，包括PC厂商推出的PC智能体，以及智能眼镜、智能耳机等终端设备，现在都贴着智能体应用的标签，或者本身就是一个智能体，这让很多C端用户有了更多感知，用户正在呈现指数级增长。其中，代表性事件是11月初Anthropic（推出Cloude的公司）推出的一个能操控电脑的模型，用该模型加上一个应用程序就能直接操控电脑帮助用户做一些事情。这其实就是一个智能体应用，电脑使用（Computer Use）概念股也因此大热。还有智谱推出的AutoGLM，当时吸引了市场投资等众多机构的关注。以前智能体只是在讨论其可能性，现在通过Cloude、AutoGLM等，大家真的能感受到这些智能体可以做一些我们想做的事情。这三个原因叠加，足以让AI Agent火爆起来。

宏观角度来看，全球企业持续投入，使得一些领域已经初步实现了商业化，加上众多企业布局产品和生态，所以大家都在说2025年有望成为AI Agent商用元年。宏观上，AI Agent的市场爆发可以归结为以下三个主要原因： 技术进步：一些技术有效推动了AI Agent在各个领域的应用。 政策支持：全球各国对人工智能的重视，然后会出台一系列相关政策，政策出台后，AI的发展就会进一步加速。 自动化与个性化客户体验需求上升：企业通过实施AI Agent提升自动化运营效率,对个性化数字互动的需求也在增长，各种需求都在增长，最后使得智能体的采用率和渗透率不断提升。 3、大公司动态 要研究一个行业或者产业，必须要看大公司在这个领域做什么，大公司的各种动作最能彰显某项技术应用与发展的情况。最近几个月，科技公司在AI Agent方面动作频频。事实上，从AI Agent概念出现以来，他们一直在做相关方面的探索、技术开发和运用。

国外公司：微软、Facebook、谷歌等国外技术公司，他们最近两到三个月内有不少动作。当然，我只选取了一些比较重要的放在这里，其实他们做的还更多。再看创业公司这边，OpenAI、Anthropic等都有布局。同时，我们还能看到许多知名的国外公司，像Nvidia、苹果、IBM等都一直在潜心探索、推出和应用智能体。尤其是在B端，像Salesforce、Oracle、SAP等企业管理软件公司，他们现在在AI Agent方面的动作甚至比科技巨头公司还多，经常隔上一段时间就会发布产品和解决方案，以及公布相关数据。

国内公司：国内情况也一样。我们可以看到这里列举的公司，如阿里、腾讯、字节、百度，他们在AI Agent方面有一些动作，提出一些政策或解决方案、技术等。大模型创业公司，如智谱AI，在AI Agent方面一直有非常密集的动作。其他大模型创企，如月之暗面等也是如此，包括产品的迭代和开发、应用市场的开拓等，重点围绕AI Agent做生态拓展。从2024年下半年开始，大家都在讲LLM的落地应用。现在应用重点落点到AI Agent，2025年以后更是如此，大家自然要在这个落点上全速奔跑。大模型公司对AI Agent的推广、应用以及在各领域的合作有更强的需求，所以要积极拓展应用生态，不断推出更新的产品和解决方案。现在几乎所有的大模型公司接下来都要往运用走，都在做AI Agent的事情，可以说现在的大语言模型公司都是AI Agent公司、智能体企业。其他的大公司，像华为、美团、京东等也都有相应的动作，包括小米、荣耀、Vivo、联想等终端公司也是如此，都在重点围绕市场、生态、技术等相关布局及市场拓展。 4、行业数据 接下来看一些行业数据，这里搜集整理了五个行业的相关数据。

在医疗保健行业，AI Agent自动执行89%的临床文档任务，用于斑块检测的CT图像处理中的AI Agent达到97%的准确率。在人力资源行业，使用智能体后，简历筛选这块可以减少75%的工作量，94%的人力资源人员认为AI Agent可以很好地改进招聘流程，6%的人力资源领导者认为它可以提供个性化学习机会，HR运营成本能节省25%。零售行业现在采用AI Agent算是比较领先的，因为他们的数字化程度比较高，所以能够很快引入智能体技术或推出自己的解决方案，一些方面的数据也很好，可以看到零售商的运营成本能降低72%。金融行业不用多说，它在全行业中数据化程度最高、数据最完整、结果化数据最多。所以它采用AI Agent的速度比较快、效率比较高，效果也比较好。对于制造业来说，很难想象制造业在RPA应用方面，有的可能还在RPA 2.0阶段，有的可能刚开始使用结合AI的RPA，如果他们使用AI Agent，也能达到这些数据的呈现。
参考资料

产品经理大群：读懂AI Agent：基于大模型的人工智能代理Agents | Google《Building effective agents》 \ Anthropic

发表于 2025-3-31 08:18:47

1. 什么是AI Agent

AI Agent是近年来备受关注的一种智能技术，AI Agent，即人工智能代理，是一种能够感知环境、进行推理并采取行动的智能系统。这种系统通常被设计用来与所处的环境进行交互，从而达成特定的目标，其具体定义与特点可以归纳如下：

1.1 定义

AI Agent是软件程序或系统，它通过感知系统收集环境中的各种信息，如通过摄像头、麦克风等设备捕捉图像、声音等数据，然后将这些原始数据转换为可被处理的格式，从而理解其所处的环境状况。在此基础上，它依据这些数据做出决策，采取以达成预定目标的行动。

1.2 核心组成部分

1）感知系统：相当于AI Agent的“五官”，负责获取信息。
2）目标导向代理：具有明确的目标设定，并能规划和执行行动步骤以达成目标。
3）学习代理：能通过与环境的交互不断学习和改进，以适应环境变化和完成任务。

1.3 技术基础

AI Agent的核心技术包括机器学习（如监督学习、无监督学习等）、深度学习（利用多层神经网络处理数据）、强化学习（基于试错学习来调整策略）和自然语言处理（理解和生成人类语言）等。

1.4 应用领域

AI Agent广泛应用于各个领域，包括自动驾驶、智能家居、智能客服、医疗保健、金融领域等。例如，在自动驾驶中，它能够感知交通状况并做出驾驶决策；在智能家居中，能理解用户指令并控制家中的各种智能设备；而在客户服务中，则能自动回答问题并处理用户需求。

AI Agent的具体落地应用广泛且多样，以下是按领域归纳的一些具体应用：
1）客户服务：

智能客服系统：例如，许多银行和电商网站上的自动客服机器人，能够实时回应用户咨询，提供24/7的服务。具体应用名称包括千帆大模型开发与服务平台的智能客服解决方案等。

2）自动驾驶：

自动驾驶汽车：利用AI Agent实现车辆的自主驾驶、导航系统以及避险功能。如特斯拉、谷歌Waymo的自动驾驶技术。

3）智能家居：

智能家居控制系统：比如小米、亚马逊的Echo等设备，可以通过语音指令控制灯光、空调等设备。

4）医疗诊断：

辅助诊断系统：AI Agent能帮助医生进行疾病分析，提供诊断建议。具体应用如IBM的Watson健康平台。

5）金融投资：

自动化交易系统：进行股票市场分析，自动执行买卖操作，如各种量化交易系统。

6）教育辅导：

智能辅导系统：例如，根据学生学习进度提供个性化的学习计划推荐，如智能题库、智能教学平台等。

以下是按领域归纳的一些AI Agent相关应用名称：

智能家居控制系统：如Amazon Echo（亚历克莎）、Google Nest等。
智能客服机器人：在各行业均有应用，具体名称会因服务提供商而异。
自动驾驶技术：特斯拉Autopilot，Waymo自驾系统等。
医疗助手App：如某些健康管理系统中的AI健康顾问。
金融交易系统：如量化交易软件招商证券智远一户通等。

需要注意，由于AI技术发展迅速，新的AI Agent应用和服务不断涌现，以上只是一部分当前的具体应用示例，随着技术的进步，未来会有更多创新应用问世。同时，这些应用的名称和具体功能可能因市场和开发商的不同而有所变化。
此外，在企业服务领域，AI Agent也以各种智能办公助手的形式存在，如自动化办公系统、智能文档处理工具等，帮助提高工作效率。这些应用的名称会根据不同的供应商而异，但普遍目标都是利用AI技术为用户带来更加便捷和高效的体验。
综上所述，AI Agent是一种高度智能化的系统，它通过集成多种先进技术来实现与环境的交互和任务的自主完成，是当今人工智能技术的重要组成部分，并在多个领域发挥着越来越重要的作用。

2. AI Agent与ChatGPT的区别

AI Agent和ChatGPT的区别主要体现在以下几个方面：
2.1 功能范围

ChatGPT：一个基于对话的AI模型，主要提供信息检索、语言理解和文本生成服务。专注于自然语言处理，能够理解和生成自然语言文本，并通过对话系统与人进行交互。ChatGPT在文本交互场景中表现优秀，适合用于语言交流、问答、文本创作等任务。
AI Agent：通常是指各种具体的AI应用和工具，功能更为广泛，不仅涵盖自然语言处理，还包括视觉、听觉、触觉等多种感知能力以及行动能力。AI Agent能进行自主理解、决策并执行动作，通过传感器或接口感知外部环境变化并作出相应行动。

2.2 学习方式

ChatGPT：主要依赖于大规模预训练的语言模型，通过大量的文本数据学习语言模式和规则。
AI Agent：采用更多样化的学习方法，如监督学习、强化学习等，以便能在更复杂多变的环境中进行自我调整和优化。

2.3 应用场景

ChatGPT：适用于文本交互为主的场景，如在线客服、智能问答、文本创作辅助等。
AI Agent：可应用于更加广泛的智能场景，包括但不限于智能家居、自动驾驶、医疗健康、金融交易等，能在这些领域中执行更复杂的任务。

2.4 自主性

ChatGPT：虽然能够进行高级的自然语言交互，但在执行任务时通常需要人类用户的直接参与和交流。
AI Agent：具有更高的自主性，能够在没有人类实时干预的情况下进行独立思考、决策，并根据环境变化自我调整策略。

2.5 用户体验

ChatGPT：ChatGPT交互方式主要通过文本交流。注重与用户的互动和沟通体验。
AI Agent：AI Agent交互方式可能包括语音、图像识别等多种交互方式。更强调完成特定任务的效能和效果。

综上所述，ChatGPT专注于自然语言处理的深度与精准度，在文本交互领域中发挥着重要作用；而AI Agent则体现出更全面的智能化特点，具备在多种场景下自主行动和决策的能力。两者各有优势，并分别在不同的应用场景中发挥着不可或缺的作用。
总的来说，AI Agent是更广泛的一个类别，而我（ChatGPT），是其中的一个具体实例，特别针对于会话式的AI应用。

3. AI Agent与区块链

3.1 AI Agent与区块链结合应用

1）智能合约：AI Agent可以通过智能合约在区块链上执行预定义的操作。这些操作可以是交易、数据存储或其他与业务流程相关的任务。智能合约保证了AI Agent行为的透明性和可追溯性。
2）数据安全与验证：区块链为AI Agent提供了一个去中心化的、安全的数据存储和验证机制。这确保了AI Agent处理的数据不被篡改，从而增加了数据的可靠性。
3）资源管理与交易：AI Agent可以管理区块链钱包，进行数字货币的交易，或参与去中心化金融（DeFi）应用，如借贷、流动性提供等。
4）去中心化市场与经济模型：AI Agent在去中心化市场中可以自主进行资源管理和交易，参与各种经济活动，如质押、挖矿或治理等。

3.2 AI Agent赛道上的区块链项目

在AI Agent赛道上，有几个值得关注的区块链项目：
1）Virtuals Protocol：

允许任何人创建一个AI代理，即一个可以与环境交互的虚拟角色。
AI代理能够在多个平台上无缝运行，具备多模态交互能力。
已成功创建了超过1000个AI Agent，并在TikTok等社交平台上获得了广泛的关注和影响力。

2）GAME：
作为Virtuals生态的核心框架，GAME赋能AI代理的自主操作与智能化，象征着AI与游戏的深度融合。

3）AI16z DAO：
AI16z DAO是一个基于Solana区块链的去中心化AI交易基金，也被称为“AI投资DAO”。它利用AI Agent在链上和链下获取市场信息、分析社群共识，并自动进行代币交易。

4）Zerebro：Zerebro通过自主运行的AI系统在社交平台上创建和分发内容，结合了社交互动、跨链NFT及自主代币功能。

5）VVAIFU：
利用ai16z的Eliza框架和Zerebro集成，用户可以轻松创建与社交媒体互动的AI代理。

6）Clanker：
基于Base区块链的AI代币生成平台，允许用户通过社交平台Farcaster简单地创建自定义的ERC-20代币。

7）GOAT：
作为第一个火起来的AI Agent Meme币，由名为“Truth Terminal”的AI机器人发行，并深度参与其推广和传播。

8）ARC：
ARC专注于创建一个开放和安全的数字生态系统，基于Rust语言开发了一个名为RIG的AI框架，支持去中心化应用（dApp）和智能合约。

9）Skyfire：

专注于为AI代理提供金融服务的区块链公司。
他的目标是发展出一种开放的支付系统，让AI能够独立完成经济交易并支付各种费用。
已在Polygon网络上推出基于USDC的开源支付系统。

10）Swarms：
由天才少年Kye Gomez创立的多代理AI框架，基于其框架，开发者可以创建和管理多个AI代理，支持与外部AI服务及API的无缝集成。

这些项目展示了AI Agent与区块链技术结合后的创新应用。随着技术的不断进步，我们可以预期将看到更多类似的项目涌现，推动智能化和去中心化的融合发展。

更多区块链方面的文章，可以看我的学习笔记 ：www.0101.vip
----------------------------------------------------------------------------------
我是powervip，区块链程序员
我的知乎：https://www.zhihu.com/people/powervip
我的公众号：区块链战斗机
我的学习笔记：www.0101.vip

如果你觉得这篇文章写得还可以，请帮忙点个赞，谢谢！著作权归作者所有。如需转载，请注明原文出处并保留原文链接。

你的鼓励，我的动力！

发表于 2025-3-31 08:33:55

几篇关于Agent的文章
大模型Agent（一）
大模型Agent（二） LLM与知识图谱结合中的Agent
大模型Agent（三） Plan-and-Solve思想
大模型Agent(三A)- 多模态检索增强生成OmniSearch

发表于 2025-3-31 08:47:29

AI Agent是RL强化学习中的概念，跟大模型基本无关。
所以按照定义来讲：
①未经微调的基础LLM，不是人工智能。
②经过SFT调教的LLM，也不是人工智能，但可以叫专家系统，国产模型基本都是这一类型。
③在SFT基础上，经过RLHF弱强化学习，有点AI的味儿了，这种RLHF LLM有一定的自主性，弹性大，思维活络，拟人性高，最典型的就是安索佩克的克劳德（我是不是应该称之为Anthropic Claude？）
④更高浓度的强化学习，这就可以被称为Agent了，比如OpenAI的o1。这种RL LLM的自主性就非常强了。它们是一种“自我提示”的Agents，也是目前最接近“通用Superintelligence”的存在。
⑤所以，Agent是那种吃了很多强化学习，在目标领域明显超过人类的存在。

发表于 2025-3-31 09:00:10

通过对GAO御三家的官方定义的分析(瞎琢磨)，
我总结了五条关于AI Agent关键词 (fully)：
①任务导向：可以把任务作为Agent的定义前缀比如&#34;Deep Research Agent&#34; &#34;Blender Agent&#34;，虽然基于模型，但仍然需要设计和构建。基于同一个模型，任务不同，产生的Agent也是不同，有些Agent泛用性强，有些很狭窄。
②自主独立：不依赖用户每一步的提示词。LLM可以自我提示，自我反思，达成若干步骤的自主行动。用户只要给定初始任务即可。比如，你无需微观管理一个Deep Research Agent：你要按照以下100步来完成你研究。（╯&#39; - &#39;)╯︵ ┻━┻
③动态推理：理解任务当前状态并做出预判。这是非常典型的RL模型，根据对目标或结果的预判，来调整自己当前的行为。(这个下次有机会展开来讲讲，很有意思，因为这涉及到智能的底层逻辑)
④环境感知：理解交互环境的状态，趋利避害。多模态是模型走向通用性的关键之一，影响着未来Agent的泛用性。
⑤基于LLM：当前agent的特色，但不是本质特征，Agent并不一定需要LLM。但是AGI agent一定需要LLM。(这看起来像是一个文字游戏，LLM是&#34;通用&#34;人工智能的起点)
Google对AI agent的定义

According to Google, an AI agent can be defined as an autonomous system that is capable of observing its environment, reasoning about its goals, and taking actions using external tools to achieve those goals. Furthermore, AI agents are described as software systems that utilize artificial intelligence to pursue objectives and complete tasks on behalf of users. These systems exhibit capabilities such as reasoning, planning, and memory retention.

根据谷歌的定义，AI agent可以被定义为一种自主系统，它能够观察其所处环境，对自身目标进行推理，并使用外部工具采取行动以实现这些目标。此外，AI agent被描述为利用人工智能代表用户追求目标并完成任务的软件系统。这些系统展现出推理、规划和记忆留存等能力。

OpenAI对agent的定义

OpenAI defines AI agents as “automated systems that can independently accomplish tasks on behalf of users.” These agents are designed to perform tasks autonomously, often by navigating the web or operating on a user&#39;s device to execute multi-step processes . An example is OpenAI&#39;s &#34;Operator,&#34; which is an AI agent capable of using its own browser to perform tasks for users. Additionally, OpenAI has developed other AI agents like &#34;Deep Research,&#34; which is tailored for complex research tasks, automatically searching, interpreting, and integrating vast amounts of online information to generate professional-grade research reports.

OpenAI将AI agent定义为“能够代表用户独立完成任务的自动化系统”。这些agent被设计用于自主执行任务，通常是通过浏览网页或在用户设备上操作来执行多步骤流程。一个例子是OpenAI的“Operator”，它是一个AI agent，能够使用其自带的浏览器为用户执行任务。此外，OpenAI还开发了其他的AI agent，比如“深度研究（Deep Research）”，它专为复杂的研究任务而设计，能够自动搜索、解读并整合大量的在线信息，以生成专业级别的研究报告。
Anthropic对agent的定义

Anthropic defines an AI agent as a system that operates autonomously to determine the number of steps and tools needed to complete a task. Additionally, Anthropic describes AI agents as systems where large language models (LLMs) maintain control over their processes and tool usage, dynamically adapting to the demands of a given task .

Anthropic将AI agent定义为一种自主运行的系统，该系统能够自行确定完成一项任务所需的步骤数量和工具。此外，Anthropic把AI agent描述为这样的系统：在其中，大语言模型（LLMs）能够对其运行过程和工具使用情况进行控制，并能根据特定任务的要求进行动态调整。

发表于 2025-3-31 15:53:14

AI agent指的是人工智能代理，是一种能够执行特定任务或提供服务的智能系统。它可以通过感知、理解人类指令，自主完成某些复杂的工作，如智能客服、智能家居控制等。<br><br>关于AI agent的实现时间，随着人工智能技术的不断发展和进步，AI agent的实现已经越来越接近现实。目前，一些简单的AI agent已经得到广泛应用，例如在智能语音助手、智能客服等领域。未来，随着技术的不断进步和算法的优化，AI agent有望实现更加广泛的应用和更加高级的功能。因此，虽然无法确定具体时间，但可以预见，AI agent将在不久的将来得到更广泛的应用和实现。

AI agent是什么意思？

本周热门