能大致讲一下agent的原理吗?

能大致讲一下agent的原理吗?
收藏者
0
被浏览
143

6 个回答

漏网之鱼 LV

发表于 5 天前

AI Agent是什么?和Chatbot有何不同?
AI Agent-人工智能代理,也被称作人工智能体,通俗来讲,是一个高度拟人计算程序,我们可以把它理解为一个“有脑子的助手”,借助"大模型"的大脑,它能完全理解所处环境发生的事情,自己思考问题、做决定、自主执行完成任务。而Chatbot常常是互动模式比较单一的一问一答,任务完成通常依赖于一次性的信息输入和输出。
所以,Chatbot像是聊天助手,基于NLP自然语言处理技术,擅长模拟人类对话,陪我们聊天并回复问题,而AI Agent是个智能管家,在理解我们的需求后,不仅能给出解决方案,还能完成任务。

能大致讲一下agent的原理吗?-1.jpg

AI Agent 基础架构基本由5个关键部分组成: 感知Perception、规划Planning、记忆Memory、工具Tools、行动Action。

  • 感知(Perception):Agent通过感知系统从环境中收集信息,这些信息可以是文本、图像、声音等多种形式。感知是Agent理解周遭世界的第一道工序。
  • 规划(Planning):大语言模型(LLM)赋予了Agent规划的思维模式,规划也是Agent的决策中心,它将目标分解为可执行的步骤,并制定实现目标的策略。
  • 记忆(Memory):类似于人类的记忆机制,Agent体拥有短期记忆与长期记忆,单次会话的上下文记忆会被短暂的储存,以用于多轮会话,在任务完结后被清空;长期记忆例如用户的特征信息等。
  • 工具(Tools):工具使用是Agent利用外部资源或工具来增强其感知、决策和行动能力的过程。这些工具可以是API、软件库、硬件设备或其他服务。通过调用外部的插件工具,来获取原本 LLM 并不具备的能力。
  • 行动(Action):最后,Agent根据规划的结果执行行动。这些行动可能是物理的,如机器人的移动,也可能是虚拟的,如软件系统的数据处理。
AI Agent,LLM大模型,RAG的关系
LLM大模型、RAG检索增强与AI Agent的关系,可以通过一个简单的类比来理解:如果把AI Agent比作一个智能助手,那么LLM就是这个助手的"思考中枢",而RAG则是他随时可以查阅的"智能知识库",为LLM提供信息补充,通过连接本地知识库或实时数据,RAG可以弥补LLM在特定信息上的不足,确保答案的准确性和及时性。
在实际应用中,它们的协作关系是这样的:AI Agent会先利用LLM细化任务,将复杂问题拆解为多个小问题,并规划解决顺序,然后通过RAG引入实时数据或特定知识,最终完成任务执行。这样,AI Agent不仅能理解问题,还能结合最新信息给出更精准的答案。

能大致讲一下agent的原理吗?-2.jpg


AI Agent在客户服务领域的应用
客户服务领域是AI Agent技术的重要应用领域,在大模型技术广泛应用之前,客户服务自动化主要依靠聊天机器人实现,传统的聊天机器人按照预先编写的对话流程工作,通常会重复固定的回复,而 AlAgent 能够进行智能推理。
以ConnectNow为例,内置的AI Agent完美诠释了智能客服应具备的全方位能力。在感知层面,ConnectNow的AI 智能助理能够通过自然语言处理技术精准理解客户的文字表述和语气情绪,智能分析客户的历史互动数据,实时感知客户的行为特征,并收集分析多渠道的客户反馈信息。其规划能力基于大语言模型的决策系统,能够快速制定个性化的服务方案,智能分解复杂的客户需求,动态调整服务策略,并预测可能出现的问题提前准备解决方案。
ConnectNow的记忆系统是其重要特色,短期记忆确保了单次服务的连贯性,长期记忆则储存客户画像和服务偏好,实现千人千面的个性化服务。同时,系统能智能提取历史服务经验,建立知识图谱,实现经验积累和知识传承。
例如:如果客户在某次会话中提到了特定的偏好(如喜欢某种颜色的产品),在下次互动中,AI 智能助理可以通过记忆系统直接调用这些信息,为客户推荐更加符合他们喜好的产品。这种个性化的服务能够极大提升客户的满意度和粘性。
在工具使用方面,ConnectNow为AI 智能助理配备了强大的工具箱,包括多种API接口,例如,当客户需要了解订单物流信息时,AI Agent可以通过API接口与物流公司的系统进行对接,实时查询物流状态并反馈给客户。此外,AI 智能助理还可以对接企业的专业知识库,与第三方CRM系统对接,确保企业服务流程的顺畅执行,并实现客户全生命周期管理的闭环。

能大致讲一下agent的原理吗?-3.jpg

在行动执行层面,ConnectNow的AI 智能助理展现出高效的执行力,能够自动生成个性化的回复内容,主动发起多轮对话深入了解客户需求,实时转接相关部门协调解决复杂问题,并全程追踪服务进度确保客户满意度。与传统客服系统相比,这种智能服务模式实现了服务可用性、服务体验、运营成本和数据价值等多个维度的质的飞跃。
在实际应用中,ConnectNow的AI 智能助理展现出强大的场景适应能力。在售前咨询场景中,能够智能推荐适合的产品和服务,解答产品相关问题,提供个性化的方案建议,协助客户完成购买决策。在售后服务场景中,可以快速处理常见问题,追踪订单和物流状态,协调技术支持服务,处理退换货请求。在投诉处理场景中,则能够实现情绪安抚与问题解决、多部门协调处理、进度跟踪和满意度回访等全流程服务。

璀璨千阳 LV

发表于 5 天前

全球顶级咨询公司Gartner最新发布的AI产业报告显示,在2025年的AI发展趋势中,Agentic AI可是稳稳地坐上了头把交椅。

能大致讲一下agent的原理吗?-1.jpg

什么是Agent?

对于什么是Agent,Gartner也给出了明确定义——能够独立做出判断,并采取行动,从而都完成特定目标的软件程序
让我们用生活化的方式说清楚,想象一下,如果你有一个无所不能的助理,你只要告诉他『我想要什么』,不用事无巨细地交代每一个步骤,他就能自己思考、规划、执行,最后还能完美地完成任务 —— 这就是Agent。
最近很火热的『用AI点一杯咖啡』的演示,其实就是Agent,用户只说自己的目的『点一杯咖啡』,并没有指定去哪个店去买、怎么选、怎么支付,这些具体步骤都是AI完成的,最后给用户的就是结果。
当然,Agent绝不只能用来做点咖啡点餐这种小事,也具备承接更复杂任务的潜力,Agent可以产生详细的数据分析汇报,制作旅行规划,甚至直接执行一个项目,Gartner对2025年的预期就是AI Agent会在各个维度得到应用。
Agent是如何工作的?

想象Agent就像一个超级助理,掀开她的神秘面纱,可以看到其工作过程就是三个部分:

  • 接受用户的目标(注意不是步骤指令),由目标产生计划,因为用户的目标是以文字、图像、声音方式呈现,就可以利用大模型LLM完成理解,转化为计划。
  • 执行计划,这个过程中可能会遇到问题,所以会反复迭代修改计划再来执行,这个过程中也可能会需要通过LLM获得智能辅助。
  • 当执行过程认为已经达到了目标,产生输出,告知用户结果。

能大致讲一下agent的原理吗?-2.jpg

做一个好用的Agent可不是那么容易的事情,但是作为AI圈内人士,要告诉你做AI Agent最重要的核心问题,核心中的核心—— 性价比
性价比:Agent成功的关键密码

就像一款成功的手机肯定性价比高,性价比不高的手机肯定曲高和寡,同样道理,要做一个成功的AI Agent,目标就是实现一个合适的性价比的AI Agent。
『性』方面,因为目前AI并不是全能的,所以首先要搞清楚AI Agent能够以实现具体目标,一般复杂目标不可能100%让人满意,那就看满意程度是否能让人接受。
『价』方面,就是成本,这主要包含两个方面。


    • 一个方面是开发成本,因为Agent的工作套路化模式化,不需要一切从头做起,像LangChain、AutoGen、CrewAI等等很多框架都可以使用,只是这些框架各有所长各有所短,值得花一些时间了解各自优缺点再用。
    • 另一个更重要的成本是LLM的tokens花销,虽然Gartner的定义中没有提到大模型LLM,但事实就是现在的Agent几乎都依赖于LLM来获得『智能』,使用API形式的大模型,都是按照tokens消耗收费的,而AI Agent的tokens消耗可能超出你的想象,在把AI Agent投入实际使用之前一定要计算一下tokens消耗。

总之,要做AI Agent是个技术活,需要对AI有全面的认知,不过,虽然AI Agent概念提出很久,但是市场上懂AI尤其是懂Agent的人才依然稀缺,物以稀为贵,薪资也不低,在2025年Agent成为AI发展趋势的驱动下,对于AI Agent人才的需求会进一步拉大。
如果你对AI Agent有兴趣,不想错过2025年Agent这个风口,我建议你看一看知乎知学堂的免费AI课程,这个课程对于AI的技术原理、产品思维和具体落地实践都有完备讲解,其中也包括Agent的产品开发,最重要的是,免费!学到就是赚到了
当你学对AI有一个全面认识之后,就会理解AI Agent在2025年成为趋势首位是水到渠成,因为Agent是AI应用发展的下一步。
AI应用的发展过程如下图,首先是聊天机器人Chatbot(也就是ChatGPT那样的对话),然后产生了AI助理(Assistant),能够提供一些内容生成、总结、获取的操作,接下来就是AI Copilot,按照这个发展趋势最后必然发展成AI Agent。

能大致讲一下agent的原理吗?-3.jpg

Agent VS Copilot:两种不同的AI打开方式

为了理解Agent,需要对比一下Agent和另一种AI产品形式Copilot,这里我说的Copilot并不是Github Copilot这一个特定的产品,而是所有扮演『辅助价值』角色的AI产品。
虽然都是依赖LLM提供智能,但是Agent和Copilot是两种完全不同的产品形式。Copilot提供的是辅助,单词Copilot的意思就是『副驾驶』,就拿开车来打比方,Copilot提供的产品体验就是依然是人类用户掌握方向盘和刹车,AI只是坐在副驾提供辅助,告诉司机(也就是用户)『前面有下坡要缓行』『左拐抄近路可以更快一些』这样的建议,但是要不要真的『缓行』要不要『左拐』呢?还是要由司机在作定夺。
同样那开车打比方,Agent提供的AI产品体验就是完全自动驾驶,方向盘和刹车全都交给AI,用户只需要告诉AI目的地,其余的都不用管,至于走什么路,怎么过红绿灯,怎么下坡,全都应该由AI控制完成。
上面只是打一个比方,无论Copilot还是Agent的实际产品形式当然不限于开车。
Copilot这种AI形式最初源自于AI辅助编程,逐渐扩展到辅助文档写作、辅助数据分析,也是除了无人驾驶之被证明实现了商业闭环的AI产品形式,因为AI只是提供建议,全称都是人类主导,所以产出的质量也比价有保障,问题是,因为还是需要人工主导,这样给生产力的提高也有限,发展很成熟的AI编程辅助也就带来20%-50%的生产力提升。
简单来说,Copilot再怎么发展,对生产力提高的幅度有限

能大致讲一下agent的原理吗?-4.jpg


强如github copilot,也只能辅助编写46%的代码

市场渴求进一步提高生产力的AI工具,就必须要降低人工参与程度,更多依赖于AI实现自动化决策——这就是Agent,因为Agent能够利用AI自动完成分析、判断、行动的过程,让人类用户只需要指定目标和检查结果,生产效率才能突破Copilot的瓶颈。
随着LLM的tokens成本下降和AI技术的进一步发展,Agent肯定是继Copilot之后下一个AI应用爆发点。
未来展望:Agent的无限可能

可以想象,Agent的应用场景会覆盖到所有目前需要人工的工作领域,但是不可能取代全部人工的,说到底,还是一个性价比的问题。
如果一个工作让AI来做的成本过高,那还不如让人工来做。
因为Agent为了完成任务需要和物理环境交互,如果Agent判断失误做出错误决策,还可能产生失效成本,这也是成本的一部分。
那些在现有技术层面可以让AI能够高性价比自动完成的工作,才适合做成Agent,而制造Agent肯定还是需要我们人类自己来做。如果你对AI Agent感兴趣,现在正是入门的好时机,在AI时代,学习永远不晚!
相信从2025年开始,我们每个人身边都会越来越多的AI Agent小助手,帮我们更轻松地完成各种任务,让工作生活更有效率。

少看知乎多读书 LV

发表于 5 天前

借回答这个问题,来和大家认真讨论下agent究竟是什么。
最重要的一点,抛弃所有公司的agent文案,白皮书也好,指南也好。都是为了炒作概念,骗投资人和股民的钱,故弄玄虚。不是说不能看,而是不要去纠结他的概念,我们来说点接地气的。
agent为了解决什么问题?
我认为,最初的目的是想做一套自动化系统,让LLM作为其中的决策者引导或者主导关键决策。
实际上有个东西叫做“状态机”,我认为agent也是一种状态机。只不过以前状态机的流转是通过hardcode了一个映射表;而agent的流转则是由LLM来决定的。
因此,为了让LLM能够做出更正确的决策,或者说发挥更大的能力,agent需要有下面的能力:
1. “记忆功能“。更直白得说,要把和LLM对话的历史记录记下来,下次再跟LLM对话的时候带上一起发给LLM。那么,所有的agent都需要吗?当然不是,还是要看具体的任务,比如简单的文章摘要,就不需要。这个能力对应到代码里面,其实就是数据存储和检索,内存,文件或者数据集,因地制宜。
2. “执行能力”。LLM就是一个语言模型,它只能输出文本类信息。如何把文本信息转化为更有用的信息,就需要agent有执行能力。这也是agent最核心的能力。执行能力有哪些呢?比如网站搜索,调用函数,发送邮件等等。这个能力对应到代码里面,就是一个个功能函数。但是!其实很多人,包括我自己对这里问题最大,究竟agent是怎么把LLM的指令转化为可执行的代码的呢?约定!更专业来说,是LLM的function calling能力。可以理解为,LLM会返回一个规定结构的数据,包括了,函数名字和所需要的参数。然后agent只需要解析拿到这些数据,去执行对应的代码就可以了。
3. “沟通能力”。要搭建一套自动化通用性的系统,又要和LLM频繁(不一定真的很频繁,看具体场景),因此功能拆分很重要。这就像搭积木,需要各种形状组件。积木之间通过特定的接口固定,而agent之间也需要通过特定的协议沟通。至于是master-slave架构,还是peer-to-peer架构,实际上只要好用,都行。如果是ms,那么一般由master负责沟通和控制;如果是p2p架构,那么一般是消息广播机制来沟通,各个agent自己负责控制自己。

不知道为什么这么多人开始鼓吹AI Agent的概念,非得炒作“智能化“。实际上agent还是很工程性质的东西,而且agent好不好用,本质还是在LLM。我们不说LLM幻觉,因为业界共识LLM幻觉是一个无法避免的问题;单单来LLM效果,只能说简单任务尚可,难度任务目前还是不行。
当然,在一定场景中Agent确实是可用的,也是好用的。不过,再怎么吹,受限于LLM的能力,天花板也就在那里了。这仅代表个人观点,可喷。

伊阳进 LV

发表于 5 天前

我觉得有意义的话题是:OpenAI 多Agents推理(Noam Brown主导,他也是o1项目的主要参与者)
马文明斯基在《心智社会》中详细阐述了Agents的可能的实现方式。 他把一个简单的连贯性行为拆分成了非常多的无意识智能体。每个智能体只负责很小的一个模块。 这听着挺扯淡的,这只是心智行为模式的一种假说。
不过我最近意识到这可能有道理 ——我的理解是,我们的基础模块(比如注意力,反思力,共情力,反应能力)通过权重融合,搭建了这种小智能体,再由小智能体联合成一个大的任务机。 我们会训练这种小智能体,这些小智能体又会反哺我们的基础模块的熟练度。
从这种意义上来说,智能体是一个抽象的存在,而不是一个物理实体。
这种抽象的存在,我把它叫做“任务体”,这比智能体可能更符合概念。
——我来继续细化一下,基础模块并不是智能体或任务体(比如注意力,反思力,共情力,反应能力),由它们通过权重分配搭建的任务体才是智能的本体。你可以把人或人工智能想象成由多种“任务体”构成的智能。
我前几天和Claude讨论了,这种任务体会被无限切分吗?无限切分有意义吗?有意义的切分点在哪里?
(切分是必然的,我们以后不会再依赖基础模型推理了,而是o1型的推理,有反思有探索,我想模型都会被切分成小型专家模型,来适应模型“思考”需要的大量tokens, 如果一次思考需要几十万Tokens,那你用得起大模型么?还有一个问题,比如一个大型项目被切分成10个子项目,有5个可以同时推进,那么我们就不需要等大模型进行逐步推理了)
我们提到了下面几个讨论点:
①如果人类有无数个小智能体组成的,但人本身也是一个完整的连接系统,Agents之间的通讯会因为造成延迟和信息丢失。所以,我比较质疑马文明斯基稀碎的切分法。
②所以切分法一定会有一个效率点
③我们初步的思考是,如果进化论是有效的,那么,从宏观上说,我们应该参考公司的结构,这些公司都是经过环境的检验,既不让任务体切得太碎,又不能是一个低效的万事通。 所以大概可以想象一个大型公司招聘岗位,这种岗位就是一个任务体,而不是无限切分下去,这不符合进化论。

最终小任务体会连接在一起,变成MoE系统(混合专家系统),这个概念和现在的MoE模型是不同的。 也就是说在推理系统内部会有很多子任务体,以非常低的成本生成思维链Tokens,然后再统筹在一起。
而且我认为每个专家都会有“Agency”,可以独立推理,独立搞Tokens,而不是无意识体。 所以真正的MoE系统会是一个多Agents推理系统,而不是8x7B这种胶水系统。
你可以把o1视为一个单一Agent,而未来是无数小o1组成的,不是底模,也不是无意识小模块。所以我认为MoE是把o1这种Agent融合在一起,而不是把底模粘在一起。
日本Sakana AI应该受到了明斯基的启发,很明显,这并不容易,我觉得他们就是切得太细了,明斯基切分法是一种假设,它可能并不符合进化论,我比较质疑“无意识Agent”(在我看来,结构主义和进化论是AI和人类这种智能体的基础理论)。
总的来说,Agents是个技术概念,也是一个系统论概念,融合了技术和哲学问题,如果Agents在系统论上走不通,那么在技术落地上,也不会走得通。

哈皮豆豆 LV

发表于 5 天前

参考Google新发布的《Agents》白皮书就行。
地址:Agents
原文是一个白皮书,内容非常长,为了方便大家了解,我对主要内容进行了提取。不过还是建议大家看一遍原文,这个文章写的很好,对于构建智能体有很多值得学习、借鉴的地方,尤其是例代码。
第一章:引言

什么是智能体?

智能体可以被定义为一个试图通过观察世界并利用其工具来达成目标的应用程序。与传统的生成式AI模型不同,智能体具有自主性,能够在没有人类干预的情况下独立行动。它们不仅能够根据明确的指令执行任务,还能在没有明确指令的情况下,通过推理来决定下一步行动。智能体的核心在于其认知架构,即驱动其行为、决策和行动的三个基本组件:模型、工具和编排层。

能大致讲一下agent的原理吗?-1.jpg

模型、工具与编排层

模型:模型是智能体的核心决策者,通常是一个或多个语言模型(LM)。这些模型可以是通用的、多模态的,也可以根据特定任务进行微调。模型的选择应根据最终应用的需求,理想情况下,模型应具备与工具相关的数据签名。
工具:尽管生成式AI模型在文本和图像生成方面表现出色,但它们无法直接与外部世界互动。工具弥补了这一缺陷,使智能体能够与外部数据和系统交互,执行更广泛的任务。工具的形式多样,通常与常见的Web API方法(如GET、POST、PATCH和DELETE)对齐。
编排层:编排层描述了智能体如何循环处理信息、进行内部推理,并基于推理结果决定下一步行动。这个循环会持续进行,直到智能体达成目标或达到停止点。编排层的复杂性因任务而异,可能涉及简单的决策规则或复杂的逻辑链。
智能体与模型的区别

智能体与传统的生成式AI模型有几个关键区别:

  • 知识扩展:模型的知识仅限于其训练数据,而智能体通过工具与外部系统连接,扩展了其知识范围。
  • 会话管理:智能体能够管理会话历史(如聊天记录),支持多轮推理和预测,而模型通常只能进行单次推理。
  • 工具实现:智能体原生支持工具的使用,而模型则需要通过复杂的提示工程来实现类似功能。

能大致讲一下agent的原理吗?-2.jpg


能大致讲一下agent的原理吗?-3.jpg

第二章:工具——连接外部世界的钥匙

智能体的核心能力之一是通过工具与外部世界进行交互。这些工具不仅扩展了智能体的功能,还使其能够访问实时信息、执行复杂任务,并在现实世界中产生影响。本章将详细介绍智能体所使用的三种主要工具类型:扩展(Extensions)函数(Functions)和数据存储(Data Stores),并探讨它们如何帮助智能体突破生成式AI模型的固有局限。

能大致讲一下agent的原理吗?-4.jpg

1. 扩展(Extensions):无缝连接API与智能体

扩展是智能体与外部API之间的桥梁,允许智能体以标准化的方式执行API调用。与传统的自定义代码相比,扩展更具弹性和可扩展性,能够动态选择最适合的API来响应用户查询。

能大致讲一下agent的原理吗?-5.jpg

扩展的工作原理

扩展通过以下方式连接智能体与外部API:

  • 教导智能体如何使用API:扩展通过提供示例,教导智能体如何调用特定的API端点。
  • 定义API调用所需的参数:扩展还定义了调用API所需的参数,确保智能体能够正确解析用户输入并生成有效的API请求。
例如,假设一个智能体的目标是帮助用户预订航班。开发者可以使用Google Flights扩展,使智能体能够调用Google Flights API来检索航班信息。如果用户输入“我想预订从奥斯汀到苏黎世的航班”,智能体会自动提取“奥斯汀”和“苏黎世”作为出发地和目的地,并生成相应的API请求。
扩展的优势


  • 动态选择:智能体可以根据用户查询动态选择最合适的扩展,而无需依赖固定的代码逻辑。
  • 弹性处理:扩展能够处理各种边缘情况,例如用户未提供完整信息时,智能体可以通过推理或提示用户补充信息。

能大致讲一下agent的原理吗?-6.jpg

示例:Google Flights扩展

在Google的Gemini应用中,用户可以启用Google Flights扩展,并通过自然语言查询航班信息。例如,用户可以输入“显示从奥斯汀到苏黎世下周五的航班”,智能体会自动调用Google Flights API并返回实时航班信息。
2. 函数(Functions):客户端执行的灵活工具

函数是另一种重要的工具类型,与扩展不同,函数的执行发生在客户端,而不是智能体端。这种设计为开发者提供了更细粒度的控制,适用于需要安全认证、批处理操作或复杂数据转换的场景。

能大致讲一下agent的原理吗?-7.jpg

函数的工作原理

函数是自包含的代码模块,能够完成特定任务并重复使用。智能体可以生成函数的参数,但实际的API调用由客户端应用程序执行。这种分工使得开发者能够更好地控制数据流和系统执行。
例如,在旅行规划场景中,智能体可以生成一个包含城市列表和用户偏好的JSON格式函数调用。客户端应用程序随后可以使用这些参数调用Google Places API,检索相关城市的图像和数据,并将结果呈现给用户。
函数的优势


  • 安全性:由于API调用发生在客户端,开发者可以避免在智能体端暴露敏感信息或API密钥。
  • 灵活性:开发者可以在客户端执行复杂的数据转换或批处理操作,而无需依赖智能体的能力。
  • 异步操作:函数调用适用于需要长时间运行的异步操作,例如批量数据处理或人工审核。

能大致讲一下agent的原理吗?-8.jpg

示例:旅行规划函数

假设一个智能体被训练为旅行助手,用户输入“我想和家人一起滑雪,但不知道去哪里”。智能体可以生成一个函数调用,返回一个结构化的JSON输出,包含推荐的城市列表和用户偏好(如“滑雪”)。客户端应用程序随后可以使用这些数据调用Google Places API,检索相关城市的图像和信息。

能大致讲一下agent的原理吗?-9.jpg

3. 数据存储(Data Stores):访问动态信息的桥梁

数据存储为智能体提供了访问动态和实时信息的途径,确保模型的响应基于最新的事实和数据。与传统的生成式AI模型不同,智能体可以通过数据存储访问其训练数据之外的信息,从而提供更准确和相关的响应。

能大致讲一下agent的原理吗?-10.jpg

数据存储的工作原理

数据存储通常以向量数据库的形式实现,存储数据的向量嵌入(vector embeddings)。这些嵌入是高维数学表示,能够捕捉数据的语义信息。当用户查询智能体时,查询会被转换为向量嵌入,并与数据存储中的内容进行匹配。匹配到的数据随后被检索并用于生成响应。

能大致讲一下agent的原理吗?-11.jpg

数据存储的应用场景

数据存储支持多种数据格式,包括:

  • 网站内容:智能体可以访问预索引的网站数据,提供最新的信息。
  • 结构化数据:如PDF、Word文档、CSV文件和电子表格。
  • 非结构化数据:如HTML、PDF和TXT文件。

能大致讲一下agent的原理吗?-12.jpg

示例:检索增强生成(RAG)

检索增强生成(RAG)是一种常见的应用场景,智能体通过数据存储检索相关信息,并将其用于生成响应。例如,用户查询“Google的育儿假政策是什么?”时,智能体会从数据存储中检索相关政策文档,并生成基于最新信息的响应。

能大致讲一下agent的原理吗?-13.jpg


能大致讲一下agent的原理吗?-14.jpg

工具总结

扩展、函数和数据存储是智能体与外部世界交互的三大工具类型。每种工具都有其独特的优势和适用场景:

  • 扩展:适用于需要智能体直接控制API调用的场景,例如多跳规划和实时API调用。
  • 函数:适用于需要客户端执行API调用或复杂数据转换的场景,提供更高的安全性和灵活性。
  • 数据存储:适用于需要访问动态和实时信息的场景,支持检索增强生成(RAG)等应用。
通过合理选择和组合这些工具,开发者可以构建出功能强大且灵活的智能体,解决各种复杂的现实世界问题。
第三章:通过针对性学习增强模型性能

智能体的核心能力之一是通过工具与外部世界进行交互,但要让智能体在实际应用中表现出色,模型必须能够有效地选择和使用这些工具。本章将深入探讨如何通过针对性学习来增强模型的性能,使其能够更好地理解何时以及如何使用工具完成任务。
上下文学习(In-context Learning)

上下文学习通过在推理时提供提示、工具和少量示例,使模型能够“即时”学习如何使用这些工具完成任务。ReAct框架是这种方法的典型代表。
基于检索的上下文学习(Retrieval-based In-context Learning)

这种方法通过从外部存储器中检索最相关的信息、工具和示例,动态填充模型提示。例如,Vertex AI扩展中的“示例存储”就是这种技术的应用。
微调学习(Fine-tuning Based Learning)

微调学习通过在推理前使用大量特定示例训练模型,帮助模型理解何时以及如何使用某些工具。这种方法适用于需要模型在特定领域表现出色的场景。
针对性学习的类比:厨师的烹饪艺术

为了帮助读者更好地理解这些针对性学习方法,我们可以用一个厨师的烹饪艺术来类比:

  • 上下文学习:想象一个厨师收到了一份特定的食谱(提示)、一些关键食材(工具)和几个示例菜肴(少量示例)。基于这些有限的信息和厨师的通用烹饪知识,他需要“即时”准备一道符合食谱和顾客偏好的菜肴。这就是上下文学习。
  • 基于检索的上下文学习:现在,假设这个厨师在一个备有各种食材和食谱的厨房(外部数据存储)中工作。他可以根据顾客的食谱和偏好,动态选择食材和食谱,从而准备出更符合顾客需求的菜肴。这就是基于检索的上下文学习。
  • 微调学习:最后,假设我们送这位厨师去学校学习一种新的烹饪风格(大量特定示例)。通过深入学习,他能够更好地应对未来的顾客需求,并在特定烹饪风格中表现出色。这就是微调学习。
第四章:使用LangChain快速构建智能体

为了展示智能体的实际应用,本文提供了一个使用LangChain和LangGraph库构建的快速原型示例。该示例使用了Google的gemini-1.5-flash-001模型,结合SerpAPI(用于Google搜索)和Google Places API,回答用户的多阶段查询。通过这个简单的示例,读者可以直观地理解模型、编排层和工具如何协同工作,完成复杂任务。
第五章:生产级应用——Vertex AI智能体

构建生产级智能体应用需要集成用户界面、评估框架和持续改进机制。Google的Vertex AI平台提供了一个完全托管的开发环境,简化了这一过程。开发者可以通过自然语言界面快速定义智能体的目标、任务指令、工具和子智能体,轻松构建所需的系统行为。Vertex AI平台还提供了一系列开发工具,支持测试、评估、调试和改进智能体性能,使开发者能够专注于智能体的构建和优化。

能大致讲一下agent的原理吗?-15.jpg

总结

本文深入探讨了生成式AI智能体的核心构建模块、其组成结构以及如何通过认知架构有效实现这些智能体。智能体通过工具扩展了语言模型的能力,使其能够访问实时信息、建议现实世界行动,并自主规划和执行复杂任务。编排层作为智能体操作的核心,通过推理、规划和决策指导智能体的行动。工具(如扩展、函数和数据存储)为智能体提供了与外部系统交互的途径,使其能够访问超越训练数据的知识。
未来,随着工具的不断进化和推理能力的增强,智能体将能够解决越来越复杂的问题。通过“智能体链”策略,结合多个擅长不同领域或任务的专家智能体,我们可以创建出跨行业和问题领域的卓越解决方案。
构建复杂的智能体架构需要迭代的方法,实验和优化是找到特定业务案例和组织需求解决方案的关键。每个智能体都是独一无二的,因为它们基于生成式模型的架构。然而,通过充分利用这些核心组件的优势,我们可以创建出具有实际价值的应用程序,推动生成式AI在现实世界中的应用。

llmllm LV

发表于 5 天前

当然可以。Agent的原理主要涉及到其在特定环境下自主行动、自我学习和决策的能力。简单来说,Agent能够感知环境状态,根据内部逻辑分析环境信息,并自主做出决策以完成特定任务。这一过程依赖于Agent所具备的智能算法和学习能力,使其能够在复杂环境中自我适应、自我优化。在现代应用中,Agent常被用于实现自动化任务、智能推荐、网络安全等领域。了解Agent的原理有助于我们更好地应用其技术,推动智能化进程的发展。

您需要登录后才可以回帖 登录 | 立即注册