如何评价当前的 AI Agent 落地效果普遍不佳的问题?
如何评价当前的 AI Agent 落地效果普遍不佳的问题? Agent 落地难,有两方面的问题。[*]agent本身能力是不是很强,可以解决一些实际存在的问题。
[*]到底需不需要agent来解决你的问题。
大部分技术性工作聚焦于第一点,各种fancy的agent架构层出不穷。但是很少有人实际考虑第二点,即你是否真的需要一个高度自治的agent帮你解决问题。
如果你的问题很重要,一般来说这种问题的处理方式都很固定(比如版本上线、工单处理等),你需要的是一个workflow或pipeline。
如果你的问题很adhoc,是长尾问题,处理问题的方式很动态(比如根据数据临时画个图展示一下),那确实适合agent来做。但这类问题多半不重要,如果重要的问题,不会是一个动态不可控的状态。反过来,如果一个问题解决方式是动态的,多半不会是什么关键问题。
但现实中,老板们不会关注那些不在critical path上的问题。所以很多时候,系统里加agent纯属画蛇添足。
可以参考Anthropic的这篇blog笔记,深有启发。https://zhuanlan.zhihu.com/p/26544284972?utm_psn=1878748584880620845 一、数字的表征问题
LLM用token来表示一切信息。而其中有些信息用token表示就是不太合适。比如数字。数字天然具有的大小关系在token化中直接丢失,模型需要废九牛二虎之力才能勉强学会一些基本的逻辑关系,但是仍然会出现分不清9.11和9.9谁大这样的基础问题。
AI Agent的目标通常是解决真实世界的真实问题。而真实世界的真实问题通常含有大量与数字相关的内容。例如:
[*]基于VLM的一些Agent需要具备从图像中找到某个特定目标的定位能力(以矩形框的形式将目标圈出来),该任务一般称为“Visual Grounding”。例如在现在很多自动操作电脑、手机的Agent种,Grounding能力可以应用于寻找一些重要的图标、符号等信息。模型需要较好地理解图像坐标才能准确地找到目标对象。
Visual Grounding示意图
因为数字的特殊性,所以在LLM中也通常会对它进行特殊处理,例如把一个完整的数字123分为1、2和3来表示,以希望模型自己能通过这三者的位置关系来理解这个数是一百二十三。但这种表示方法就是不自然,非常不自然。
一个数字通常是一个整体的概念,但是LLM强行把它拆分开了。在VLM的Grounding任务中,有两种办法可以轻易地提升模型表现。
第一种方法是新增数字token。例如,新增<0>到<999>这样1000个token,让它来表示图像中的位置(把图像的横纵坐标划分成了1000份)。这样通过少量的微调,模型通常会优于原始token的方法。
第二种方法是新增加一个回归head,基于某个token(或某几个)的输出embedding直接以数值方法计算目标坐标值。
两种方法都能提升模型表现,这足以表明模型本身能够比较准确地感知位置信息,但是它没有“好的语言”将它表示出来。
在聊天对话中,可以使用一些外部工具(如计算器、编码工具)来提高LLM对数字的处理能力。但在Agent中,很多时候就需要模型能够自己准确地理解数字,才能做出正确的Action。
二、缺少高效的端到端训练方法
当前的Agent本质是对LLM的应用。为了不错的表现,大部分Agent使用的LLM都是体量较大、使用成本较高的模型。对这些模型进行针对场景需求的微调通常相当困难:
a. 即使只对场景中的某个关键step进行微调,因为模型体量大,训练成本仍然较高。
b. Agent的完整任务包含多个步骤,我们通常缺少一些高效的端到端方法来训练模型。比如,很多Agent的执行可以看作是基于之前历史信息选择下一步动作的模式:
https://www.zhihu.com/equation?tex=%5Cpi%28a_%7Bt%2B1%7D+%7C+s_t%2Ca_t%2Cs_%7Bt-1%7D%2Ca_%7Bt-1%7D%2C...%29
其中 https://www.zhihu.com/equation?tex=s 是环境信息; https://www.zhihu.com/equation?tex=a 是执行的动作。为了较好地训练模型,每一次训练的输入需要包含之前所有信息。对于复杂任务(如涉及多传感器、图像等大量数据情况),这种训练方法非常笨重。
这类Agent的训练可能需要某种特殊的Memory(比如类似RNN的状态压缩),在不显著降低模型表现的情况下,能够适当压缩过去的信息。当然这种Memory只有根据场景去定制,耗时耗力。
三、基座模型的Reasoning能力没达到解决复杂任务的能力
聊聊天、刷刷题,当前的LLM足够。但是当需要它解决一些较为复杂的数学问题,当前LLM完全自主去完成的可能性仍然很低。这其实本身就暗示了基于LLM的AI Agent的能力上限仍然不会太高。
四、工程化难度大
就从当前开源生态来看,其实已经有相当多的模型能够帮助LLM/VLM去解决各种各样的困难子任务。例如,当模型的某个Step需要Grounding能力时,可以直接用一个Grounding模型来代替当前LLM的Step;当模型的某个Step需要进行复杂计算时,要么借助计算器,要么可以借助另一个Coding模型来转换为代码,然后通过执行对应代码来获取结果。
总之,极致工程化有极大可能提升现有AI Agent的表现,但是大多数团队不会耗费人力去做。毕竟我们总是期待下一代基模更强。
五、Workflow
可能正是因为AI Agent落地异常困难,所以Anthropic 在去年年底写了一篇博客,主要就是介绍用事先编排的Workflow来代替Agent的几种模式。可以参考这篇文章:《Building effective agents》。
最后罗列一些自己工作中的经验:
[*]如果某个Step需要根据Query去挑选Tool和参数,在Tool数量不大(小于100)的情况下,一个1.5B的模型,仅使用数K数据,结合一些数据增强手段(shuffle Tool顺序;改写描述等),能达到近似GPT4-level。
[*]同量级的VLM比LLM要弱。所以在可能的情况下,将VLM任务转化为LLM。
[*]VLM在涉及坐标相关的任务中普遍表现不佳,所以可以考虑组合一些额外的手段来提高任务整体成功率:例如通过目标检测模型、OCR来出bbox;借助SAM来分割区域,并通过区域编号来告知VLM你任务中关心的对象是什么。
[*]开源Agent方案当前仍处于高度不可用状态,几乎没有任何异常处理。而真实任务处处是异常。
[*]非必要不RAG;能联网搜就联网搜。
[*]小模型的test-time-scaling似乎高度数据相关。不同场景表现差异很大。所以SFT和RL都得做一遍。
背景:很早就在做AI Agent方向的创业者,我们自己觉得做的还行。
先说结论:
[*]非AI从业者对新技术的落地时间预期过高
2. AI从业者对生产力与生产资料的分配主导权预期过高。
AI是一种新的生产力,使用这种生产力是有代价的,创业者们往往低估了这个代价。
举个历史真实发生的例子好了,
回到1890年,电被发明出来。
当你是工厂主,你会立即把蒸汽锅炉换成发电机吗?
答案是否定的,
图片来自AI生成,仅仅示意,不代表真实的工厂设计
如图,选择把蒸汽机换成发电机,或者在纺纱机设备上装个电机,需要考虑的不仅仅是电这个生产力本身,还需要考虑电网铺设、流水线等等一系列问题。
事实上,
直到1930年,电灯的普及率才到80%
到1940年,现代流水线才开始取代工厂机械传动与工厂辅助电机。
我们再回过头来看AI行业的发展:
Agent的目标,
看起来是代替人类完成任务,不是一个很难的事情,但事实上,
背后需要解决的复杂问题是:
[*]要比80%的普通人完成任务的质量要高,否则因为边界问题用户会弃用
[*]要比现有的解决方案的效率高3倍以上,否则因为成本问题行业无法接受
[*]要准备10~12个月的首次落地时间,否则因为行业现有解决方案兼容的问题无法落地
以我们落地的真实情况来看,上面三个数字仍然略显保守。
2022年,当时行业的某关键转化指标为X%,我们其实已经可以交付一个1.5倍X~2倍X的水平
2023年上半年,直到我们交付达到3倍X的时候,行业才开始有公司乐意推动Agent落地的这个合作,仅仅预期的沟通、技术的对接等等问题就花费了10个月。超级感激他们当时在Agent前景还不明朗时刻,充满前瞻性的判断力与全力的支持。
24年3月份才开始真正的落地到某个场景里。后面加速就很快了,同场景的第二个合作伙伴落地花了3个月,平均2~3个月就可以落一个。有了这个地狱般的磨难,新场景的研发周期预计会缩短2/3以上。
我们还是非常幸运的,一直坚持做AI方向,大模型火之前有很多积累,行业内有口碑,客户与合作伙伴支持我们落地尝试,过程也是跌宕起伏,稍有不慎就满盘皆输。
回到主题,
AI Agent落地效果不佳,既有大家对Agent的预期过高,也有从业者对生产资料的分配权力预期过低,还有产业与技术适配的时间问题等等。
最后,
今年是爆发年,通用意义的1万小时定律被打破,大多数事情做到80分位只需要低成本模型就可以实现,剩下那20分位的事情变得巨巨巨巨值钱。
80分位的事儿,都是巨头的射程之内,除非特别有组织资本的能力,否则不要做。80分位的事情,先不说能不能竞争的过巨头,与巨头竞争都是在浪费社会有限的资源。
内行是要摘明珠的,每个领域巨头没有解决好的最有价值的20分位的事都值得重做一遍,不要在垃圾堆里找金子,20分位的事情要3倍效率切入,10倍效率才有规模性,千万别提升几个百分点就沾沾自喜。只要你在做那最好的20分位,相信过去的一两年你已经尝到了甜头。
兄弟们,共勉。人生有一次赶上AI的浪潮就何其幸甚了,觉得每过去一秒都在浪费时间。 驱动Agent的是大模型,因此Agent也会继承大模型的“先天不足”。
主流的Agent是在大模型的基础上做了一层封装,给了一部分权限和工具,更高级一点的还能外挂一个记忆存储。但这种“缺啥给装啥”的逻辑不是在拟人,更像是弗兰肯斯坦那样的缝合怪。
https://blog.gopenai.com/introduction-to-llm-agents-how-to-build-a-simple-reasoning-and-acting-agent-from-scratch-part-1-843e14686be7
而缝合怪是无法像一个普通人一样融入社会的。你就看大模型驱动的Agent在这四点上是不是和普通人有明确的差异:
[*]跨场景多模态长期记忆(记忆以多种形式存储,并且不限于单次对话)
[*]原生全模态数据输入(视觉、听觉、嗅觉、触觉、味觉)和输出(文字、音频、图像、视频)
[*]连贯的多角色模式(普通人的生活里不是只扮演一个角色)
[*]交互和学习不分离,智能水平可以随着外界环境变化(适应新环境,经验迁移等等)
这四个差异意味着现有的大语言模型驱动的智能代理不是一个在时间上连贯存在的个体。它有知识截止时间,在此时间之后的信息需要用RAG的方式来解决,而无法整合到它的智能中去。就像你用DeepSeek开了联网检索,并不意味着检索完成后这些信息就进入大模型里了。同样的,你去让大模型比较数字大小,并不是说你纠正一次大模型就能真正修正这个问题,因为大模型的交互和学习两种行为是分离的。
这就是吃一堑,但大模型并不长一智。长一智的是开发人员,他们会通过修改Agent内部的工作流程来试图优化相应的问题。可是上述四个差异是无法在Agent层面去优化的,你只能祈祷下一阶段的大模型知识更全面更新,支持的模态更多样,思考方式和时间都更有效。
我其实感觉智能代理目前的发展方向可能是奔着美剧《人生切割术》去的。这部美剧里有很多元素真的和现在的智能代理非常雷同,只不过主角换成了人类。
https://movie.douban.com/photos/photo/2870952920/
全剧的设定是未来有一种手术可以分离人的记忆,使得工作和生活的记忆隔离,互不干扰。
然后公司会给员工灌输人的4大元素/脾气和9大核心准则,和现在对大模型搞的价值观安全对齐很接近。
更牛批的是入职公司的5个问题:
a)你是谁/叫什么名字?(自我认知)
b)来自哪里?(背景)
c)随便说出美国一个州?(常识)
d)伊根最爱的早餐是什么?(上下文短期记忆)
e)母亲眼睛的颜色?(隐私)这个不就是用户最爱测试大模型的问题类型嘛。
综上,如果你期待智能代理能达到近似人的效果那恐怕会有点困难,因为它先天就和人类的认知学习方式是两个路数…… 很简单啊,AI Agent 就是被资本炒起来的伪概念而已,它的名字应该叫 AI Workflow,或者你理解为智能 SaaS 也可以。
目前落地比较好的,都是 AI Workflow,比如编程、法务、审计、工业自动化这些标准化的场景。
但 Workflow 可没有那么高的估值,甚至一堆 SaaS 公司都快死了,哪儿有 AI Agent 听起来性感。
其实在技术上,Agent 特别鸡肋,它的能力边界取决于基础模型本身,如果基础模型没有突破,那 Agent 作用也有限,但哪天真的突破了,大家就不需要这东西了。
至于在商业上,Agent 更是死路一条,如今 SaaS 市场已经内卷到了极致,几乎都是堆人驻场的定制化需求,收费贴着成本来,你一个没啥护城河的智能化产品,又有多少利润空间呢?
唯一的出路,就是把某个垂直领域(比如医疗)做的特别深,深到别人一进来就掉下去摔死,然后守着一亩三分田过日子,上市就不用想了(因为没啥想象空间),养活一个公司还是可以的。
不过这条路也特别难走。
首先,你需要对行业需求特别清晰,只有在一线干过多年的专家,才能深入对方的业务,提出真正有效果的解决方案,其次,你要有强大的销售能力,可以搞定政府关系,大客户关系,懂得各行业规则和潜规则,最后,这种商业模式的账期特别漫长,需要有足够的资金来支撑。
这种苦逼活就不是创业公司能干的,都是行业内的专家带着资源出来做。
最好的方式,就是疯狂营销,烧钱买客户做出漂亮数据,然后卖掉,你看 Manus 思路就很清晰。
所以说,科技以起名为本,营销为先,至于苦逼兮兮干实事的同学,赶紧换赛道吧。
————
顺便吐个槽,如今的 AI Agent,交互思路还是移动互联网时代的,让用户自己去发任务,自己去琢磨提示词,太原始了。
真正的 Agent,应该主动帮助用户发现需求,提供建议,随时给用户反馈。
比如,通过眼镜来捕捉用户的眼球动态,理解他所看到的世界,通过麦克来倾听用户的对话,理解他所听到的信息,然后通过手机上传到云端大模型,分析用户可能面临的各种问题,最后通过耳麦给用户提供建议。
让用户随身携带一个智能助理。
这些需求不需要很专业,都是一般性的生活化场景,比如教用户约会时怎么说话,和老板对话怎么问答得体,工作时怎么婉拒不合理的要求,对话翻译,出行指南,或者遇到危险,比如做饭忘记关火时出声提醒,等等。
其实这些需求都真实存在,只是用户平时只能自己去搜索答案,真到用时又想不起来了,而 Agent 的价值在于主动介入,随时随地帮助用户做出更好的选择。
这些场景也不要求很高的准确率,现有多模态大模型能力足以胜任。
除此之外,收集到的大量个人数据(当然要签隐私协议),还可以用于下一代产品的训练,甚至是具身智能机器人的训练。
商业上,基础版免费,搭载智能硬件出售,每天 8 小时服务,进阶版月费,24 小时全天候服务。只要能做泛化任务,不愁用户粘性。
怎样,这个饼画的不错吧?拿这个去给资本市场讲故事,不比 AI Workflow 强多了?
真能融到钱,记得请我做顾问。
页:
[1]