agent的狂欢基本已经结束了,不建议继续纯做这个,起码得加点多模态和ml,dl了。
具体可以看看各家公司的agent都到什么水平了,比如网易逆水寒这种,别人已经纯商业赚钱了,你如果不如人家的,大概率还是很难。
今天刚中了nips,也是llm agent的工作。
有需要的话,我可以写一下自己对这方面的经验。
现在llm agent的工作好几类,而我主要是关注游戏方面的,所以有些地方肯定是没写清楚或者有错误,还希望多多包涵。
第一种可以称之为博弈类,或者mallm类。
这类一般是以前做过marl的人转战llm agent,把之前的marl里面的方法拿过来各种套。大部分工作都会在矩阵博弈,overcook这种环境做,主要目标还是涨点啥的。个人不是很喜欢,不过做的人不少,毕竟科研也是工作的一种,能发文章的方向肯定是好方向,只不过找工作这个就不太实际了。
第二种可以称之为游戏类,虽然博弈也叫game,但这里指的还是真正有人玩的游戏,起码得有受众。
这类又可以细分,一类是构建文本化的环境,比如civrealm,llm play sc2(我做的,自卖自夸一下),还有各种兵棋。这类主要考验你对这些游戏的掌握程度,通过各种接口想办法去保证游戏的文本空间的合理映射。
最近安波老师的多模态agent cradle也很火,带领了一波多模态的浪潮,比如现在的黑神话悟空,也有人开始这么做了。
剩下的就是经典的打牌下棋了,这个也有不少,从象棋围棋到掼蛋,大家都做了一遍。
这一类的问题就是,上一波rl大火的时候,能训练的游戏基本都是超越人类的水平了,llm/mlm agent的优势和特点在哪里,这是需要解决的。
第三类可以说是各种具身智能,不过由于现在啥都叫具身智能了,我这里就只讲机器人了。这个领域我不熟悉,也没看过多少工作,但一般有真机的工作要更扎实一点,很多会议也要求有真机的。纯仿真里搞这些,就不大好了。
第四类是模拟类的,比如模拟一个人,模拟一个社会这种。
现在有的工作,比如斯坦福小镇,模拟Twitter,还有模拟选举什么的。其实和游戏类差不多,有的甚至就在游戏里面搞的。我们需要设计合理的机制,做好前后端接口,把一个真实的社会给仿真出来,尽可能让大模型像每一个性格迥异的人。
这里有几个问题很难解决,第一是仿真器怎么做,斯坦福小镇的爆火就是他们可视化做的好,后续大家都在unity里开发了。第二是怎么保证个性化和智力,大模型经过rlhf之后,很难让它细粒度的扮演一个人进行决策,主流的商业模型都会给出一个很中庸的回答,根本没法用。第三是怎么支撑起几百,甚至几百万的agent交互,这个很复杂,方法很多,但花的钱肯定不少。
当然有些人是没有前端渲染的工作,多快好省,这其实不太好,因为这个领域Demo胜过一切,你连一个好看的Demo都没有,别人肯定是不会浪费时间看你的工作。
第五个才是现在最有用的agent,比如客服问答,rag这种,做的人很多,很卷,但是真的能落地赚钱。这方面我完全不熟,希望有人补充。
第六个可以说是tool use之类的工作,比如hugginggpt什么的,现在也很火,该赚钱的已经都在赚钱了,公司也非常看中这个,毕竟这些是真的能提升生产力。
第七个是自动化流水线,比如metagpt写代码,各种生物化学的agent用来合成东西,发现和分析数据啥的。代码类现在吹得很凶,但效果还是很难做好,毕竟严重依赖基础模型。而ai for science这类的,主要靠py和science端的知识,cs的学生肯定是没这品味,也没这兴趣去搞这种(毕竟我就是生物本科,我感觉大部分做ai for science的同学,根本不了解真正的基础研究)。
发现忘记写minecraft了,由于23年做他们的人太多了,特此把他从游戏类提出来单独写一下。
有三类,第一类纯rl,大家以前做的比较多,比如Minecraft有openai做的那个,从视频里学习的。
第二类是纯llm,这个就满天飞了,什么Voyager,ghost in Minecraft,非常多,一般都是技能库,调用代码什么的,相信大家看过很多Demo了。当然最近也有1000个agents的这种,这种其实主要是因为minecraft本身游戏比较好,能支持这么agent进去,有钱加上合理的设计,肯定能做出来。
第三种是llm+rl,有设计reward的,有存储技能书的,也是一大堆,不少都中了顶会。
minecraft竞争过于激烈,不建议大家再搞了,除非你有信心战胜10个清华博士全力开卷的能力。
所以总结一下,大部分的agent领域低垂得果实,都已经被摘完了,22年底到23年的那种随便调调api,编点故事就乱发的美好时代已经过去了。当然对于老师来说,他们往往才开始了解,所以不懂这个竞争 多惨烈,只能看到别人xxx都能发,我们为什么不能。
如果大家想继续做这个方向,那就得想清楚自己擅长什么。大模型的商业化实际上是依赖agent的,没有公司支持的大模型研究,基本都是搞笑的,公司不但会提供商业场景,也会提供资源支持,而高校这种小打小闹,在如今是完全行不通的。
毕竟大模型就是个工程活,不要老觉着自己是在做科研,你和纯数,生化环材的比一下,就知道自己在做啥了。
怎么收藏比点赞还多。
最近准备申博,想去卡多钱多事少能摆能实习的地方(可能在梦里)。
最终毕业后,目标还是工业界,因为能赚钱 ,不想再体验生物那种牛马学术了。如果有合作或者发我实习啥的,可以联系我。
目前是中科院自动化所群体决策智能实验室研三在读,马纬彧。
邮箱:740988193@qq.com
sc2meisah@gmail.com |
|