2025年大模型LLM还有哪些可研究的方向?

2025年大模型LLM还有哪些可研究的方向?
收藏者
0
被浏览
122

5 个回答

八部九狸 LV

发表于 5 天前

工业界:
multimodal
reasoning
SFT/PEFT
RL
agent
RAG

学术界:
interpretability
safety

固执的蛮牛 LV

发表于 5 天前

抛砖引玉一下。我觉得现在其实很多原理上的问题甚至都还没解决,例如,llm数strawberry的r,乍看起来好像很自然,但tokenizer切分subword可从没向llm暴露subword的组成,那么llm是从哪些数据或者哪些模式学到这个token包含多少个某字母呢?类似的,现在的llm可以写押韵的歌词,tokenizer可从没暴露这个token的发音,这又是llm从哪些数据学到的呢?如果真的用sae等工具分析,似乎总能得到一些惊世骇俗的结论,例如和圣经的激活模式相关——但考虑到sae常常建立伪相关性,这似乎又不太可信——哪怕真的都怪某些特定文本的训练数据,那么为什么会产生这一效果呢?
类似的,大家如果关注过llm的attn模式,会很快发现llm对分隔符有非常大的attn score,这引出了如今attn sink/massive attn一系列工作,但是还原论的视角来看,分隔符真的这么重要吗,llm高度关注分隔符时究竟在干什么?
还有非常多的未解之谜,我很难想象在深度理解这些问题前能有办法设计突破性的meta-learning 层技术。当然,在不同的抽象层上仍然有许多能做,例如更深一层做infra,或更低一层做agent,但是未解之谜总是吸引人们的好奇心。

你不认识我吗 LV

发表于 5 天前

我认为下个阶段最重要的应该是agent了。待发现的scaling(可能根本没有),agent RL今年肯定爆。
基础的LLM架构基本没啥,mamba已经凉了,RWKV感觉没那么好,短时间我估计没人拿他们做工业级的LLM。谷歌的Titan可能会很强,但是我没跑过,不清楚,但是有点看好,就算这个架构不行,优化记忆也是势在必行的了。其他的一些小方向,轻量化永远在路上,MoE有用但是可能不好水论文。至于老生常谈的解释性、安全性,也是永远都有可研(水)究(文)的。
多模态大模型,近年最好水论文的方向,明年感觉模态融合会越来越多越来越水。当然,绝对不否认的是这个方向很有用,水的意思只是相对不需要坚实的理论基础和代码能力。
LLM推理可能要学术界和工业界各玩各的了,顶会一众水文工业界没人理,实际好用的算法就那么多,不过这个方向还是很值得研究的,个人感觉,难度也不小。

晓甘泉GPTs LV

发表于 5 天前

一:长期记忆
Titans: Learning to Memorize at Test Time
重量级方向,落地直接替换绝大多数人的工作
二:思维链由token改为vector
Training Large Language Models to Reason in a Continuous Latent Space
CoT优化方案,提升推理能力
三:模拟计算芯片
mythic.ai大幅降低推理端成本

沪漂小程序员 LV

发表于 5 天前

大佬们已经给指明了方向
https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-1
LLM Research Papers: The 2024 List

您需要登录后才可以回帖 登录 | 立即注册