2025年大模型LLM还有哪些可研究的方向？

发表于 5 天前

工业界：
multimodal
reasoning
SFT/PEFT
RL
agent
RAG

学术界:
interpretability
safety

发表于 5 天前

抛砖引玉一下。我觉得现在其实很多原理上的问题甚至都还没解决，例如，llm数strawberry的r，乍看起来好像很自然，但tokenizer切分subword可从没向llm暴露subword的组成，那么llm是从哪些数据或者哪些模式学到这个token包含多少个某字母呢？类似的，现在的llm可以写押韵的歌词，tokenizer可从没暴露这个token的发音，这又是llm从哪些数据学到的呢？如果真的用sae等工具分析，似乎总能得到一些惊世骇俗的结论，例如和圣经的激活模式相关——但考虑到sae常常建立伪相关性，这似乎又不太可信——哪怕真的都怪某些特定文本的训练数据，那么为什么会产生这一效果呢？
类似的，大家如果关注过llm的attn模式，会很快发现llm对分隔符有非常大的attn score，这引出了如今attn sink/massive attn一系列工作，但是还原论的视角来看，分隔符真的这么重要吗，llm高度关注分隔符时究竟在干什么？
还有非常多的未解之谜，我很难想象在深度理解这些问题前能有办法设计突破性的meta-learning 层技术。当然，在不同的抽象层上仍然有许多能做，例如更深一层做infra，或更低一层做agent，但是未解之谜总是吸引人们的好奇心。

发表于 5 天前

我认为下个阶段最重要的应该是agent了。待发现的scaling（可能根本没有），agent RL今年肯定爆。
基础的LLM架构基本没啥，mamba已经凉了，RWKV感觉没那么好，短时间我估计没人拿他们做工业级的LLM。谷歌的Titan可能会很强，但是我没跑过，不清楚，但是有点看好，就算这个架构不行，优化记忆也是势在必行的了。其他的一些小方向，轻量化永远在路上，MoE有用但是可能不好水论文。至于老生常谈的解释性、安全性，也是永远都有可研（水）究（文）的。
多模态大模型，近年最好水论文的方向，明年感觉模态融合会越来越多越来越水。当然，绝对不否认的是这个方向很有用，水的意思只是相对不需要坚实的理论基础和代码能力。
LLM推理可能要学术界和工业界各玩各的了，顶会一众水文工业界没人理，实际好用的算法就那么多，不过这个方向还是很值得研究的，个人感觉，难度也不小。

发表于 5 天前

一：长期记忆
Titans: Learning to Memorize at Test Time
重量级方向，落地直接替换绝大多数人的工作
二：思维链由token改为vector
Training Large Language Models to Reason in a Continuous Latent Space
CoT优化方案，提升推理能力
三：模拟计算芯片
mythic.ai大幅降低推理端成本

发表于 5 天前

大佬们已经给指明了方向
https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-1
LLM Research Papers: The 2024 List

2025年大模型LLM还有哪些可研究的方向？

本周热门