第一步,通过阅读公众号文章和知乎文章,同时结合LLM课程,了解大型语言模型(LLM)的基本方向、进展和存在的问题。推荐李宏毅老师的中文课程和斯坦福的CS324英文课程。在阅读过程中,寻找自己感兴趣的研究方向,例如LLM的可解释性。
第二步,阅读LLM的英文综述,更全面、严谨地了解该领域的研究现状和方向。推荐阅读“A Survey of Large Language Models”、“A Survey on In-context Learning”以及“Explainability for Large Language Models: A Survey”。
第三步,关注近年的论文,特别是高引用量的论文,重点关注论文结论、实验方法、常用数据集和评估方法。理解并思考结论矛盾的原因。
第四步,寻找开源代码的论文以验证自己的想法,推荐使用huggingface库,因其广泛应用于LLM研究。
不断重复第二步至第四步,深入研究LLM领域。
第一步:看公众号/知乎文章(不用看太多,几篇即可),同时看LLM课程,中文课推荐李宏毅老师-生成式AI,英文课推荐斯坦福-CS324。了解LLM大概有什么方向,目前进展到哪一步,以及有哪些尚未解决的问题。同时看的过程中找自己感兴趣的研究方向,例如我在读文章时发现自己对LLM的可解释性非常感兴趣。推荐:
张俊林:通向AGI之路:大型语言模型(LLM)技术精要
ChatGPT进化的秘密
第二步:看LLM综述(英文)。也是要了解LLM大概有什么方向,目前进展到哪一步,以及有哪些尚未解决的问题。与公众号相比,综述更全面更严谨。先看整体LLM综述,再看自己感兴趣方向的综述。推荐:
A Survey of Large Language Models
A Survey on In-context Learning
Explainability for Large Language Models: A Survey
第三步:看综述里2020年以后的论文,从引用量高的开始看。主要看以下几个方面:a) 论文的结论 b) 论文的实验方法 c) 常用数据集与评估方法。d) 有很多结论矛盾的论文,思考一下原因。看的多了自己就有想法了,感觉哪块不符合直觉就可以开始做实验验证了。我觉得值得读的论文list(边看边更新):GitHub - zepingyu0512/awesome-llm-papers-interpretability: awesome papers in LLM interpretability
第四步:找开源代码的论文,验证自己的想法。用的库最好是huggingface,因为现在LLM几乎都用这个库
不断重复2-4步即可
(写于2024.2.24)