自然语言处理怎么最快入门？

最好是方法与教程

发表于 2025-4-15 14:44:11

我入门NLP大概用了一学期也就是4个月
首先所有的基础至少得会Python，别说用C或者Java，那样的话你肯定也不是入门阶段
最好有较好的数学基础（微积分线性代数概率论），有助于学习理解而不是成为调包侠
不过如果数学基础不好也别灰心，可以边入门边补数学知识，学到哪遇到对应数学知识针对学习
当然这会出现一些问题，但毕竟我回答的是NLP最快入门
不过如果想更长远的发展，有时间我建议系统学习这三门数学课。

个人认为最快学习模式是看书+遇到问题Google，不喜欢一开始看视频，节奏很慢
<hr/>一开始我也焦头烂额，太多tutorial了，太多技术路线，并且也买了很多书（现在大部分没有看）
一开始花了很多时间在机器学习上，结果其实后面发现大部分没有直接用处

ps: 不是说机器学习没有用处，而是现在很多自然语言处理顶层任务都是用DL的东西在做，想更快入门可以先不花太多时间在这上面。

所以我觉得最快的入门路线是少量机器学习基础+部分深度学习（RNN LSTM Transformer Attention）
<hr/>Step 0 了解一下自然语言处理的任务

自然语言处理其实主要分为两大任务

自然语言理解（NLU）：

让计算机能具备一定理解自然语言的能力，比如：

阅读理解
机器翻译

ps: 之前参加的Machine Translation的比赛，挺好玩的，还取得不错成绩～

......

2. 自然语言生成（NLG）：
让计算机有一定创造力，比如：

写诗机器人：让机器人写一首好诗
写作文机器人：

ps: 之前我做过的一个基于TransformerXL的写作文机器人，有趣的项目，效果也很好～

......

研究对象就是 从词到句到文
顶层任务一般为：

机器翻译
文本摘要
问答系统
对话系统
语音识别
阅读理解
看图说话

<hr/> Step 1 机器学习+深度学习快速入门

在这里推荐一个复旦大学邱老师的开源书《神经网络与深度学习》豆瓣 9.4
nndl/nndl.github.io基本上看了这本书，就涵盖了上面我说的少量机器学习基础和深度学习
<hr/> Step 2 自然语言处理核心技术学习

配合 HanLP作者何老师的《自然语言处理入门》，了解一下自然语言处理的核心技术，基本上路了

当然后续学习这本书肯定不够的，这里有更多相关书籍推荐：
NLPer：机器学习、深度学习、自然语言处理推荐书目<hr/>Step 3 深度学习框架学习

然后开始动手实践，学习Pytorch，推荐《动手学习深度学习》Pytorch 版
https://github.com/ShusenTang/Dive-into-DL-PyTorch

ps: 在GitHub上动手实现深度学习也有TensorFlow版的

<hr/>Step 4 实战

学习一些顶层任务的工作流：机器翻译对话机器人图说模型....
NLPer：如何实现聊天机器人？ChatBot技术栈比如我写的这个ChatBot Flow，实现一些顶层任务，参加一些比赛 Kaggle 天池之类的
然后可以试着慢慢去阅读一些经典的论文，推荐一个强大的AI的论文网站
NLPer：分享一个实验室用的人工智能论文阅读网站：涵盖AI各方向经典以及最新的论文养成读paper的习惯，差不多上道了

坐在滴滴上码的字，码字不易，别只收藏不点赞哦～
ps：我主要研究自然语言处理，同时也是个全栈玩家，另外爬虫方面也有比较多的经验
正在做聊天机器人相关的研究，对NLP、CS感兴趣的可以关注一下我哦，我们一起进步～

发表于 2025-4-15 14:57:14

GitHub上出现了一套NLP课程，目前已经获得了2200多颗星。
课程为期13周，从文本嵌入分类开始，讲到Seq2Seq，再到机器翻译、对话系统、对抗学习等等，内容丰富。入门选手可以考虑。
每周的课程，除了课堂视频之外，还有讨论课，大家可以 (用英文) 提问。已经讲完的课程带有视频和Python笔记，另外还有课后作业笔记。
现在，还差第12、13周，就要完结了。

满满的13周

课程大纲如下：
第1周：文字嵌入

讲座：介绍文字嵌入、分布式语义、LSA、Word2Vec、GloVe的用法和使用场景。
讨论：单词和句子嵌入。
第2周：文本分类

讲座：文本分类。
文本表示的经典方法：BOW，TF-IDF。
神经方法：嵌入，卷积，RNN。
讨论课：卷积神经网络的薪酬预测; 解释网络预测。
第3周：语言模型

讲座：语言模型，N-gram和神经方法; 可视化训练的模型。
讨论课：使用语言模型生成ArXiv论文。
第4周：Seq2seq/注意力机制

讲座：
Seq2seq：编码器 - 解码器框架。
Attention：Bahdanau模型。
讨论课：酒店和宿舍描述的机器翻译。
第5周：结构化学习

讲座：结构化学习 (Structured Learning) ，结构化感知器，结构化预测，RL基础知识。
讨论课：POS标签。
第6周：最大期望算法 (EM)

讲座：期望最大化和单词对齐模型。
讨论课：实现期望最大化。
第7周：机器翻译

讲座：机器翻译，回顾PBMT的主要思想，过去3年NMT开发的应用程序特定思想以及该领域的一些开放性问题。
讨论课：学生演讲。
第8周：迁移学习与多任务学习

讲座：网络学习的内容和原因：“模型”永远不仅仅是“模型”！NLP中的多任务学习，如何理解，模型表示包含哪些信息。
讨论课：通过与其他任务共同学习，提高指定实体的认可度
第9周：域适应 (Domain Adaptation)

讲座：一般理论。示例加权 (Instance Weighting) 。代理标签(Proxy-Labels) 方法。特征匹配 (Feature Matching) 方法。类蒸馏 (Distillation-Like) 方法。
讨论：让通用的机翻模型去适应特定的领域。
第10周：对话系统

任务导向的对话系统 vs 一般对话系统 (Task-Oriented vs General) 。任务导向系统的框架概述。一般对话：检索与生成是两种方法。针对一般对话的生成模型；针对一般对话的基于检索的模型。
讨论课：基于检索的简单问答。
第11周：对抗学习与潜变量

讲座：先复习生成模型。后面讲生成对抗模型 (GAN) ，以及变分自编码器 (VAE) ，以及这些东西为何重要。
第12-13周

TBA。等等，等等就会更新的。
作者团

这份NLP教程一共有5位作者，其中一作小姐姐Elena Voita是俄罗斯AI公司Yandex的研究员，专供NLP、机器翻译方向，今年还发了一篇关于文本识别和机器翻译的ACL论文。
Elena Voita目前在阿姆斯特丹大学读机器学习、NLP方向的博士，同时还是爱丁堡大学访问博士。
传送门

GitHub：
https://github.com/yandexdataschool/nlp_course
Jupyter：
https://mybinder.org/v2/gh/yandexdataschool/nlp_course/master
— 完 —
欢迎大家关注我们的知乎号：量子位

发表于 2025-4-15 15:05:50

谢邀。
针对这个问题，我们邀请了微软亚洲研究院首席研究员周明博士为大家解答。

周明博士于2016年12月当选为全球计算语言学和自然语言处理研究领域最具影响力的学术组织——计算语言学协会（ACL， Association for Computational Linguistics）的新一届候任主席。此外，他还是中国计算机学会中文信息技术专委会主任、中国中文信息学会常务理事、哈工大、天津大学、南开大学、山东大学等多所学校博士导师。他1985年毕业于重庆大学，1991年获哈工大博士学位。1991-1993年清华大学博士后，随后留校任副教授。1996-1999访问日本高电社公司主持中日机器翻译研究。他是中国第一个中英翻译系统、日本最有名的中日机器翻译产品J-北京的发明人。1999年加入微软研究院并随后负责自然语言研究组，主持研制了微软输入法、对联、英库词典、中英翻译等著名系统。近年来与微软产品组合作开发了小冰(中国)、Rinna（日本）等聊天机器人系统。他发表了100余篇重要会议和期刊论文。拥有国际发明专利40余项。

————这里是正式回答的分割线————

自然语言处理（简称NLP），是研究计算机处理人类语言的一门技术，包括：
1.句法语义分析：对于给定的句子，进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。
2.信息抽取：从给定文本中抽取重要的信息，比如，时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。
3.文本挖掘（或者文本数据挖掘）：包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
4.机器翻译：把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同，可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法，再到今天的基于神经网络（编码-解码）的方法，逐渐形成了一套比较严谨的方法体系。
5.信息检索：对大规模的文档进行索引。可简单对文档中的词汇，赋之以不同的权重来建立索引，也可利用1，2，3的技术来建立更加深层的索引。在查询的时候，对输入的查询表达式比如一个检索词或者一个句子进行分析，然后在索引里面查找匹配的候选文档，再根据一个排序机制把候选文档排序，最后输出排序得分最高的文档。
6.问答系统：对一个自然语言表达的问题，由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析，包括实体链接、关系识别，形成逻辑表达式，然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
7.对话系统：系统通过一系列的对话，跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外，为了体现上下文相关，要具备多轮对话能力。同时，为了体现个性化，要开发用户画像以及基于用户画像的个性化回复。
随着深度学习在图像识别、语音识别领域的大放异彩，人们对深度学习在NLP的价值也寄予厚望。再加上AlphaGo的成功，人工智能的研究和应用变得炙手可热。自然语言处理作为人工智能领域的认知智能，成为目前大家关注的焦点。很多研究生都在进入自然语言领域，寄望未来在人工智能方向大展身手。但是，大家常常遇到一些问题。俗话说，万事开头难。如果第一件事情成功了，学生就能建立信心，找到窍门，今后越做越好。否则，也可能就灰心丧气，甚至离开这个领域。这里针对给出我个人的建议，希望我的这些粗浅观点能够引起大家更深层次的讨论。
建议1：如何在NLP领域快速学会第一个技能？
我的建议是：找到一个开源项目，比如机器翻译或者深度学习的项目。理解开源项目的任务，编译通过该项目发布的示范程序，得到与项目示范程序一致的结果。然后再深入理解开源项目示范程序的算法。自己编程实现一下这个示范程序的算法。再按照项目提供的标准测试集测试自己实现的程序。如果输出的结果与项目中出现的结果不一致，就要仔细查验自己的程序，反复修改，直到结果与示范程序基本一致。如果还是不行，就大胆给项目的作者写信请教。在此基础上，再看看自己能否进一步完善算法或者实现，取得比示范程序更好的结果。
建议2：如何选择第一个好题目？
工程型研究生，选题很多都是老师给定的。需要采取比较实用的方法，扎扎实实地动手实现。可能不需要多少理论创新，但是需要较强的实现能力和综合创新能力。而学术型研究生需要取得一流的研究成果，因此选题需要有一定的创新。我这里给出如下的几点建议。

先找到自己喜欢的研究领域。你找到一本最近的ACL会议论文集, 从中找到一个你比较喜欢的领域。在选题的时候，多注意选择蓝海的领域。这是因为蓝海的领域，相对比较新，容易出成果。
充分调研这个领域目前的发展状况。包括如下几个方面的调研：方法方面，是否有一套比较清晰的数学体系和机器学习体系；数据方面，有没有一个大家公认的标准训练集和测试集；研究团队，是否有著名团队和人士参加。如果以上几个方面的调研结论不是太清晰，作为初学者可能不要轻易进入。
在确认进入一个领域之后，按照建议一所述，需要找到本领域的开源项目或者工具，仔细研究一遍现有的主要流派和方法，先入门。
反复阅读本领域最新发表的文章，多阅读本领域牛人发表的文章。在深入了解已有工作的基础上，探讨还有没有一些地方可以推翻、改进、综合、迁移。注意做实验的时候，不要贪多，每次实验只需要验证一个想法。每次实验之后，必须要进行分析存在的错误，找出原因。
对成功的实验，进一步探讨如何改进算法。注意实验数据必须是业界公认的数据。
与已有的算法进行比较，体会能够得出比较一般性的结论。如果有，则去写一篇文章，否则，应该换一个新的选题。

建议3：如何写出第一篇论文？

接上一个问题，如果想法不错，且被实验所证明，就可开始写第一篇论文了。
确定论文的题目。在定题目的时候，一般不要“…系统”、“…研究与实践”，要避免太长的题目，因为不好体现要点。题目要具体，有深度，突出算法。
写论文摘要。要突出本文针对什么重要问题，提出了什么方法，跟已有工作相比，具有什么优势。实验结果表明，达到了什么水准，解决了什么问题。
写引言。首先讲出本项工作的背景，这个问题的定义，它具有什么重要性。然后介绍对这个问题，现有的方法是什么，有什么优点。但是（注意但是）现有的方法仍然有很多缺陷或者挑战。比如（注意比如），有什么问题。本文针对这个问题，受什么方法（谁的工作）之启发，提出了什么新的方法并做了如下几个方面的研究。然后对每个方面分门别类加以叙述，最后说明实验的结论。再说本文有几条贡献，一般写三条足矣。然后说说文章的章节组织，以及本文的重点。有的时候东西太多，篇幅有限，只能介绍最重要的部分，不需要面面俱到。
相关工作。对相关工作做一个梳理，按照流派划分，对主要的最多三个流派做一个简单介绍。介绍其原理，然后说明其局限性。
然后可设立两个章节介绍自己的工作。第一个章节是算法描述。包括问题定义，数学符号，算法描述。文章的主要公式基本都在这里。有时候要给出简明的推导过程。如果借鉴了别人的理论和算法，要给出清晰的引文信息。在此基础上，由于一般是基于机器学习或者深度学习的方法，要介绍你的模型训练方法和解码方法。第二章就是实验环节。一般要给出实验的目的，要检验什么，实验的方法，数据从哪里来，多大规模。最好数据是用公开评测数据，便于别人重复你的工作。然后对每个实验给出所需的技术参数，并报告实验结果。同时为了与已有工作比较，需要引用已有工作的结果，必要的时候需要重现重要的工作并报告结果。用实验数据说话，说明你比人家的方法要好。要对实验结果好好分析你的工作与别人的工作的不同及各自利弊，并说明其原因。对于目前尚不太好的地方，要分析问题之所在，并将其列为未来的工作。
结论。对本文的贡献再一次总结。既要从理论、方法上加以总结和提炼，也要说明在实验上的贡献和结论。所做的结论，要让读者感到信服，同时指出未来的研究方向。
参考文献。给出所有重要相关工作的论文。记住，漏掉了一篇重要的参考文献（或者牛人的工作），基本上就没有被录取的希望了。
写完第一稿，然后就是再改三遍。
把文章交给同一个项目组的人士，请他们从算法新颖度、创新性和实验规模和结论方面，以挑剔的眼光，审核你的文章。自己针对薄弱环节，进一步改进，重点加强算法深度和工作创新性。
然后请不同项目组的人士审阅。如果他们看不明白，说明文章的可读性不够。你需要修改篇章结构、进行文字润色，增加文章可读性。
如投ACL等国际会议，最好再请英文专业或者母语人士提炼文字。

————这里是回答结束的分割线————

感谢大家的阅读。
本帐号为微软亚洲研究院的官方知乎帐号。本帐号立足于计算机领域，特别是人工智能相关的前沿研究，旨在为人工智能的相关研究提供范例，从专业的角度促进公众对人工智能的理解，并为研究人员提供讨论和参与的开放平台，从而共建计算机领域的未来。
微软亚洲研究院的每一位专家都是我们的智囊团，你在这个帐号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”，让我们在分享中共同进步。

发表于 2025-4-15 15:19:40

曾经写过一篇小文，
初学者如何查阅自然语言处理（NLP）领域学术资料_zibuyu_新浪博客，也许可以供你参考。
昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文，这让我想起自己刚读研究生时茫然四顾的情形：看着学长们高谈阔论领域动态，却不知如何入门。经过研究生几年的耳濡目染，现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑，与其只告诉一个人知道，不如将这些Folk Knowledge写下来，来减少更多人的麻烦吧。当然，这个总结不过是一家之谈，只盼有人能从中获得一点点益处，受个人认知所限，难免挂一漏万，还望大家海涵指正。

1. 国际学术组织、学术会议与学术论文
自然语言处理（natural language processing，NLP）在很大程度上与计算语言学（computational linguistics，CL）重合。与其他计算机学科类似，NLP/CL有一个属于自己的最权威的国际专业学会，叫做The Association for Computational Linguistics（ACL，URL：ACL Home Page），这个协会主办了NLP/CL领域最权威的国际会议，即ACL年会，ACL学会还会在北美和欧洲召开分年会，分别称为NAACL和EACL。除此之外，ACL学会下设多个特殊兴趣小组（special interest groups，SIGs），聚集了NLP/CL不同子领域的学者，性质类似一个大学校园的兴趣社团。其中比较有名的诸如SIGDAT（Linguistic data and corpus-based approaches to NLP）、SIGNLL（Natural Language Learning）等。这些SIGs也会召开一些国际学术会议，其中比较有名的就是SIGDAT组织的EMNLP（Conference on Empirical Methods on Natural Language Processing）和SIGNLL组织的CoNLL（Conference on Natural Language Learning）。此外还有一个International Committee on Computational Linguistics的老牌NLP/CL学术组织，它每两年组织一个称为International Conference on Computational Linguistics (COLING)的国际会议，也是NLP/CL的重要学术会议。NLP/CL的主要学术论文就分布在这些会议上。
作为NLP/CL领域的学者最大的幸福在于，ACL学会网站建立了称作ACL Anthology的页面（URL：ACL Anthology），支持该领域绝大部分国际学术会议论文的免费下载，甚至包含了其他组织主办的学术会议，例如COLING、IJCNLP等，并支持基于Google的全文检索功能，可谓一站在手，NLP论文我有。由于这个论文集合非常庞大，并且可以开放获取，很多学者也基于它开展研究，提供了更丰富的检索支持，具体入口可以参考ACL Anthology页面上方搜索框右侧的不同检索按钮。
与大部分计算机学科类似，由于技术发展迅速，NLP/CL领域更重视发表学术会议论文，原因是发表周期短，并可以通过会议进行交流。当然NLP/CL也有自己的旗舰学术期刊，发表过很多经典学术论文，那就是Computational Linguistics（URL：MIT Press Journals）。该期刊每期只有几篇文章，平均质量高于会议论文，时间允许的话值得及时追踪。此外，ACL学会为了提高学术影响力，也刚刚创办了Transactions of ACL（TACL，URL：Transactions of the Association for Computational Linguistics (ISSN: 2307-387X)），值得关注。值得一提的是这两份期刊也都是开放获取的。此外也有一些与NLP/CL有关的期刊，如ACM Transactions on Speech and Language Processing，ACM Transactions on Asian Language Information Processing，Journal of Quantitative Linguistics等等。
根据Google Scholar Metrics 2013年对NLP/CL学术期刊和会议的评价，ACL、EMNLP、NAACL、COLING、LREC、Computational Linguistics位于前5位，基本反映了本领域学者的关注程度。
NLP/CL作为交叉学科，其相关领域也值得关注。主要包括以下几个方面：（1）信息检索和数据挖掘领域。相关学术会议主要由美国计算机学会（ACM）主办，包括SIGIR、WWW、WSDM等；（2）人工智能领域。相关学术会议主要包括AAAI和IJCAI等，相关学术期刊主要包括Artificial Intelligence和Journal of AI Research；（3）机器学习领域，相关学术会议主要包括ICML，NIPS，AISTATS，UAI等，相关学术期刊主要包括Journal of Machine Learning Research（JMLR）和Machine Learning（ML）等。例如最近兴起的knowledge graph研究论文，就有相当一部分发表在人工智能和信息检索领域的会议和期刊上。实际上国内计算机学会（CCF）制定了“中国计算机学会推荐国际学术会议和期刊目录”（CCF推荐排名），通过这个列表，可以迅速了解每个领域的主要期刊与学术会议。
最后，值得一提的是，美国Hal Daumé III维护了一个natural language processing的博客（natural language processing blog），经常评论最新学术动态，值得关注。我经常看他关于ACL、NAACL等学术会议的参会感想和对论文的点评，很有启发。另外，ACL学会维护了一个Wiki页面（ACL Wiki），包含了大量NLP/CL的相关信息，如著名研究机构、历届会议录用率，等等，都是居家必备之良品，值得深挖。

2. 国内学术组织、学术会议与学术论文
与国际上相似，国内也有一个与NLP/CL相关的学会，叫做中国中文信息学会（URL：中国中文信息学会）。通过学会的理事名单（中国中文信息学会）基本可以了解国内从事NLP/CL的主要单位和学者。学会每年组织很多学术会议，例如全国计算语言学学术会议（CCL）、全国青年计算语言学研讨会（YCCL）、全国信息检索学术会议（CCIR）、全国机器翻译研讨会（CWMT），等等，是国内NLP/CL学者进行学术交流的重要平台。尤其值得一提的是，全国青年计算语言学研讨会是专门面向国内NLP/CL研究生的学术会议，从组织到审稿都由该领域研究生担任，非常有特色，也是NLP/CL同学们学术交流、快速成长的好去处。值得一提的是，2010年在北京召开的COLING以及2015年即将在北京召开的ACL，学会都是主要承办者，这也一定程度上反映了学会在国内NLP/CL领域的重要地位。此外，计算机学会中文信息技术专委会组织的自然语言处理与中文计算会议（NLP&CC）也是最近崛起的重要学术会议。中文信息学会主编了一份历史悠久的《中文信息学报》，是国内该领域的重要学术期刊，发表过很多篇重量级论文。此外，国内著名的《计算机学报》、《软件学报》等期刊上也经常有NLP/CL论文发表，值得关注。
过去几年，在水木社区BBS上开设的AI、NLP版面曾经是国内NLP/CL领域在线交流讨论的重要平台。这几年随着社会媒体的发展，越来越多学者转战新浪微博，有浓厚的交流氛围。如何找到这些学者呢，一个简单的方法就是在新浪微博搜索的“找人”功能中检索“自然语言处理”、 “计算语言学”、“信息检索”、“机器学习”等字样，马上就能跟过去只在论文中看到名字的老师同学们近距离交流了。还有一种办法，清华大学梁斌开发的“微博寻人”系统（清华大学信息检索组）可以检索每个领域的有影响力人士，因此也可以用来寻找NLP/CL领域的重要学者。值得一提的是，很多在国外任教的老师和求学的同学也活跃在新浪微博上，例如王威廉（Sina Visitor System）、李沐（Sina Visitor System）等，经常爆料业内新闻，值得关注。还有，国内NLP/CL的著名博客是52nlp（我爱自然语言处理），影响力比较大。总之，学术研究既需要苦练内功，也需要与人交流。所谓言者无意、听者有心，也许其他人的一句话就能点醒你苦思良久的问题。无疑，博客微博等提供了很好的交流平台，当然也注意不要沉迷哦。

3. 如何快速了解某个领域研究进展
最后简单说一下快速了解某领域研究进展的经验。你会发现，搜索引擎是查阅文献的重要工具，尤其是谷歌提供的Google Scholar，由于其庞大的索引量，将是我们披荆斩棘的利器。
当需要了解某个领域，如果能找到一篇该领域的最新研究综述，就省劲多了。最方便的方法还是在Google Scholar中搜索“领域名称 + survey / review / tutorial / 综述”来查找。也有一些出版社专门出版各领域的综述文章，例如NOW Publisher出版的Foundations and Trends系列，Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它们发表了很多热门方向的综述，如文档摘要、情感分析和意见挖掘、学习排序、语言模型等。
如果方向太新还没有相关综述，一般还可以查找该方向发表的最新论文，阅读它们的“相关工作”章节，顺着列出的参考文献，就基本能够了解相关研究脉络了。当然，还有很多其他办法，例如去http://videolectures.net上看著名学者在各大学术会议或暑期学校上做的tutorial报告，去直接咨询这个领域的研究者，等等。

发表于 2025-4-15 15:33:35

一定一定要掌握python，其中的一些库 nltk,spacy，尤其是spacy他的速度要远好于我之前用的所有工具。包括迈入deep learning之后的pytorch等等库，都是依赖python的，所以学习python是必不可少的。

推荐《数学之美》，这个书写得特别科普且生动形象，我相信你不会觉得枯燥。这个我极力推荐，我相信科研的真正原因是因为兴趣，而不是因为功利的一些东西。

接下来说，《统计自然语言处理基础》这本书，这书实在是太老了，但是也很经典，看不看随意了。

现在自然语言处理都要靠统计学知识，所以我十分十分推荐《统计学习方法》，李航的。李航老师用自己课余时间7年写的，而且有博士生Review的。自然语言处理和机器学习不同，机器学习依靠的更多是严谨的数学知识以及推倒，去创造一个又一个机器学习算法。而自然语言处理是把那些机器学习大牛们创造出来的东西当Tool使用。所以入门也只是需要涉猎而已，把每个模型原理看看，不一定细致到推倒。
<a data-draft-node="block" data-draft-type="mcn-link-card" data-mcn-id="1269262373313028096">宗成庆老师的统计自然语言处理第二版非常好~《中文信息处理丛书：统计自然语言处理（第2版）》蓝色皮的~~~
然后就是Stanford公开课了，Stanford公开课要求一定的英语水平。| Coursera 我觉得讲的比大量的中国老师好~
举例：
http://www.ark.cs.cmu.edu/LS2/in...
或者
http://www.stanford.edu/class/cs...

如果做工程前先搜索有没有已经做好的工具，不要自己从头来。做学术前也要好好的Survey！

开始推荐工具包：
中文的显然是哈工大开源的那个工具包 LTP (Language Technology Platform) developed by HIT-SCIR(哈尔滨工业大学社会计算与信息检索研究中心).

英文的(python)：

pattern - simpler to get started than NLTK
chardet - character encoding detection
pyenchant - easy access to dictionaries
scikit-learn - has support for text classification
unidecode - because ascii is much easier to deal with

希望可以掌握以下的几个tool：
CRF++
GIZA
Word2Vec

还记得小时候看过的数码宝贝，每个萌萌哒的数码宝贝都会因为主人身上发生的一些事情而获得进化能力，其实在自然语言处理领域我觉得一切也是这样~ 我简单的按照自己的见解总结了每个阶段的特征，以及提高的解决方案
1.幼年体——自然语言处理好屌，我什么都不会但是好想提高
建议。。。去看公开课~去做Kaggle的那个情感分析题。
2.成长期——觉得简单模型太Naive，高大上的才是最好的
这个阶段需要自己动手实现一些高级算法，或者说常用算法，比如LDA，比如SVM，比如逻辑斯蒂回归。并且拥抱Kaggle，知道trick在这个领域的重要性。在预训练模型和Transformer模型有了以后，一定要精通这两个模型，精通到什么程度呢，Bert Base的参数量是怎么得到的要能脱口而出。
3.成熟期——高大上的都不work，通过特征工程加规则才work
大部分人应该都在这个级别吧，包括我自己，我总是想进化，但积累还是不够。觉得高大上的模型都是一些人为了paper写的，真正的土方法才是重剑无锋，大巧不工。在这个阶段，应该就是不断读论文，不断看各种模型变种吧，什么句子相似度计算word2vec cosine已经不再适合你了。

4.完全体——在公开数据集上，把某个高大上的模型做work了~
这类应该只有少数博士可以做到吧，我已经不知道到了这个水平再怎么提高了~是不是只能说不忘初心，方得始终。
5.究极体——参见Micheal Jordan Andrew Ng.
好好锻炼身体，保持更长久的究极体形态

希望可以理解自然语言处理的基本架构~：分词=>词性标注=>Parser

Quora上推荐的NLP的论文（摘自Quora 我过一阵会翻译括号里面的解释）：
Parsing（句法结构分析~语言学知识多，会比较枯燥）

Klein & Manning: &#34;Accurate Unlexicalized Parsing&#34; ( )
Klein & Manning: &#34;Corpus-Based Induction of Syntactic Structure: Models of Dependency and Constituency&#34; (革命性的用非监督学习的方法做了parser)
Nivre &#34;Deterministic Dependency Parsing of English Text&#34; (shows that deterministic parsing actually works quite well)
McDonald et al. &#34;Non-Projective Dependency Parsing using Spanning-Tree Algorithms&#34; (the other main method of dependency parsing, MST parsing)

Machine Translation（机器翻译，如果不做机器翻译就可以跳过了，不过翻译模型在其他领域也有应用）

Knight &#34;A statistical MT tutorial workbook&#34; (easy to understand, use instead of the original Brown paper)
Och &#34;The Alignment-Template Approach to Statistical Machine Translation&#34; (foundations of phrase based systems)
Wu &#34;Inversion Transduction Grammars and the Bilingual Parsing of Parallel Corpora&#34; (arguably the first realistic method for biparsing, which is used in many systems)
Chiang &#34;Hierarchical Phrase-Based Translation&#34; (significantly improves accuracy by allowing for gappy phrases)

Language Modeling (语言模型)

Goodman &#34;A bit of progress in language modeling&#34; (describes just about everything related to n-gram language models 这是一个survey，这个survey写了几乎所有和n-gram有关的东西，包括平滑聚类)
Teh &#34;A Bayesian interpretation of Interpolated Kneser-Ney&#34; (shows how to get state-of-the art accuracy in a Bayesian framework, opening the path for other applications)

Machine Learning for NLP

Sutton & McCallum &#34;An introduction to conditional random fields for relational learning&#34; (CRF实在是在NLP中太好用了！！！！！而且我们大家都知道有很多现成的tool实现这个，而这个就是一个很简单的论文讲述CRF的，不过其实还是蛮数学= =。。。)
Knight &#34;Bayesian Inference with Tears&#34; (explains the general idea of bayesian techniques quite well)
Berg-Kirkpatrick et al. &#34;Painless Unsupervised Learning with Features&#34; (this is from this year and thus a bit of a gamble, but this has the potential to bring the power of discriminative methods to unsupervised learning)

Information Extraction

Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora. COLING 1992. (The very first paper for all the bootstrapping methods for NLP. It is a hypothetical work in a sense that it doesn&#39;t give experimental results, but it influenced it&#39;s followers a lot.)
Collins and Singer. Unsupervised Models for Named Entity Classification. EMNLP 1999. (It applies several variants of co-training like IE methods to NER task and gives the motivation why they did so. Students can learn the logic from this work for writing a good research paper in NLP.)

Computational Semantics

Gildea and Jurafsky. Automatic Labeling of Semantic Roles. Computational Linguistics 2002. (It opened up the trends in NLP for semantic role labeling, followed by several CoNLL shared tasks dedicated for SRL. It shows how linguistics and engineering can collaborate with each other. It has a shorter version in ACL 2000.)
Pantel and Lin. Discovering Word Senses from Text. KDD 2002. (Supervised WSD has been explored a lot in the early 00&#39;s thanks to the senseval workshop, but a few system actually benefits from WSD because manually crafted sense mappings are hard to obtain. These days we see a lot of evidence that unsupervised clustering improves NLP tasks such as NER, parsing, SRL, etc,

其实我相信，大家更感兴趣的是上层的一些应用~而不是如何实现分词，如何实现命名实体识别等等。而且应该大家更对信息检索感兴趣。不过自然语言处理和信息检索还是有所区别的，So~~~我就不在这边写啦
<hr/>

自然语言处理怎么最快入门？

本周热门