如何系统的入门大模型？

如何系统的入门大模型？

发表于 6 天前

介绍

经过最近几周的反复调研，我终于找到了一个全面的大模型入门教程。这门课程来自Sebastian Raschka的新书Build a Large Language Model (From Scratch)。

这本书是目前全网最完整的讲解大模型技术细节的教程。注意，不是教你如何用大模型，而是如何训练大模型。
在上一期测评04中我们介绍了Andrej的从零训练GPT课程。那是一个快餐式的课程，内容精炼，节奏明快。学完可以对大模型的预训练有个初步的理解。但正如上篇测评中所说，Andrej只介绍了预训练这一步。而预训练模型是没法直接拿来用的，一般需要做指令微调（instruct fine-tune）才能让模型听从用户的要求。
这本书全文大约400页，介绍了从数据处理、模型搭建到预训练、微调的完整流程。作者不遗余力地详细介绍了每个步骤的所有细节，而且提供了精美的插图。对难理解的知识点，作者反复强调，可谓用心良苦。
不过，对广大读者而言，唯一的阻碍是这本书不提供免费版。只接受的白嫖的朋友可以退而求其次，直接看本书附带的GitHub仓库：

GitHub - rasbt/LLMs-from-scratch: Implementing a ChatGPT-like LLM in PyTorch from scratch, step by step

其中包含了每个章节的IPython Notebook，算是原书的简化版，也是精华版。大家可以直接阅读或从Google Colab打开亲自尝试运行。
作者最近也在YouTube上发布了介绍这本书的1小时视频，可以用来快速了解本书的主要内容。
测评

1. 前置知识与适宜人群

这本书比Andrej的视频更适合零基础人群，要说前置知识的话大概只有Python。其它比如PyTorch则在书中提供了完整介绍。读者也无需具备深度学习的基础理论，用到的部分作者自会讲解。
当然，事无巨细的代价是本书很长。原书约400页。当然，直接看GitHub上的IPython Notebook会短一些，但这只适合有一定基础的朋友。如果完全无基础，还是看完整版更好。
2. 优缺点

优点包括

讲解细致入微，所有概念知识点都拆分到最小单元逐个击破，只要认真看一定能读懂。
所有代码提供Google Colab版本。
为了让更多人能上手练习，所有代码都可以在CPU上跑通，而且在较短的时间内可以看到结果。
课程结构清晰，在每一章和每一节的开头，作者都会不厌其烦地介绍当前内容在整个计划中的进度，以免读者迷失。
书中包含大量插图，章节的流程图、神经网络的架构图、注意力机制的详细图解、案例的运行效果等等一应俱全。这些插图可以极大的帮助读者理解文中的概念。
包含大模型微调的内容，包括特定任务的微调和通用的指令微调。这在Andrej的教程中并没有涉及。
作者积极回应GitHub上的Issue和Discussion，社区越来越活跃。

缺点包括

原书收费23.99美元，比较贵。而且这本书是在完稿前就开放订阅了，截止2024.6.21，最后一章的原文尚未发布（但已经发布了所有代码）。
并没有用一个模型把所有内容串起来，在预训练之后，作者选择加载OpenAI官方的GPT2模型，然后在该模型上微调。这主要是由于自己预训练的模型能力太差，很难看出微调的效果。
缺少微调之后与人类偏好对齐的内容，比如常用的RLHF（Reinforcement Learning from Human Feedback）。我询问了作者，他表示这部分内容篇幅过长，超出了本书的长度限制。他会在附录中提供一个简短的介绍，并在时机成熟时单独提供完整课程。

3. 难度

适中。
4. 学习时长和学习建议

阅读全文并实际练习至完全理解预计需要60~80小时。建议读者随时查看GitHub的Discussions，与其他读者互动交流。
5. 总体评分

5.0分。
关于Sebastian Raschka

起初，我只是在网上搜索大模型的教程，反复筛选了许多内容之后才发现这本书。虽然网上讲大模型的教程很多，但几乎都集中于如何使用大模型开发Agent，最多涉及到如何使用LoRA微调。真正讲底层原理的很少，Andrej是其中一个，Sebastian是另一个。
Sebastian虽然没有Andrej那么多光环，但他多年来始终致力于向初学者科普AI知识，迄今已经出版了多部技术畅销书。他还维护着一个专栏，在上面不定期发表高质量文章。从他的文章中可以学到许多AI相关的知识，并看到Sebastian对当今最新技术趋势的解读。
和Andrej一样，他们在不影响主业的情况下还能产出这么多高质量内容，实在令人钦佩。感兴趣的朋友可以保持关注。

发表于 6 天前

AI小编归纳总结

第一步，通过阅读公众号文章和知乎文章，同时结合LLM课程，了解大型语言模型（LLM）的基本方向、进展和存在的问题。推荐李宏毅老师的中文课程和斯坦福的CS324英文课程。在阅读过程中，寻找自己感兴趣的研究方向，例如LLM的可解释性。第二步，阅读LLM的英文综述，更全面、严谨地了解该领域的研究现状和方向。推荐阅读“A Survey of Large Language Models”、“A Survey on In-context Learning”以及“Explainability for Large Language Models: A Survey”。第三步，关注近年的论文，特别是高引用量的论文，重点关注论文结论、实验方法、常用数据集和评估方法。理解并思考结论矛盾的原因。第四步，寻找开源代码的论文以验证自己的想法，推荐使用huggingface库，因其广泛应用于LLM研究。不断重复第二步至第四步，深入研究LLM领域。

第一步：看公众号/知乎文章（不用看太多，几篇即可），同时看LLM课程，中文课推荐李宏毅老师-生成式AI，英文课推荐斯坦福-CS324。了解LLM大概有什么方向，目前进展到哪一步，以及有哪些尚未解决的问题。同时看的过程中找自己感兴趣的研究方向，例如我在读文章时发现自己对LLM的可解释性非常感兴趣。推荐：
张俊林：通向AGI之路：大型语言模型（LLM）技术精要
ChatGPT进化的秘密
第二步：看LLM综述（英文）。也是要了解LLM大概有什么方向，目前进展到哪一步，以及有哪些尚未解决的问题。与公众号相比，综述更全面更严谨。先看整体LLM综述，再看自己感兴趣方向的综述。推荐：
A Survey of Large Language Models
A Survey on In-context Learning
Explainability for Large Language Models: A Survey
第三步：看综述里2020年以后的论文，从引用量高的开始看。主要看以下几个方面：a) 论文的结论 b) 论文的实验方法 c) 常用数据集与评估方法。d) 有很多结论矛盾的论文，思考一下原因。看的多了自己就有想法了，感觉哪块不符合直觉就可以开始做实验验证了。我觉得值得读的论文list（边看边更新）：GitHub - zepingyu0512/awesome-llm-papers-interpretability: awesome papers in LLM interpretability
第四步：找开源代码的论文，验证自己的想法。用的库最好是huggingface，因为现在LLM几乎都用这个库
不断重复2-4步即可
（写于2024.2.24）

发表于 6 天前

本篇回答默认面向对大模型领域感兴趣的程序员。
看一下围绕大模型的应用场景和人才需求：

Prompt工程：基于提示词对大模型的使用，会问问题就行。

基于大模型的应用：在大模型生态之上做业务层产品。AI主播、AINPC、AI小助手。。。之前是会调API就行。现在有了GPTs，连调用API都可以不用了，动动嘴就可以实现应用生成。

私有知识库：给大模型配个“资料袋”——大模型外挂向量数据库/知识图谱。
AI Agent：给大模型“大脑”装上记忆体、手和脚，让它可以作为智能体进行决策和工作。
微调大模型：基于基座大模型的Fine Tuning。
训练大模型：大模型训练，高端赛道的角逐。
因此普通程序员研究大模型，不妨选择从外到内的思路，从套壳应用，再了解部署、微调和训练。
前导篇

Python

Python：AI领域最常用的编程语言。要学会基础语法、数据结构等。Python不难，对于一般程序员来说很容易上手。
向量数据库

随着AI的发展进入新的时代，知识的存储和表示就和向量分不开了。向量这个数学表达，在目前是人与AI交互的中间媒介。向量数据库是一种特殊的数据库，它以多维向量的形式保存信息。让大模型拥有“记忆”，就需要用到向量数据库。

常见的向量数据库包括：Chroma、ES、FAISS、Milvus等，需要了解和会用。
实战篇

LangChain

要将大语言模型的能力开发成产品，就需要LangChain帮忙了。LangChain 是一个 LLM 编程框架，它提供了一套工具、组件和接口，借助LangChain，我们可以更加便利地给大模型这个“大脑”装上记忆和四肢，更轻松地完成基于大模型的应用开发。
比如带有私有知识库的办公助手等AI Agent，都可以借助LangChain来完成。

LangChain主要支持6种组件：

Models：模型，各种类型的模型和模型集成
Prompts：提示，包括提示管理、提示优化和提示序列化
Memory：记忆，用来保存和模型交互时的上下文状态
Indexes：索引，用来结构化文档，以便和模型交互
Chains：链，一系列对各种组件的调用
Agents：代理，决定模型采取哪些行动，执行并且观察流程，直到完成为止

github：https://github.com/hwchase17/langchain
官方文档：Quickstart | ️ Langchain
如果你是Java程序员，这里有Java版：
https://github.com/langchain4j
在本地搭建部署开源模型
从零入门大模型技术，其实还是有点门槛的，硬件资源就是一关。但还是有办法的。
建议选择清华ChatGLM2-6B开源大模型进行本地部署。ChatGLM2-6B 是 ChatGLM-6B 的第二代版本，62亿的参数量的开源中英双语对话模型。
ChatGLM2-6B在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，具有更强大的性能、支持更长的上下文、更强的推理能力的特点，是Poor流选手的福音。
各种尺寸的模型需要消耗的资源：

项目地址：
GitHub - THUDM/ChatGLM2-6B: ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语对话语言模型
HuggingFace：
https://huggingface.co/THUDM/chatglm2-6b
如果嫌自己摸索太麻烦，正好最近有一个知乎知学堂推出的AI大模型免费公开课。
这个课正是为了适应当下AI大模型的发展而推出的，由几位业内大佬主讲，主要面向的就是想系统性学习AI大模型的同学。会带你深度解析此轮AI变革和以往有何根本不同，还能学习大模型相关的Langchain技术，以及如何fine-tune模型等。
重要的是有 AI 大模型学习资源包，以及好用的 AI工具等。感兴趣的可以关注一下 ↓ ↓ ↓
提高篇

机器学习基础
了解分类算法、回归算法、聚类算法、降维算法等经典的机器学习算法；
模型评估：交叉验证、偏差和方差、过拟合和欠拟合、性能指标（准确率、召回率、F1分数等）。
深度学习基础

掌握CNN,RNN等经典网络模型，然后就是绕不开的Transformer。

Transformer是一个引入了 Self-attention 机制的模型，它是大语言模型的基石，支撑着庞大的大语言模型家族。

在代码层面，必须掌握的就是神经网络的框架，主流框架有tenorflow,Pytorch等。
NLP 基础知识

NLP、NLU、NLG的差别；
自然语言处理中的基本任务和相关的应用；
TF-IDF、word2vec、BERT等基本算法和技术；
预训练语言模型：模型的输入、模型的结构、训练的任务、模型的输出；
可以直接从word2vec开始了解，然后到transformer，bert。
了解LLM的3个分支和发展史

根据使用的 Transformer 的方式不同，有3种常见的主流架构：encoder-only，encoder-decoder和decoder-only。
这张图清晰地展示了LLM的3个分支：

encoder-only：BERT
encoder-decoder：T5, GLM-130B, UL2
decoder-only：GPT系列, LLaMA, OPT, PaLM,BLOOM

了解典型 Decoder-only 语言模型的基础结构和简单原理。
深入篇

掌握 Continue Pre-train、Fine-tuning 已有开源模型的能力；
掌握 Lora、QLora 等最小化资源进行高效模型训练的PEFT技术；
掌握强化学习基础；
Alignment与RLHF；
数据处理技术；
压缩模型、推理加速技术；
分布式训练并行技术；
分布式网络通信技术；
生产环境部署大模型的相关技术。

很多人说，大模型赛道不是普通人能玩的。狭义的大模型赛道，是这样，更多的是看运气。但是大模型之上的生态，目前来看是广阔的蓝海。退一万步讲，就是为了提高工作效率自己先用起来，也是个很好的加持。所以积极了解大模型，入股不亏。

发表于 6 天前

斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估。
课程链接：https://web.stanford.edu/class/cs329t/index.html
《开源大模型食用指南》基于AutoDL快速部署开源大模型，更适合中国宝宝的部署教程。
git链接：https://github.com/datawhalechina/self-llm
复旦大学张奇教授团队《大规模语言模型：从理论到实践》，http://intro-llm.github.io，大概有 300 页篇幅，将大模型从理论到实战的每个阶段都描述的较为清楚。
全文在线阅读地址：https://intro-llm.github.io/chapter/LLM-TAP.pdf
西南财经大学&电子科技大学联合编著的教材《自然语言处理：大模型理论与实践》以自然语言处理中语言模型为主线，涵盖了从基础理论到高级应用的全方位内容，逐步引导读者从基础的自然语言处理技术走向大模型的深度学习与实际应用。图书主页和下载链接：《自然语言处理：大模型理论与实践》

发表于 6 天前

从ChatGPT诞生至今，我也陆陆续续也写了不少关于大模型的文章，为了方便查看，均梳理了并放置在Github上面: llm-action
目前该项目已经超过4500星，感谢大家的支持和喜欢（之前发现不少人，拿着这个项目给自己的知识星球引流，大家一定要注意甄别，不要被骗了），后面我也会在该项目持续分享大模型相关的知识和经验，欢迎大家关注。

另外，我创建了大模型学习交流群，供大家一起学习交流大模型相关的最新技术，目前已有5个群，可加我微信进群（加微信请备注来意，如：进大模型学习交流群+知乎）。一定要备注哟，否则不予通过。【点击】加入大模型技术交流群。
项目大体如下所示：
目录

LLM训练
- LLM训练实战
- LLM参数高效微调技术原理综述
- LLM参数高效微调技术实战
- LLM分布式训练并行技术
- 分布式AI框架
- 分布式训练网络通信
LLM推理
- LLM推理框架
- ✈️ LLM推理优化技术
♻️ LLM压缩
- LLM量化
- LLM剪枝
- LLM知识蒸馏
- ♑️ 低秩分解
♍️ LLM算法架构
LLM应用开发
️ LLM国产化适配
AI编译器
AI基础设施
LLMOps
LLM生态相关技术
服务器基础环境安装及常用工具

LLM训练

LLM训练实战

下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B，从全量微调到高效微调（LoRA，QLoRA，P-Tuning v2），再到RLHF（基于人工反馈的强化学习）。

LLM	预训练/SFT/RLHF...	参数	教程	代码
Alpaca	full fine-turning	7B	从0到1复现斯坦福羊驼（Stanford Alpaca 7B）	配套代码
Alpaca(LLaMA)	LoRA	7B~65B	1.足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼 2. 使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理	配套代码
BELLE(LLaMA/Bloom)	full fine-turning	7B	1.基于LLaMA-7B/Bloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化 2. BELLE(LLaMA-7B/Bloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试	N/A
ChatGLM	LoRA	6B	从0到1基于ChatGLM-6B使用LoRA进行参数高效微调	配套代码
ChatGLM	full fine-turning/P-Tuning v2	6B	使用DeepSpeed/P-Tuning v2对ChatGLM-6B进行微调	配套代码
Vicuna(LLaMA)	full fine-turning	7B	大模型也内卷，Vicuna训练及推理指南，效果碾压斯坦福羊驼	N/A
OPT	RLHF	0.1B~66B	1.一键式 RLHF 训练 DeepSpeed Chat（一）：理论篇 2. 一键式 RLHF 训练 DeepSpeed Chat（二）：实践篇	配套代码
MiniGPT-4(LLaMA)	full fine-turning	7B	大杀器，多模态大模型MiniGPT-4入坑指南	N/A
Chinese-LLaMA-Alpaca(LLaMA)	LoRA（预训练+微调）	7B	中文LLaMA&Alpaca大语言模型词表扩充+预训练+指令精调	配套代码
LLaMA	QLoRA	7B/65B	高效微调技术QLoRA实战，基于LLaMA-65B微调仅需48G显存，真香	配套代码

LLM微调技术原理

对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。
因此，该技术值得我们进行深入分析其背后的机理，本系列大体分七篇文章进行讲解。

大模型参数高效微调技术原理综述（一）-背景、参数高效微调简介
大模型参数高效微调技术原理综述（二）-BitFit、Prefix Tuning、Prompt Tuning
大模型参数高效微调技术原理综述（三）-P-Tuning、P-Tuning v2
大模型参数高效微调技术原理综述（四）-Adapter Tuning及其变体
大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA
大模型参数高效微调技术原理综述（六）-MAM Adapter、UniPELT
大模型参数高效微调技术原理综述（七）-最佳实践、总结

LLM微调实战

下面给大家分享大模型参数高效微调技术实战，该系列主要针对 HuggingFace PEFT 框架支持的一些高效微调技术进行讲解。

教程	代码	框架
大模型参数高效微调技术实战（一）-PEFT概述及环境搭建	N/A	HuggingFace PEFT
大模型参数高效微调技术实战（二）-Prompt Tuning	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（三）-P-Tuning	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（四）-Prefix Tuning / P-Tuning v2	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（五）-LoRA	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（六）-IA3	配套代码	HuggingFace PEFT
大模型微调实战（七）-基于LoRA微调多模态大模型	配套代码	HuggingFace PEFT
大模型微调实战（八）-使用INT8/FP4/NF4微调大模型	配套代码	PEFT、bitsandbytes

随着ChatGPT的爆火，大语言模型(LLM)得到了空前的关注。模型需要哪些核心技术，有没有代码实践教程？针对这些问题，推荐大家学习深蓝学院的《生成式预训练语言模型：理论与实战》课程，课程注重理论思想与代码实践相结合，最终带你从0到1制作自己的mini-ChatGPT。
生成式预训练语言模型：理论与实战LLM分布式训练并行技术

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。
而利用AI集群，使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标，一般需要根据硬件资源与数据/模型规模的匹配情况，考虑对计算任务、训练数据和模型进行划分，从而进行分布式训练。因此，分布式训练相关技术值得我们进行深入分析其背后的机理。
下面主要对大模型进行分布式训练的并行技术进行讲解，本系列大体分九篇文章进行讲解。

大模型分布式训练并行技术（一）-概述
大模型分布式训练并行技术（二）-数据并行
大模型分布式训练并行技术（三）-流水线并行
大模型分布式训练并行技术（四）-张量并行
大模型分布式训练并行技术（五）-序列并行
大模型分布式训练并行技术（六）-多维混合并行
大模型分布式训练并行技术（七）-自动并行
大模型分布式训练并行技术（八）-MOE并行
大模型分布式训练并行技术（九）-总结

分布式AI框架

PyTorch
- PyTorch 单机多卡训练
- PyTorch 多机多卡训练

Megatron-LM
- Megatron-LM 单机多卡训练
- Megatron-LM 多机多卡训练
- 基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理
DeepSpeed
- DeepSpeed 单机多卡训练
- DeepSpeed 多机多卡训练

Megatron-DeepSpeed
- 基于 Megatron-DeepSpeed 从 0 到1 完成 LLaMA 预训练
- 基于 Megatron-DeepSpeed 从 0 到1 完成 Bloom 预训练

分布式训练网络通信

待更新...
LLM推理

LLM推理框架

大模型推理框架概述
大模型的好伙伴，浅析推理加速引擎FasterTransformer
模型推理服务化框架Triton保姆式教程（一）：快速入门
模型推理服务化框架Triton保姆式教程（二）：架构解析
模型推理服务化框架Triton保姆式教程（三）：开发实践
TensorRT-LLM保姆级教程（一）-快速入门
TensorRT-LLM保姆级教程（二）-开发实践
TensorRT-LLM保姆级教程（三）-基于Triton完成模型服务化
TensorRT-LLM保姆级教程（四）-新模型适配
TensorRT

LLM推理优化技术

LLM推理优化技术概述
PageAttention
FlashAttention

LLM压缩

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模型压缩主要分为如下几类：

剪枝（Pruning）
知识蒸馏（Knowledge Distillation）
量化

LLM量化

本系列将针对一些常见大模型量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ等）进行讲述。

大模型量化概述
量化感知训练：
- 大模型量化感知训练技术原理：LLM-QAT
- 大模型量化感知微调技术原理：QLoRA
- PEQA

训练后量化：
- 大模型量化技术原理：GPTQ、LLM.int8()
- 大模型量化技术原理：SmoothQuant
- 大模型量化技术原理：AWQ、AutoAWQ
- 大模型量化技术原理：SpQR
- 大模型量化技术原理：ZeroQuant系列
大模型量化技术原理：总结

LLM剪枝

结构化剪枝：

LLM-Pruner

非结构化剪枝：

SparseGPT
LoRAPrune
Wanda

LLM知识蒸馏

大模型知识蒸馏概述

Standard KD:
使学生模型学习教师模型(LLM)所拥有的常见知识，如输出分布和特征信息，这种方法类似于传统的KD。

MINILLM
GKD

EA-based KD:
不仅仅是将LLM的常见知识转移到学生模型中，还涵盖了蒸馏它们独特的涌现能力。具体来说，EA-based KD又分为了上下文学习（ICL）、思维链（CoT）和指令跟随（IF）。
In-Context Learning：

In-Context Learning distillation

Chain-of-Thought：

MT-COT
Fine-tune-CoT
DISCO
SCOTT
SOCRATIC CoT

Instruction Following：

Lion

低秩分解

低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵，从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解，得到两个矩阵U和V，使得W≈U V，其中U是一个m×k矩阵，V是一个k×n矩阵，其中k远小于m和n。U和V的乘积近似于原始的权重矩阵，从而大幅减少了参数数量和计算开销。
在LLM研究的模型压缩领域，研究人员通常将多种技术与低秩分解相结合，包括修剪、量化等。

ZeroQuant-FP（低秩分解+量化）
LoRAPrune（低秩分解+剪枝）

LLM算法架构

大模型算法演进
ChatGLM / ChatGLM2 / ChatGLM3 大模型解析
Bloom 大模型解析
LLaMA / LLaMA2 大模型解析
百川智能开源大模型baichuan-7B技术剖析
百川智能开源大模型baichuan-13B技术剖析

LLM应用开发

大模型是基座，要想让其变成一款产品，我们还需要一些其他相关的技术，比如：向量数据库（Pinecone、Milvus、Vespa、Weaviate），LangChain等。

云原生向量数据库Milvus（一）-简述、系统架构及应用场景
云原生向量数据库Milvus（二）-数据与索引的处理流程、索引类型及Schema
关于大模型驱动的AI智能体Agent的一些思考

LLM国产化适配

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。本系列将对一些国产化 AI 加速卡进行讲解。

大模型国产化适配1-华为昇腾AI全栈软硬件平台总结
大模型国产化适配2-基于昇腾910使用ChatGLM-6B进行模型推理
大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练
大模型国产化适配4-基于昇腾910使用LLaMA-13B进行多机多卡训练
大模型国产化适配5-百度飞浆PaddleNLP大语言模型工具链总结
大模型国产化适配6-基于昇腾910B快速验证ChatGLM3-6B/BaiChuan2-7B模型推理

AI编译器

AI编译器是指将机器学习算法从开发阶段，通过变换和优化算法，使其变成部署状态。

AI编译器技术剖析（一）-概述
AI编译器技术剖析（二）-传统编译器
AI编译器技术剖析（三）-树模型编译工具 Treelite 详解
AI编译器技术剖析（四）-编译器前端
AI编译器技术剖析（五）-编译器后端
AI编译器技术剖析（六）-主流编译框架
AI编译器技术剖析（七）-深度学习模型编译优化
lleaves：使用 LLVM 编译梯度提升决策树将预测速度提升10+倍

框架：

MLIR
XLA
TVM

AI基础设施

AI 集群基础设施 NVMe SSD 详解
AI 集群基础设施 InfiniBand 详解
大模型训练基础设施：算力篇

AI加速卡

AI芯片技术原理剖析（一）：国内外AI芯片概述
AI芯片技术原理剖析（二）：英伟达GPU
AI芯片技术原理剖析（三）：谷歌TPU

AI集群

待更新...
AI集群网络通信

待更新...

分布式训练网络通讯原语
AI 集群通信软硬件

LLMOps

在 Kubernetes 上部署机器学习模型的指南
使用 Kubernetes 部署机器学习模型的优势

LLM生态相关技术

大模型词表扩充必备工具SentencePiece
大模型实践总结
ChatGLM 和 ChatGPT 的技术区别在哪里？
现在为什么那么多人以清华大学的ChatGLM-6B为基座进行试验？
为什么很多新发布的大模型默认使用BF16而不是FP16？
LESS：仅选择5%有影响力的数据优于全量数据集进行目标指令微调

服务器基础环境安装及常用工具

基础环境安装：

英伟达A800加速卡常见软件包安装命令
英伟达H800加速卡常见软件包安装命令
昇腾910加速卡常见软件包安装命令

常用工具：

Linux 常见命令大全
Conda 常用命令大全
Poetry 常用命令大全
Docker 常用命令大全
Docker Dockerfile 指令大全
Kubernetes 常用命令大全
集群环境 GPU 管理和监控工具 DCGM 常用命令大全

如何系统的入门大模型？

AI小编归纳总结

本周热门