什么是大模型？超大模型和 Foundation Model 呢？

大概盘算了一下，一年多来，业界发布了非常多的大模型，从去年OpenAI GPT-3 1750亿参数开始，到年初华为盘古大模型 1000亿，鹏程盘古-α 2000亿参数，Google switch transformer 1.6万亿；及近期的智源悟道2.0 1.75万亿参数 MoE，快手1.9万亿参数推荐精排模型，阿里达摩院M6 1万亿参数等。
很多小伙伴看的是眼花缭乱，那究竟这些模型有没有差异？如果有差异，差异在哪里？
到底什么是大模型？到底大模型有什么用呢？

发表于 5 天前

大模型，毫无疑问，说白了大量数据的承载能力有多强！
AI大模型是指一个庞大复杂的神经网络，需要通过存储更多的参数来增加模型的深度和宽度，从而提高模型的表现能力，参数从百亿起步，对大量数据进行训练并产生高质量的预测结果。最著名的AI大模型是OpenAI的GPT-3模型参数规模达1750 亿，PaLM-E 的参数规模更是达到了 5620 亿
AI大模型的定义具体可以根据参数规模来分类。根据OpenAI的分类方法，可以将AI模型分为以下几类：
小型模型： ≤ 1百万个参数
中型模型：1百万 – 1亿个参数
大型模型：1亿 – 10亿个参数
极大型模型：≥ 10亿个参数

用公式来说，就是“大模型参数量×处理的数据量=计算量”，计算量越大，通用能力越强。
AI大模型的核心是深度学习技术，通过构建大量的神经网络，实现对海量数据的学习和理解。这些数据包括机器人对话数据、非结构化文档、工单数据等，这些数据被纳入训练中进行深度学习，以提升模型的表现和精度。

至于超大模型

Sora是OpenAI使用超大规模视频数据，个人感觉就是一个超大型模型
训练出的一个通用视觉模型，可以理解和模拟运动中的物理世界，生成不同时间、纵横比和分辨率的视频，最大版本的Sora能够生成长达一分钟的高保真视频。
在强大的算力支撑下，Sora用一个全新的方式理解视频、生成视频，这是一个重大突破，但全面商用还有很长的距离。Sora将面临比ChatGPT更高的成本，以及更大的道德、伦理挑战。

作为一个通用的服务，基于几何级数增长的成本压力，Sora生成视频的像素、时长都会受到限制，这使得其应用场景会受到很多限制。

Sora是一个扩散模型，通过给定输入的噪声片段（以及条件信息，如文本提示），它被训练来预测原始的“干净”片段。重要的是，Sora是一个扩散型transformer。transformer 已经在各种领域展示了显著的扩展特性，包括语言建模、计算机视觉和图像生成。
在这项工作中，我们发现扩散型transformer在作为视频模型时也能够有效地扩展。下面，我们展示了随着训练计算增加，固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显著提高。

看，Sora做出的效果就是这么的屌！
但是相对于openAI，差距还是蛮大的。国内没有Sora，对中国AI来说，将会是一个巨大的挑战！作为大模型基础设施与支柱，支持初创企业和千行百业做好精调、优化，避免“重复造轮子”，是非常重要的。我们普通人也要为之出一份力
正好，我建议大家可以看看知乎知学堂开设的「AI解决方案专家」公开课，帮助大家梳理大模型的算法原理，商业化使用，另外还有免费的AI大模型5套Demo资料包，直接可以当作二次开发和学习。点击下面的卡片就可以免费领，大佬能在线答疑，趁着现在还免费，建议IT人都去看看↓↓↓
使用AI大模型的具体步骤：

数据收集：收集和准备海量的数据。
设计模型：设计模型结构和参数。
模型训练：进行模型的训练，进行模型优化。
模型测试：测试训练好的模型，同预期效果进行比对。
模型部署：部署应用
原理解析：
对于单张的图像，AI会根据数据集中图像数据与文本数据建立两者的对应关系，如上图所示的二维矩阵形式。

图像来源：Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

对于视频数据来说，我们知道视频是由一帧帧的图像组成，所以可以将它看作一系列有时空关系的图像，这一系列具有时空关系的图像经过矩阵化编码就得到我们上文提到过的时空片段（spacetime ）

通俗来说，我们可以认为Sora大模型经过训练理解了数据集中视频片段里每一帧图像与文字的对应关系，所以它有能力根据文字生成了一系列的单帧图像，并将图像合成为一个视频片段。其生成原理和我们使用扩散模型生成图像是一致的，不同的是增加了时间维度的感知与认知。
Sora会推动AI生成视频快速规模化，但真正规模商用还需要时间。除成本外，与论文、演讲稿、PPT不同，视频二次加工并不容易
比如：一位魔法大师,sora产生的效果如下：

应用场景：

主要领域：
医疗领域：基于&#39;度学习的AI模型能够通过分析患者的医学影像，辅助医生进行病灶定位和疾病诊断。
媒体写作：帮助我们写文档造文案

金融领域：基于深度学习的AI模型能够通过分析大量的金融数据，预测市场的走势和投资风险，为投资者提供决策参考。
工业领域：例如，基于深度学习的AI模型能够通过分析工业设备的运行数据，预测设备的故障和维护需求，实现设备的智能运维和预防性维护。此外，AI大模型还可以通过模拟和优化设计，辅助工业设计师进行产品设计和创新。
教育领域：AI大模型被广泛应用于个性化教学、智能辅导和智能评估
智慧城市领域：AI大模型被广泛应用于智能交通、智能家居和智慧医疗
目前国内的大模型有哪些？

你用过哪个？
百度文心一言
阿里通义千问
腾讯的混元助手模型
都是国产先行梯队
表现最好的是百度文心一言，虽然和OpenAI有一些差距，但对中文的理解可能是更能做好本土化。
面对大模型，智者不惑，仁者不优，勇者不惧，学习大模型，干就对了！

发表于 5 天前

大模型=基础模型（Foundation Model），模型参数为数亿到数十亿。
超大模型：模型参数更大的大模型，通常有数万亿个参数，因此学习能力更强。
下面从定义、技术背景和应用场景来详细聊聊~

基础模型（Foundation Model，即大模型）

定义

2021年8月，斯坦福大学人类中心人工智能研究所（HAI）发表了一篇研究：On the Opportunities and Risk of Foundation Models，首次提出了Foundation Model的概念：即在多种任务和领域中具有广泛适用性的大型预训练模型。

这些模型之所以被称为“基础”，因为它们可以作为许多下游任务的起点，通过微调或进一步训练来适应特定的应用。如图所示，我们可以理解成大模型（基础模型）是一个地基，给它不同的材料（训练数据），就可以搭建不同的房子（应用于不同的场景）。
此外，就算不进行微调，它也具有广泛适用性，可以执行多项任务。
技术基础

大模型的技术基础主要是深度学习，包括预训练与微调、transformer架构：
1.预训练与微调（Pre-training and Fine-tuning）：
预训练：基础模型首先通过无监督或自监督学习方法，在大规模的数据集上进行预训练。通过与训练，模型能够学习到丰富的特征表示和数据中的潜在结构。
微调：预训练完成后，模型会针对特定的下游任务进行微调，以提高性能；通常在有标注的数据上进行模型训练（监督学习）和模型性能优化。
2.Transformer架构：
基础模型通常是在Transformer架构的基础上构建的。
Transformer最早是Google在2017年的Attention Is All You Need论文中提出，解决了传统的序列到序列（sequence-to-sequence，Seq2Seq）模型在处理可变长序列时遇到的问题。
传统的序列模型（如RNN、LSTM）难以捕捉序列的长距离依赖关系，即序列中相隔较远的元素之间的关联。Transformer通过自注意力机制，使得模型能够直接关注序列中任意两个位置，从而有效地捕捉这种长距离依赖。

上图是Transformer的组成。左半部分是编码器（Encoder），主要作用是将输入数据编码成计算机能理解的高维抽象表示。它的核心是由多个自注意力层和前馈神经网络组成的。
右半部分是解码器（Decoder），主要作用是利用高维表示信息生成目标序列。它的结构与编码器大致相同（注意力层+前馈神经网络），不同的点是采用了掩码注意力层（Masked Attention），且中间部分，利用了Encoder的输出结果计算交叉注意力（Cross Attention）。
（如果想详细了解transformer的原理，可以参考我的这篇知乎回答：
为什么我还是无法理解transformer？)
简而言之，transformer的核心是注意力机制，它解决了传统序列模型处理可变长序列的遗忘问题。且它能进行并行计算，能有效提升计算效率，所以被广泛应用于基础模型中。
应用场景

通过预训练和微调，大模型的应用场景非常丰富，在自然语言处理、音频处理、多模态任务处理等均表现出色。
自然语言理解和生成：在机器翻译、文本摘要、问答系统、聊天机器人等领域，大模型可以生成流畅自然的语言，理解复杂的查询。例如，谷歌推出的BERT-Large模型有3.4亿个参数，它是NLP领域的重要突破。
音频处理：大模型在语音识别、语音合成、语音翻译等任务中也表现出色。例如DeepMind的WaveNet是一个大型的生成模型，用于生成自然的人声。
多模态任务：大模型也可以应用在需同时处理文本和图像的任务中，如图像标注和视频理解。OpenAI的CLIP模型是一个大型的多模态模型，它可以理解图像和对应的文本描述。
如今，大模型具有广阔和丰富的应用场景，初创公司和行业巨头也纷纷投入到这场大模型竞赛中，试图通过开发独具特色的大模型来抢占市场份额。对于个人而言，大模型也能成为生产利器，帮助我们成为AI时代的超级个体。

如果你想跟紧时代前沿，把握AI技术风口和AI最新应用，可以参加知乎知学堂开了2节「AI解决方案公开课」，课程由由业内大佬崔超主讲，他是ICCV顶会论文的核心算法工程师，入选了福布斯中国30岁以下精英榜单；课程会从思路、技术原理、应用场景等角度全方位介绍AI的落地现状、行业内幕等，干货很足，建议想跟紧AI时代前沿、走上AI快车道的小伙伴都看看，链接我放在下面了：
现在课程是免费的，不知道什么时候结束，建议先占个名额～课程关于「多模态」、「大模型」的实际应用、算法原理、未来趋势一定要仔细听，学完你基本上也能清晰了解可落地的AI产品用了什么AI技术，有助于未来的职业发展。

超大模型（Very Large Model）

超大模型和大模型的主要区别在于模型参数的差异：大模型（基础模型）的参数通常在数亿到数十亿参数之间，而超大模型是大模型的扩展，它们通常拥有高达数万亿个参数。这些模型的规模和复杂性带来了更高级的学习能力。
在自然语言处理领域：OpenAI的GPT3.5是一个典型的超大模型，拥有1750亿个参数，它在包括写作、翻译、推理等多种语言任务上展示出了惊人的性能；最新推出的GPT4在更为庞大的训练数据基础上训练，其在生成响应时能够考虑超过 1 万亿个参数。
在音频识别领域：Jukebox是一个能够生成音乐的超大模型，包括旋律、节奏、和声等元素，它可以创作不同风格和艺术家的音乐作品。
在多模态任务上：DALL-E模型是一个超大型的生成模型，它可以根据文本描述生成相应的图像，展示了强大的创造力；GPT-3 with vision模型是一个跨模态的超大模型，它能处理图像输入并生成描述。
研究表明，随着模型的规模（如参数数量、数据量、计算量）增大，其性能通常会随之提高，（即缩放定律，Scaling Laws）；同时模型达到一定的规模时，它会表现出一些在小模型中不曾出现的新能力（如常识推理、创作能力），这些能力不是被特意设计或训练出来的，而模型的规模增长中“涌现”出来的，被称为涌现能力（Emergent abilities）。

缩放定律：在 WebText2 上训练的语言模型，随着模型参数变大，模型精度损失减少，性能提升。涌现能力：随着模型参数变大，模型涌现出了新能力[3]

因此，超大模型通常能在不同任务中取得比大模型更好的表现。例如，GPT4.0能明确鲁迅和周树人是一个人，但GPT3.5却认为他们是两个不同的人。
大模型（基础模型）、超大模型是AI领域中最令人激动的进展，它们正在推动技术的边界，在多个领域中开辟可能性。
人工智能的未来已来，让我们利用大模型改变世界！
<hr/>我是等壹，毕业于上海交大，现互联网研发。
是个爱旅行，爱阅读，爱写作的文艺青年，也是个热爱学习分享技术的geek~
<a href="http://www.zhihu.com/people/shi-xing-deng-yi" data-draft-node="block" data-draft-type="link-card" data-image="http://pic4.zhimg.com/v2-1f1591478db529f73e81548973fdad87_ipico.jpg" data-image-width="1276" data-image-height="1276" class="internal">等壹我会定期分享技术、职场、学习等干货，欢迎关注！
参考文献：

On the Opportunities and Risks of Foundation Models
essential-guide-to-foundation-models-and-large-language-models
https://www.assemblyai.com/blog/emergent-abilities-of-large-language-models/
Scaling Laws for Neural Language Models
Quantifying and extrapolating the capabilities of language models

发表于 5 天前

原文：ChatGPT复现: 三步走+大模型进化图谱
引言

最近，各类大模型(简称LLM)如雨后春笋，应接不暇，于是“狠心”整理了这些模型的进化关系，以飨读者。

(1) ChatGPT三步走

先回顾下ChatGPT训练方法。
2022年12月5日，OpenAI推出ChatGPT，在强大的GPT-3.5大模型基础上，引入人工数据标注和强化学习（RLHF），不断微调（finetune）训练而来。
其中，GPT-3.5指当时的InstructGPT，仅有一篇论文简单介绍训练流程。而ChatGPT发布时，信息更少，没有论文，只在官网简单贴了个与Instruct GPT高度相似的流程图，区别是：

标注人员、动物换了个logo，如青蛙→水獭。
增加PPO模型初始化注解

既然如此，老老实实从InstructGPT论文里梳理“三步走”：

（1）SFT ：监督指令微调，从5.4w人工标注的指令集中抽取1.3w，在GPT-3大模型上微调。
（2）RM：基于新模型生成一批数据集<prompt,response>，重组成3.3w排序对形式，人工标注后，用于训练奖励模型。奖励模型结构同基座LLM，论文里全部用6B级别，规模大了反而不好。
（3）PPO：RLHF的具体实现，RM奖励模型作为critic（评论家），SFT阶段的大模型作为actor（行动家），二者相互配合，actor学习指令集，critic评估打分，再更新权重，进入下一轮。论文里对比两种损失函数，后采用混合预训练损失PPT_ptx，兼顾预训练的效果。

(2) ChatGPT复现思路

从大模型（1750亿级别）入手，收集领域指令集，fine-tune（精调），植入RLHF、CoT、ICL等技术，试图趋近ChatGPT效果。
这条路因为路线清晰，目标明确，风险较小(只要速度够快)，选手众多，如火如荼：

GPT-3和InstructGPT（3.5系列）没开源——没关系，找GPT类似结构的大模型作为基座。
OpenAI用了海量训练数据——用已有大模型（1750亿级别）冷启动
OpenAI用了指令微调、强化学习——改代码，植入进去，已有ChatGPT开源实现（如Colossial AI/DeepSpeed/Openassistant/Trlx等）
OpenAI用了大量算力——结合自身业务，做领域微调、裁剪。

更多见文章：漫谈Prompt（提示工程）与CoT（思维链）
总结起来，垂类大模型落地步骤，如图所示

① 选择合适的基座LLM，并根据自身条件选择对应规模
② 准备领域语料集、指令集（如调ChatGPT）
③ 执行第一步SFT，简单微调LLM
④ 评估更新后的LLM效果，可借用业界自动评估工具或人工抽样评估
⑤ 效果还不达标？两条路：扩大基座模型规模、继续走第二三步
⑥ 奖励模型（Reward Model）训练：需要提前人工评估或用自动化方案代替（还是ChatGPT）
⑦ 强化学习训练：PPO、PPO_ptx

图里的信息截止2023年3月，原图见博客
（3）如何选取基座模型

有论文（The Practical Guides for Large Language Models）按照模型结构整理了大模型的进化树

Encoder-Only结构：BERT系列
Decoder-Only结构：GPT系列，成员最多
Encoder-Decoder结构：BART、T5、GLM

图源：https://github.com/Mooler0410/LLMsPracticalGuide/blob/main/imgs/qr_version.jpg
其中开源模型尤为“耀眼”，拿来就用。

GPT-2：完全开源，适合自己升级架构到GPT-3，并加上RLHF流程，照着OpenAI趟出来的路再走一遍。
BLOOM：完全开源，2022年7月，法国BigScience开源的GPT-3级别LLM，176b，覆盖46种语言和13种编程语言，中文语料占比高达16%，仅次于英文的30%
OPT：2022年5月，META AI开源，175b。英文为主，中文不佳。只能科研，不能商用。
LLaMA：2023年2月25日，META基于OPT微调出一个用于聊天的大模型，7b~65b, 依旧英文为主，非商用，
GPT-Neo、GPT-J和GPT-NeoX：开源，英语为主。源自一个富有极客反叛精神的全球开源组织EleutherAI，既然OpenAI colsed了，为地主独占，那就揭竿而起，自己做真正的开源。
GLM：清华发布，亚洲唯一上榜的175b级别LLM，中文版的ChatGLM商用受限。

LLM看着很多，但完全开源的屈指可数，这让准备商用的研发人员头疼不已。
（4）LLM进化图谱

面对OpenAI的closed趋势及商业巨头的垄断，全球各地都在想办法做真正的开源大模型。
国外有MTEA、HuggingFace、BigSicence、EleutherAI，国内有清华系以及Open开头的组织（如OpenBMB和OpenBuddy），还有个人。
供求严重失衡情况下，只要出现半开源的LLM，大家都会“哄抢”。
2023年3月，META半开源的LLaMA模型被人“泄露”，接着迅速“进化”，每隔几天就会出现一个新“物种”，短短几个月，已经演化成全球最大的开源LLM生态系统。
2023年5月6日，一篇文章广为流传：

谷歌内部文件泄露：我们和OpenAI都没有护城河

主要观点：

Google 和 OpenAI 都不会获得竞争的胜利，胜利者会是开源 AI；
开源 AI 用极低成本的高速迭代，已经赶上了 ChatGPT 的实力；
数据质量远比数据数量重要；
与开源 AI 竞争的结果，必然是失败；
比起开源社区需要 Google，Google 更需要开源社区。

既然开源才是出路，那么如今的开源格局是什么样？
不识庐山真面目，只缘身在此山中。
我花了不少时间，整理一张图，涵盖各方进展，LLM之间的盘根错节，让大家看到更大的视野。
图分4块：

① 国外基座LLM: 介绍国外可用的开源基座模型
② LLaMA生态系统：各方对LLaMA的魔改
③ 国内开源LLM：清华ChatGLM及其他开源LLM
④ LLM训练框架：训练加速技巧、训练框架

注：以上信息不全，仅供参考，欢迎反馈。
① 国外基座大模型

OpenAI官方模型里，除了GPT-2可用，其它模型（ChatGPT/GPT-4）只能远观，并作为大模型竞赛里的标杆供人膜拜、瞻仰、跟随。
多数人连api调用权限都没有，更不用说理论方法、权重、数据和代码了。
极客组织EleutherAI成立没多久，就先后推出GPT-Neo、GPT-J和GPT-NeoX模型，开源数据集 Pile，并发布OpenChatKit，颇有开源霸主风范。Pythia是耶鲁大学与EleutherAI合作的产物，Dolly（多莉）是DataBrick基于Pythia发布的聊天LLM。
法国科研组织发布的BLOOM很实用: 176b, 多语言,免费商用，属于非英语国家LLM开发者的首选。2023年2月底推出指令微调版本BLLOMZ。
合作推出BLOOM的著名LLM平台HuggingFace也没闲着，推出了自己的聊天LLM：HuggingChat
类似的开源组织，还有Stable AI，推出Stable LM。
阿联酋TII机构发布的Falcon（猎鹰）一度霸占了测评榜单，拔得头筹。当然评测存在疑点。国内机构闻风而动，6月9日，OpenBuddy将其汉化，并集成AI画图，6月14日，深圳大学Linly（伶荔）团队扩充中文词表。
② LLaMA生态系统

自从权重泄露以来，不到一个月，一系列改进版“涌现”：指令调整、量化、质量改进、人类评估、多模态和 RLHF 等等变体。每个版本间隔才几天时间，进化速度如此之快。

“羊驼”家族进化详情

3月14日，斯坦福基于self-instruct指令集完成SFT
3月21日，斯坦福借助LoRA技术，进一步降低了训练成本；5月26日，LoRA进化版本QLoRA出现，单机训练继续减量、加速
3月23日，第一个免GPU版本的羊驼诞生，直接CPU单机部署，4月12日，GPT4All可以额在笔记本部署
3月31日，伯克利引入更多数据，开源FastChat，并推出评测榜 LMSYS
4月12日，引入CoT数据，提升推理能力
羊驼汉化上，先后出现骆驼、Linly-ChatFlow、ChatLLaMA和玉兰
5月3日，第一个可商用的LLaMA出现，OpenLLaMA
META自己也在研究RLHF的必要性，推出LIMA

③ 国内开源大模型

国内LLM

2月20日，复旦第一个尝鲜，推出MOSS
随后，诞生一批ChatGPT跟随者，文心一言、科大讯飞、通义千问等

详见评测：千模大赛哪家强？大语言模型中文评测实践

开源LLM上

坐拥亚洲唯一上榜LLM（GLM）的清华优势很大，先后推出ChatGLM、ChatGLM-6B以及多模态版本Visual-GLM。
然而，这些模型商用受限，于是清华NLP实验室背景的面壁智能推出CPM系列，从ant到bee、Luca，功能覆盖画图、插件、联网、应用市场，颇有OpenAI的影子，重要的是，这些完全开源。
校企合作是个好路子，一个有底子有人，一个有钱有数据。4月13日推出的知乎“知海图”基于CPM，5月23日推出的“360智脑”基于ChatGLM。
另外，也有不少自力更生的。智源社区推出“天鹰”，王小川的百川智能，中科院的“紫东太初”（不开源），纯RNN的ChatRWKV。

④ 训练技巧及框架

训练技巧上，LoRA系列名声最大，其次是量化、蒸馏、联邦学习。

LoRA低秩适配，QLoRA将量化引入进来。
目前，LoRA系列已经成为语言、图像等领域的标配
5月15日，康奈尔将量化（GPTQ）引入微调框架
5月31日，港科大发布闭源模型的蒸馏框架（LION, AKD）
6月6日，FATE社区发布联邦学习大模型，解决隐私、数据不足问题

训练框架上

Colossal AI起步较早，2月15日就发布三步流程框架（当时没有SFT，后面补齐）
开源框架还有：Open Assistant、Trlx等
微软的DeepSpeed范围最广，4月12日，还推出覆盖三步流程的DeepSpeed Chat
各方还在研究三步走的合理性，有没有更好的方案。如:港科大发布训练框架LLMFlow，北大河狸改进RLHF，使用更好的SafeRLHF。

详情：
https://wqw547243068.github.io/chatgpt_mimic#llm-%E8%BF%9B%E5%8C%96%E5%9B%BE%E8%B0%B1
(5) 后记

开源大模型很多很全，迭代速度太快，只要1天不看资讯，就会漏掉最新进展。
这对大模型从业者来说，挑战极大。
ChatGPT复现专题文章才开始，不确定能否如期写完。
个人能力、精力有限，欢迎大家查缺补漏，
附技术博客：https://wqw547243068.github.io/chatgpt_mimic

发表于 5 天前

01—深度学习2.0 范式革命

我更倾向于认为过去10年的人工智能产品的成功，都归功于以为深度卷积、训练神经网络等为核心算法+NVIDIA显卡驱动算力+规模化监督标注下的深度学习1.0范式。也就是深度学习1.0对于AI产业是基础性的生产力变革，而在这个基础上应用这些技术构建的产品和服务，那都是在这个生产力框架下的上层应用。这是过往看到的技术推动生产力革命，带动产品服务产业化的路径。
最近几年，深度学习2.0范式正在进行，也就是以transformer结构为基础构建的大模型+自监督学习的方式构建超大规模数据集+知识+新的算力和算法框架。这又是一次技术涌现带来的生产力革命，可能带来新的产品化和商业机会。
深度学习2.0的核心技术，我们就称之为【大模型】，或者叫【基础模型】、【基模型】。那【大模型/基础模型/基模型】是什么？斯坦福大学，还专门成立了基础模型研究中心（Center of Research of Foundation Model，CRFM），2021年8月，李飞飞、Percy Liang等百来位学者联名发布了文章：基础模型的机遇和挑战，On the Opportunities and Risks of Foundation Models. 论文地址：https://arxiv.org/pdf/2108.07258.pdf

范式转变开始于BERT、DALL-E、GPT-3 等大规模预训练模型的出现，从计算机视觉到自然语言处理，从机器人学到推理、搜索，这些大模型已经无处不在，而且还在继续【野蛮生长】。
野蛮生长是一种涌现，是大模型的有效性的一种证明。在2018年BERT出现之前，语言模型的自监督学习本质上只是NLP的一个子领域，与其他NLP子领域并行发展。直到BERT横扫11项NLP任务后，这种格局被打破了。2019年之后，使用自监督学习构造语言模型俨然已经成为一种基础操作，因为使用BERT已经成为一种惯例。这标志着大模型时代的开始。
同质化是这个阶段重要标志。如今，NLP领域几乎所有的SOTA模型都是少数几个基于Transformer的大模型进化而来。而且，这种同质化已经蔓延到了图像、语音、跨模态、蛋白质序列预测、强化学习等多个领域，Transformer技术、大模型、自监督方法似乎统一了2020年前后5年的AI技术社区。

02—什么是大模型？

大模型这么好？那【大模型/基础模型/基模型】是什么？那就要从模型参数、模型结构、数据、算力、知识五个维度来解释大模型。
1.模型参数（大）
模型参数是什么？aX1+bX2=Y，X1和X2是变量，Y是计算结果，a和b是参数，同理，一个神经网络模型，无论规模多大，它都是一个函数，只不过这个函数极其复杂，维度极其多，但依然是由参数、变量来组成，我们通过数据来训练模型，数据就是变量，而参数，就是通过变量的变换，学到的最终的常量。
（1）关于语言大模型：模型参数规模的增长，经历了数次10倍级的跨越。从18年BERT的3.3亿参数，到19 年T5的110亿，20年GPT-3的1750亿，21年Gopher2800亿，模型参数量飞速增长。这只是在 Dense 类型的模型中进行对比，通过使用稀疏计算 MoE 模块，可以获得超大的模型，21年的Switch Transformer 就能达到1.6万亿的参数量，GLaM 也有 1.2万亿的参数量，清华智源的BAGUALU更达到了174万亿。5年内，模型参数数量从亿级别发展到100万亿级，增长100万倍。

A Roadmap for Big Model

（2）关于图像大模型：我们通常关注语言模型参数规模的增长，这些数字更加有冲击感，显然图像模型的参数规模，就没那么震撼，但是对比图像模型的过往，依然发生了巨大的跃迁。比如resnet101模型参数量在千万级别，而借助MoE的视觉模型V-MoE可达到150亿参数，也有千倍增长
（3）跨模态大模型：得益于AIGC的发展，跨模态大模型在22年下半年是大放异彩，阿里 21 年发布的多模态模型M6，模型参数达到10万亿。

A Roadmap for Big Model
总结来说，我们这个年代（2022年12月）的【大模型】，语言模型的参数规模亿级～万亿级（BERT作为baseline），图像大模型参数规模在亿级～百亿级范围，我们都认为是大模型。

2.模型结构
（1）基础结构——Transformer

而Transformer内部是编码器encoder和解码器decoder的结构

编码器是self-attention+前馈的基础结构

解码器是self-attention、encoder-decoder attention+前馈

堆叠和扩展，构建更大规模的模型

如果单从大的角度来说，transformer结构大概是从可扩展的角度做贡献，而至于以后有没有更好的可扩展表征能力更好的颠覆结构，让大模型再上一个台阶，那么我们所说的【大模型】只能说模型结构的选择性更多了，而非现在的单一化的基础结构。
（2）稠密

大模型的结构迭代也有1.0和2.0，这里的1.0就是早期的稠密（Dense）网络，比如OpenAI GPT-3，华为盘古/鹏程盘古α等，模型规模的扩展是全结构的扩容，稠密结构的transformer参数量在千亿级已经非常大了，但是稀疏结构的大模型则可以做到万亿级别。
稠密结构，在计算上，可以理解为要加载整个网络，需要激活整个神经网络才能完成即使是最简单的任务，无论是在内存还是在计算上，都是庞大的开销。
而区别于稠密网络的是另外一种，稀疏和动态的结构。
（3）稀疏和动态
谷歌是稀疏动态结构的先行者，他们于2017年首次提出了MoE（Sparsely-Gated Mixture-of-Experts Layer，稀疏门控的专家混合层），2021年推出的1.6万亿参数大模型Switch Transformers就融合了MoE风格的架构，训练效率与之前的稠密模型T5-Base Transformer相比提升了7倍。
而今年的PaLM所基于的Pathways统一架构，更是稀疏动态结构的典范：模型能够动态地学习网络中的特定部分擅长何种任务，我们根据需要调用经过网络的小路径即可，而无需激活整个神经网络才能完成一项任务。这在多任务领域。

在稀疏动态的支撑下，大模型计算代价不会那么大，甚至应该说，稀疏动态结构或许会为大模型往十万亿、百万亿参数发展铺平道路，稀疏动态结构或许是解决大模型尺寸与算力代价之间矛盾的最佳途径。
3.数据
模型参数的大幅增长，必然需要更大的数据来训练，否则，模型强大的表征能力就会轻易地过拟合。因此在数据维度，训练大模型，需要的是更大规模的数据，比深度学习1.0还要大。更大的数据如果使用传统有监督的方式，就会面临巨大的不现实，标注成本和周期的不现实。
因此无法全部都使用标注好的监督数据，而是利用自监督的方法，挖掘数据中的信息。在语言模型中，互联网有大量的语料是包含监督信息的，这是丰富的燃料。训练的数据量也是实现了快速增长。

从18年BERT的33亿词符，到19年XLNet的330亿词符，20年GPT-3的6800亿词符，数据量以十倍速度增长，但英文数据集大小也差不多止于此。22年PaLM 使用了7800亿词符训练。

不同大模型预训练数据集规模（大小：GB）的增长对比
4.算力
尽管深度学习1.0阶段对算力的要求，就一直持续增长，但那个阶段可以说用1张GPU卡可以解决，也算不上太夸张，很多个体，小企业也都可以玩，但是到了超大规模预训练模型阶段，超大的参数、数据带来对算力的要求，是普通玩家难以企及的。就算你构建了网络结构，获取到了数据，但是算力不行，训练不起来。

从算力需求的角度看，从GPT的18k petaFLOPs，到 GPT-3的310M petaFLOPs，以及PaLM的2.5B petaFLOPs。

从更直观的角度，使用单块英伟达V100GPU训练的理论时间来感受大模型对算力的需求，典型的大模型例如GPT BERT GPT-2等的训练时间如下。

从成本的角度，感受大模型训练对算力成本的吞噬。
例如，GPT-3的训练使用了上万块英伟达v100 GPU，总成本高达2760万美元，个人如果要训练出一个PaLM也要花费900至1700万美元。
虽然训练会使用更大规模的算力消耗，推理会少非常多，比如清华大学与智谱AI联合开源的双语大模型GLM-130B，通过快速推理方法，已经将模型压缩到可以在一台A100（40G*8）或V100（32G*8）服务器上进行单机推理。但是一台A100的8卡机也是要大几十万（A100 40G单卡7w左右，8张卡则56w，那么整机也需要60w左右了），这个成本，对很多AI应用来说，还是很高。
好消息则是算力在迭代，算力成本也在下降，NVIDIA的H系列显卡，比如H100，单从算力（fp32）相比以往T4（深度学习1.0时代主流显卡），达到7倍++，坏消息则是H100这样的强大算力显卡被限制出口国内。

在大模型时代，针对Transformer结构优化的加速卡、工具链也在被不断推出，算力厂商在抢占大模型计算高地的同时，提高算力和降低成本，让大模型落地通路可行。

5.训练算法
对比深度学习1.0的模型，使用传统的方法已经无法训练超大模型，要么是训练成本巨大，要么是训练时间超长，要么是训练效果很差。算力上尽管通过提升单卡计算力，可以很大程度地解决需要超大集群超长时间才能训练大模型的问题，也可以让推理落地可行性大增。
但是除了等待摩尔定律带来的晶体管缩小，算力提升等，在软件、算法结构、训练方法等依然有很多优化提升的方法，算法结构在上面提到了如稀疏动态的方式，但是在训练方法上，解决问题的思路是，并行，更好的框架，更好的并行，更高效利用显存。
在这方面，针对大模型，深度学习2.0的落地先锋是一些新的框架、平台，比如colossal-AI，还有比如在深度学习1.0时代不断迭代的框架pytorch 2.0等。以colossal-AI为例，这是一个新的针对大模型的训练优化框架，这个框架通过并行、内存管理等技术，更好实现大模型的训练。
按照colossal-AI的说法，Stability AI每年光计算就需要花费约2000万美元，想把大模型部署到生产线上，如果一个企业或者单位从零开始自己做，需要的人力为70人左右，而在欧美地区光是养活70个人，成本就需要2000万美金。这就是当下训练一个大模型的成本。
（1）并行
大模型的训练基本需要超大集群做并行计算，训练大模型大概有3种并行方式：数据并行、张量并行以及流水线并行。
数据并行是指，比如有1万个数据表把它分到10台机器上，每台机器获得1000个数据。张量并行，是在层内划分数据。流水线并行，是在层与层之间去划分数据。
colossal-AI号称利用LAMB方法，帮助谷歌把BERT训练时间从3天缩短到76分钟，帮助腾讯、索尼、谷歌等公司把模型训练时间从1小时缩短到1分钟。
（2）内存管理

由于模型参数量巨大，训练的时候加载到显存，显然对显存的要求极高，而通过利用CPU内存甚至NVMe硬盘，就可以扩展单张卡的能力，比如说用PyTorch baseline训练GPT-3，至少需要几百个GPU才能完成，但是做了优化，就可以大大减少GPU数量，成本也就下来了。
比如说在6G内存的情况下，用PyTorch只能训练1亿参数，但是用Colossal-AI可以训练15亿参数，扩大了15倍。相同硬件下，在GPT-2上的效果也更好，使用PyTorch本来只能训练1亿参数，通过Colossal-AI可以扩大到120亿。像Stable Diffusion这样的新模型上，Colossal-AI也能取得6.5倍加速，并可以把成本降到原本的1/7。
6.知识
内嵌知识的大模型，在对话模型中会比较多，嵌入知识图谱、嵌入对话策略知识等。知识是有监督的数据，而训练大模型时用的大量无监督的数据，如何实现有监督、无监督的数据，实现兼顾模型学习知识和经验，也是一个研究领域。

总结
整体来说，大模型是什么？大模型是参数巨大的模型这个很通俗，但是要训练和推理一个效果好的参数大的模型，却包含其模型结构、更大规模算力支撑、更大规模数据的无监督，自监督，半监督算法，还有更快的并行、内存管理等的训练技术。是一个系统化、超高成本的大工程/大产业。

03—为什么一定要用大模型？

说了这么多大模型是什么，是什么个原理，那我们为什么一定要用大模型？可以解决什么样的问题？

1.为什么一定要用大模型？小样本！高精度！泛化强！深度学习1.0的落地，最难的还是有监督学习的范式下，我们需要大量的标注数据来驱动一个单任务的模型，但是在很多腰部和尾部场景，数据量本身少，可以驱动模型有效学习的有效数据更少，从而带来了周期长、成本高、落地难的问题。如果模型可以用更少的样本，获得更高的精度，而且泛化能力强很通用，那就完美了。大模型要做的，就是朝着这个目标前进。
这里可能有人会疑问，大模型不是会需要更大的数据，精度可能高了，但是成本不能降低吗？实际上大模型也叫基模型，我们用大量数据训练了一个基模型，不是让基模型直接就上任务，而是还要经过下游任务小样本的微调。大模型是底座，有了大模型，下游的各种任务可以共用一个大模型用小量样本快速迁移，并且精度更高，对比以往每一个任务都需要重新训练一个模型的方式，还是有长进的。
那大模型的能力怎么样？
一般来说，模型参数可能要达到十亿级别才会显示出明显不同于小模型的zero-shot和few-shot的能力。近年来已有多个千亿和万亿级别参数的模型，在一系列的任务上都取得了SOTA的表现。在一些任务中，模型的性能随着规模的增加而可靠地提高，而在另一些任务中，模型在某个规模上表现出性能的突然提升。可以用两个指标去对不同的任务进行分类
（1）Linearity: 旨在衡量模型随着规模的增加在任务上的表现在多大程度上得到可靠的提高。
（2）Breakthroughness: 旨在衡量当模型规模超过临界值时可以在多大程度上学习任务。
这两个指标是模型规模和模型性能的函数，具体计算细节可以参考 [3]。下图展示了一些高Linearity和高Breakthroughness的任务的例子。

横轴是模型参数规模，（a）的纵轴是归一化之后的得分，可以看出，模型参数数量的提升，得分也是稳定提升的，有很好的线性关系。（b）的纵轴是归一化之后的得分，可以看出当模型规模达到一定量级之后，一些无法学好的任务产生了显著提升。
当然，并不是所有任务都是模型越大，能力越强，还是会有些任务会随着模型规模增大但是效果更差。

但是，在许多任务中，不仅仅是在精度指标上展现了大模型的能力，更是真真实实从定性角度，感受到了效果的巨大进步。例如我们看到chatGPT的对话效果时，我们会惊叹它的效果，而背后正是大模型技术。
2.困难问题和AI能力边界

大模型应该说是最直接有效的一种提升AI能力的方式，简称【大力出奇迹】，尽管仍有许多新的zero-shot，few-shot小样本、还有小模型的方法在被不断研究，这些对解决一些相对简单问题、经济的问题（比如边缘计算），还是很适合、很经济的，但是针对一些更加抽象的任务，更加困难的任务，大模型在目前看来还是最有效的路径。

这里有2个支撑，第一依然是算力，第二是智能的边界。

算力方面，在硬件上有摩尔定律，晶体管依然在不断变小，而且依然有新方法，芯片制造工艺从28纳米，到14，到7，到3纳米的过程中，一直有摩尔定律到头的声音，但是依然没有真实打破，在软件上，新的结构和新的训练方法也在不断优化，尽管模型规模很大，但是有类似稀疏和动态的方法，有类似并行的计算和内存优化方法，许多大厂团队还在不断把一个大模型做到单机训练，甚至以后的单卡训练，这样的话，这个年头的大模型，在未来，成本不夸张的，也都只是小模型。

智能的边界方面，当我们用一种有用的方法解决了小范围的问题，我们肯定会复制和扩大，如果屡试不爽，那我们一定会用到极致，直到它失效，因为现实世界的问题是层出不穷的，而且有非常多高维的问题：数学难题、蛋白质结构、宇宙探索、智能产生意识、自动驾驶等等，这些大把没有攻克但是长期有巨大意义和价值的问题，人类总会去极致利用现有可行方法尝试，那么只要大模型这条路随着更强算力硬件的支撑出现，必然还会继续推高它的规模，直至它失效。

总的来说，我们为什么要用大模型？一个是现实问题，解决当前AI落地和商业化的困局提出的一种方案，一个是未来问题，帮助人类探索边界，看起来它都是一个当下的好方案，那为什么不用呢？

04—大模型落地的问题是什么？

大模型这么好，用不就好了？还有什么问题呢？

1.成本问题
上面章节讲到大模型参数规模、对数据、对算力的要求高，这带来的都是巨大的成本，如果是几年前，从0自己搭建、训练和部署大模型，成本那至少都得千万级别，大型的服务器、大量的人才团队。这显然不是普通企业团队可以承受的，更何况没有多少人认为这么高成本的算法，可以带来稳定的经济效益。

这么高的投入，当前也都是大厂、大型科研机构在角逐。无论是国外的google、openAI、meta、microsoft，还是国内的百度、阿里、华为、智源、鹏城实验室等等，在自身业务驱动下投入，或者在政府推动下进行。

这就好比修路，当下依然是AI的大基建时代，深度学习1.0基建结束，在应用上发挥余温，深度学习2.0接力基建，为未来应用提供生产力解决方案。

2.落地价值问题

成本高，显然落地都是投资，回报在哪里，还是个问题，尽管大模型已经展现了其能力，像AIGC、chatGPT，打开了很多人的想象空间。但是不可否认，当前，还是在持续无底洞投资的阶段，我们看到更多是demo，我们很难看到商业化成品，经过了产品和商业化验证，得到了好的回报。

（1）我们从G端需求角度来考虑落地难题
基础性的问题，有一些很难用商业化的思路来考虑。2022年，国内的数字化政策、国产化政策、东数西算等大政策大工程在不断推动，这些政策和投资的效益在哪里？这恐怕很难回答，但是在基建时代，我们修路、修桥，带来了5年后10年后的交通便利和经济活跃，相信在早期，难以完全精准计算。

有一些投资可能是为了宏观经济上的刺激和发力，扶持新产业，比如投资大的产业可能带来产业下游的企业业务繁荣，就业率提升，类似以往的房地产投资带来的产业链上上下下的就业和消费，然而带来的问题是房屋空置，泡沫化。
有一些投资可能是为了科研，为了技术的领先，为了教育、为了研究性的投入，比如许多高校和研究机构参与的大模型研究、参与的算力基建。科研经费投入到新领域，为科研提供解决方案，也是一种落地。
为了城市治理，昂贵的基建产品特别适合在规模化、困难的场景中使用，城市治理的数字化，比如政务的数字化，带来海量线上数据，一座大城市拥有千万级别的人口，人口的数字化数据，在全市范围内的统计、治理、分析、决策中，比如在交通全局调度上，信控上，怎么样更有效利用，不仅要大算力，还要大算法。

总结来说：G端的落地，是上游，是投资，是基建，而经济效益和投资回报，是一个难以清晰的问题，也就是大模型在这个领域落地，可以讲清楚建设逻辑，但是行不行，好不好用，能不能真正带来价值，是一个巨大的问号。

（2）我们从B端需求角度来考虑落地难题

模式是什么？场景在哪里？用户是谁？这恐怕是B端使用大模型的三大问题。

在B端，现在比较漂亮的模式应该是模型即服务，对比在很多领域，由于安全、数据等等的问题，很多客户喜欢购买私有化部署的解决方案，显然这种方案如果是大模型私有化落地的话，当前是不大现实的。所以模型即服务的方式，通过公有云的方式，在成本上更容易被接受。

但是场景在哪里？需求在哪里呢？大模型可以解决搜索蛋白质结构、for science，但是在商业侧，如何落地呢？客户和用户在乎的是解决问题，并不关心使用的技术。那么最后发现依然是搜广推天然适合，数据量多了，需求多样化了，以往的搜广推方式不行了，有谁不吐槽百度的搜索全是广告呢？淘宝的推荐对我来说，真的没有作用。那我这样的用户，要更好留存，更好促交易，是不是要更懂我呢？用传统的方法，用一些低级的规则很难更加懂我，那就要上更精准的搜广推算法了。因此我们看到，民企中，努力投入大模型的，依然还是做搜索的百度，阿里电商的推荐，还有快手的短视频、广告推荐。这才是实实在在对他们业务形成一定价值的。

3.可解释
当我们在说深度学习1.0一堆参数，是黑盒，无法解释的时候，会发现，深度学习2.0，大模型的强大能力来自巨大的参数空间的结合，这更导致它们的可解释性非常差，其能力和缺陷都存在不确定性。在这种情况下，盲目将整个研究范式向大模型转变真的可取吗？

05—大模型的产品化和商业化路径？进程？

当前全球大模型产业落地仍处于早期探索阶段。一方面，研发机构在大模型方面的技术研发已较为成熟，如算法架构、预训练和微调策略、计算并行加速等，但对落地场景不够熟悉，没有形成完善的商业化模式，需要与下游场景企业合作建立大模型商业模式；另一方面，绝大多数下游场景的企业对大模型没有形成基本的概念和认知，同时也没有能够支撑模型微调的算力，以及定制、二次开发模型的人力资源和技术实力。
大模型的落地，应该解决的是，让企业和用户更少了解原理，更简单直接使用成果，让用户回归价值和自身业务问题解决。总的来说，会有几种比较适合大模型的落地模式：

1.模型即服务

模型即服务的模式指的是由大模型的研发主体（如科研机构、云厂商）对大模型封装，在各类任务上的推理能力封装成统一的应用程序接口，对外提供服务的模式，虽然提供的是api，但是本质上调用的是模型。下游企业可以获得这些接口，并按照自身的业务需求，调用服务嵌入已有的应用和服务中，让大模型的API为整个程序进行赋能。这样企业不需要过多了解模型的技术细节，而是像调用云能力一样，直接调用服务。
模型即服务也存在许多问题：第一是如果模型效果不好，API就无法满足用户的常规推理需求，依然需要根据场景情况进行额外的微调。第二是大模型运行慢，当推理请求的次数和请求数据量过大时，API的响应时间和返回数据质量将难以保证，例如chatGPT、DALLE2等AIGC应用，实际的反应时间都非常长，短时间内要获得大规模的应用和及时响应体验是困难的。第三是如果企业对数据安全、场景等等的限制，无法使用云端API，也就不适合用这种模式。
目前大模型领域商业落地较为成功的案例是OpenAI的模型。OpenAI在图像模型、语言模型等都采用了模型即服务的API调用方式，语言模型使用GPT-3，在OpenAI在公开GPT-3论文后，也同时开放了模型的API申请通道，鼓励研究者、开发者、企业从业者研究“好玩”的GPT-3应用，以此促动大模型的产业场景发展。推出了Ada（最快的版本）、Babbage、Curie、Davinci版本（效果最好），分别价格如下表（每1k相当于750个词）。

GPT-3的API定价

如果觉得模型不满意，还可以finetune模型，OpenAI也提供了finetune的价格。

在图像生成模型方面，可以直接通过调用DALLE的接口生成模型，生成一张1024*1024的图像需要0.02美金，大约是0.15人民币。

据OpenAI公开的博客文章表示，截至2021年3月，已有300 多个APP采用了GPT-3技术。全球使用GPT-3的开发者数量上万。GPT-3模型每天产生45亿个词汇，且数量还在不断增长。为了推广大模型的应用发展，OpenAI也支持围绕GPT-3举办算法大赛，并提供API支持。
2.开源模式

“开源”指的是将计算机程序、软件的源代码等内容公开，并根据开源协议进行分发的方式。开源是目前计算机领域一种普遍的软件开发模式，大量开发者在协议许可的情况下对开源代码进行修改，并集成到已有的系统中，为软件和系统增加新功能和特性。
开源的好处是，可以快速共享好成果，让好的成果快速培养社区，下游用户利用开源成果，可以快速搭建自己的应用系统。但开源带来的问题是下游用户需要有比较高的开发能力，可以理解开源代码模型的原理并使用，对人才有较高的要求，比如以往的深度学习框架开源，比如pytorch，很多企业基于开源的框架搭建自己的低代码训练系统，如果是企业完全自己撸一套pytorch并且达到相当的效果，显然难度非常大。
在AI开源领域有个笑话：OpenAI不Open，也就是我们以为OpenAI是开源的，但是实际上人家是闭源，付费的。
在大模型领域谈到开源模式，就不得不提Hugging Face。Hugging Face是一个AI/ML社区和平台，早期靠Transformers模型库和高质量社区受到关注。用户可以在Hugging Face 上托管和共享ML模型和数据集，也可以构建、训练和部署模型。2022 年 5 月，Hugging Face 完成1亿美元的C轮融资，估值达到 20亿美元，C 轮由Lux Capital领投，其他投资方包括Sequoia US、Coatue 等。Hugging Face目前拥有1000多名客户，包括英特尔、高通、辉瑞和彭博社等。Hugging Face联合创始人兼CEO Clément认为：“机器学习未来会成为技术开发的默认方式，而Hugging Face会成为机器学习的头号玩家。”Lux Capital合伙人Brandon Reeves也表示：“如果这一愿景得以实现，结果可能是公司上市后获得500亿、甚至1000亿美元的市值。”
但是开源社区是产品的形态和落地的模式，并非商业化模式，尽管完成了高估值，开源本身并不能带来收入，Hugging Face的收入模式依然是提供自动化训练平台、提供推理api、私有化服务、提供模型托管。

自动化训练平台AutoTrain，根据时间和计算资源计费，采用 pay-as-you-go 的收费模式
推理api主要面向SMB，托管了推理，提供api调用，按照调用收费
Hugging Face的Infinity产品，允许客户将数据和模型部署在自己的 on-prem 服务器上，对于一些大型金融、能源等企业，由于数据安全等问题，更愿意私有化，因此私有化的产品服务，也是HF的一种商业模式。
托管服务Private Hub，通过替用户托管模型、数据集、Pipeline 收取一定的费用。

Hugging Face2021年收入约1000万美元，并在2022年中接近盈亏平衡。可见开源模式是早期获客，之后在旧的商业模式下，迅速完成商业闭环。
3.平台即服务PAAS
平台即服务，不再提供单一的模型api，而是将大模型当作平台服务中的一种技术，集成到AI平台上，通过统一的平台对外提供服务。这种模式中，企业构建包含开发工具、AI服务、流程化的平台，而大模型只是平台中的一个组成部分。用户购买或使用平台的过程中，可以利用平台提供的工具，对大模型进行开发和应用，集成于自有的体系中，用户不能单独获得模型的能力。用户通过使用平台和工具，获得利用大模型开发的能力，也因此付费。
例如，2020年7月，百度发布了NLP开发与服务平台文心，其依托ERNIE预训练技术，为开发者提供NLP定制与应用能力。文心平台可通过公有云（如EasyDL-NLP、BML等）和私有化两种方式为产业提供服务。用户不需要关注计算开发环境的搭建和算法实现的底层实现细节。经过2年多发展，文心大模型已经发展出了NLP/CV/跨模态/生物计算大模型，并且在此基础上，推出了众多行业大模型、大模型套件。向上又有Easy-DL、BML大模型、大模型API、文心一格（AIGC）等。百度基于大模型底座，打造的平台服务，属于大模型在国内落地较前沿的榜样。

4.软件即服务SAAS
大厂、头部政企和科研机构，提供强大的新基建，中小厂商可以基于这些基建，开发自己的saas服务，并提供给企业、个人。

自OpenAI公开了 GPT-3的API后，已经在开源社区和AI创业者中引起反响，许多开发者和创业者调用API，赋能原来的业务，或者开辟新的业务，这些业务包括内容创意生成、语言风格互换、对话、搜索等等。得益于DALLE、chatGPT等技术卓越的效果出现，在2022年，基于大模型AIGC的SAAS服务处于爆发的元年。

1. 图像内容创意生成：在DALLE、IMAGEN、Stable Diffusion等出来之后，图像生成把大模型AIGC浪潮推向高潮，像国内的百度文心一格、做设计的Nolibox等，都是把AIGC做成demo和产品的案例。图像领域的创意生成，有不少还在demo阶段，但实际上，在插画、logo设计、衣服设计、互联网内容插画、电商配图等等非常多的场景中，有很多专精特新的机会。对于AIGC的saas，最后落地的关键是要把客户最后一公里需求补齐。
2.文本内容创意生成：基于大模型的专业软件和服务速度极快，如博客文章撰写、新闻快讯撰写、百科撰写、小说补写、课程题目编写等，形成自动化的内容生产体系。在数字化内容爆炸的今天，创作者的内容会很快淹没在互联网中，创作者在期望利用强大的工具提升创作效率和质量，chatGPT的出现，让很多创作者看到了AI的水平可能已经超越了很大一部分创作者群体，随之而来的，这会帮助内容创作者提升创作效率和质量，但同时会导致互联网大量充斥着AI生成的无意义内容。
3. 对话和搜索：大模型将成为专业场景和日常场景对话机器人背后的底层技术，通过预训练技术支持模型产生流畅、符合上下文语境、具有一定常识的聊天内容，支持娱乐形象或虚拟陪伴机器人。但同时模型也能够通过微调等方式，学习专业领域知识，在特定专业领域提供支持和服务，成为智能客服。此外，chatGPT更让谷歌感到搜索业务的威胁，一个更懂得用户需求的客服，很有可能就是一个强大的搜索引擎，给你搜索网络中，你最想知道的信息。
4.数字人：数字人是一个大赛道，在火热的三维空间元宇宙赛道，数字人是每个人的数字化替身，在短视频、直播等二维空间娱乐赛道，数字人也是数字化的替身，而拥有智能的数字人，则更需要包含文本语义内容的生成，还要动作、表情、形象等等的生成，每个环节，都需要AIGC，而想要得到足够好的效果，或者足够全能、逼真和智能的效果，应用大模型必不可少。
5. 代码生成：Copliot让程序员看到了AI代替来的如此之快，chatGPT更是可以将口语化的对话转化成代码，尽管要让AI真正写符合我们需求的代码还很远，但是AI生成代码，依然可以协作程序员更高效完成编程。

在这些场景应用中，无一不是利用大模型技术，带来的惊艳效果，而这样的技术，可以通过和场景化结合，成为一项项触手可及的小工具，接地气的AI，反而是在最不接地气，最高成本的大模型范式下，发生了。

最近半年，笔者发现了一个有趣的现象，第一波通过大模型赚钱的，可能真的不是OpenAI，而是抖音上的AI绘画创作者，他们通过发布AI生成图像的作品，可以作为头像、壁纸、插画，而通过一些看广告免费下载图片的工具，这批AI绘画创作者，利用免费的大模型，短短数月，实现了数十万的收入。当我们还在质疑大模型无法落地的时候，实际上，已经有很多人，很多接地气的人，利用它，赚到了第一桶金，这难道不是落地吗？我觉得是。

[1]On the Opportunities and Risks of Foundation Models.
[2]A Roadmap for Big Model. https://arxiv.org/pdf/2203.14101v3.pdf
[3] Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models.
[4]超大规模智能模型产业发展报告.智源
[5]https://openai.com/api/pricing/
[6]谷歌、斯坦福联合发文：我们为什么一定要用大模型？harris

发表于 5 天前

目前Foundation Model或者是大模型，特别地火，接下来介绍什么是大模型，大模型的基本概念；接着看看大模型的实际作用，然后基于这些实际作用，我们简单展开几个应用场景。最后就是介绍支持大模型训练的AI框架。
在往下看之前，想抛出几个问题，希望引起大家的一个思考：
1）为什么预训练网络模型变得越来越重要？
2）预训练大模型的未来的发展趋势，仍然是以模型参数量继续增大吗？
3）如何预训练一个百亿规模的大模型？
Foundation Model

2021年8月份，李飞飞和100多位学者联名发表一份200多页的研究报告《On the Opportunities and Risk of Foundation Models》，深度地综述了当前大规模预训练模型面临的机遇和挑战。

在文章中，AI专家将大模型统一命名为Foundation Models，可以翻译为基础模型或者是基石模型，论文肯定了Foundation Models对智能体基本认知能力的推动作用，同时也指出大模型呈现出「涌现」与「同质化」的特性。
所谓「涌现」代表一个系统的行为是隐性推动的，而不是显式构建的；「同质化」是指基础模型的能力是智能的中心与核心，大模型的任何一点改进会迅速覆盖整个社区，但其缺陷也会被所有下游模型所继承。

回到大模型，2017年Transformer结构的提出，使得深度学习模型参数突破了1亿。下面这个图呢，就是从一开始的lenet、Alexnet、ResNet开始，模型参数一个比一个大，到了BERT网络模型的提出，使得参数量首次超过3亿规模，GPT-3模型超过百亿，鹏程盘古实现千亿稠密的规模、Switch Transformer的问世还一举突破万亿规模。

以GPT系列为例：
1）GPT-1是上亿规模的参数量，数据集使用了1万本书的BookCorpus，25亿单词量；
2）GPT-2参数量达到了15亿规模，其中数据来自于互联网，使用了800万在Reddit被链接过的网页数据，清洗后越40GB（WebText)；
3）GPT-3参数规模首次突破百亿，数据集上将语料规模扩大到570GB的CC数据集(4千亿词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词)。

可以看到，数据上面，每一代均相比前一代有了数量级的飞跃，无论是语料的覆盖范围、丰富度上都是绝对规模的增长。可以预测到，下一代万亿模型，使用的数据如果相比GPT-3在质量、来源和规模上没有量级的变化，很难有质的提升。
大模型在产学各界掀起一阵阵巨浪，背后彰显的除了分布式并行和对AI算法的掌控能力，还是一次大公司通过AI工程的创举，利用大规模AI集群来进行掰手腕的故事。
随着网络模型越来越大，单机单卡、一机多卡、甚至多机多卡的小规模集群，只要网络模型参数量一旦超过十亿以上的规模，就很难用现有的资源训练了。于是有的研究者就会提出质疑：

一味的让模型变大、让参数量爆炸式增长，真的能让AI模型学习变得更好吗？
真的能带来真正的智能吗？
甚至有的同学还会挑战，小学数学题都解不好？
生成的文字内容不合逻辑？
给出的医疗建议不靠谱！

这里值得澄清的一点是，目前类似于GPT-3这样的大模型，在零样本和小样本的学习能力，主要来源于预训练阶段对海量语料的大量记忆，其次是语义编码能力、远距离依赖关系建模能力和文本生成能力的强化，以及自然语言进行任务描述等设计。而在训练目标方面，并没有显式的引导模型去学习小样本泛化能力，因此在一些小众的语料、逻辑理解、数学求解等语言任务上出现翻车的现象也是能理解的。
虽然大模型刚提出的时候，质疑的声音会有，但不可否认的是，大模型做到了早期预训练模型做不到、做不好的事情，就好像自然语言处理中的文字生成、文本理解、自动问答等下游任务，不仅生成的文本更加流畅，甚至内容的诉实性也有了显著的改善。当然，大模型最终能否走向通用人工智能仍是一个未知数，只是，大模型真的是有希望带领下一个很重要的人工智能赛道。
大模型的作用

有了大模型的基本介绍，我们来看看大模型的具体作用。
下面显示了深度学习技术在ImageNet图像数据集，随着新模型的提出，准确率不断取得突破的趋势。右图显示在网络预训练模型出来以后，机器对自然语言理解能力的不断提升。

虽然深度学习使得很多通用领域的精度和准确率得到很大的提升，但是AI模型目前存在很多挑战，最首要的问题是模型的通用性不高，也就是A模型往往专用于特定A领域，应用到领域B时效果并不好。

1) 模型碎片化，大模型提供预训练方案

目前AI面对行业、业务场景很多，人工智能需求正呈现出碎片化、多样化的特点。从开发、调参、优化、迭代到应用，AI模型研发成本极高，且难以满足市场定制化需求，所以网上有的人会说现阶段的AI模型研发处于手工作坊式。基本上一个公司想要用AI赋能自身的业务，多多少少也得招聘懂AI的研发人员。
为了解决手工作坊式走向工场模式，大模型提供了一种可行方案，也就是“预训练大模型+下游任务微调”的方式。大规模预训练可以有效地从大量标记和未标记的数据中捕获知识，通过将知识存储到大量的参数中并对特定任务进行微调，极大地扩展了模型的泛化能力。例如，在NLP领域，预训练大模型共享了预训任务和部分下游任务的参数，在一定程度上解决了通用性的难题，可以被应用于翻译，问答，文本生成等自然语言任务。

NLP领域的大规模预训练模型可谓是发展快速，从 BERT 到 GPT-3，再到万亿规模的 Switch Transformer，无论是模型大小、数据量，还是计算资源占用都在疾速增长。规模大到什么程度呢？GPT-3 的参数量达到了 1750 亿，训练数据超过了 45TB，需要的算力Flops是 BERT 的 1900 多倍，3.14E23 FLOPS。在惊人的数据量和可怕的网络模型参数下，在实际NLP榜单SuperGLUE，在该基准上 FLOP-matched Switch Transformer 相比 T5-Base 和 T5-Large 的性能分别提升了 4.4% 和 2%。整体而言，Switch Transformer 模型在多项推理和知识任务中带来了显著性能提升。这说明该超大模型架构不只对预训练有用，还可以通过微调将质量改进迁移至下游任务中。

2）大模型具备自监督学习功能，降低训练研发成本

大模型的自监督学习方法，可以减少数据标注，在一定程度上解决了人工标注成本高、周期长、准确度不高的问题。由于减少了数据标准的成本，使得小样本的学习也能达到比以前更好的能力，并且模型参数规模越大，优势越明显，避免开发人员再进行大规模的训练，使用小样本就可以训练自己所需模型，极大降低开发使用成本。
2018年Bert首次提出，便一举击败 11 个 NLP 任务的 State-of-the-art 结果，成为了 NLP 界新的里程碑，同时为模型训练和NLP领域打开了新的思路：在未标注的数据上深入挖掘，可以极大地改善各种任务的效果。要知道，数据标注依赖于昂贵的人工成本，而在互联网和移动互联网时代，大量的未标注数据却很容易获得。
3）大模型有望进一步突破现有模型结构的精度局限

第三点，从深度学习发展前10年的历程来看，模型精度提升，主要依赖网络在结构上的变革。例如，从AlexNet到ResNet50，再到NAS搜索出来的EfficientNet，ImageNet Top-1 精度从58提升到了84。但是，随着神经网络结构设计技术，逐渐成熟并趋于收敛，想要通过优化神经网络结构从而打破精度局限非常困难。近年来，随着数据规模和模型规模的不断增大，模型精度也得到了进一步提升，研究实验表明，模型和数据规模的增大确实能突破现有精度的一个局限。
以谷歌2021年发布的视觉迁移模型Big Transfer，BiT为例。扩大数据规模也能带来精度提升，例如使用ILSVRC-2012(128 万张图片，1000 个类别)和JFT-300M(3亿张图片，18291个类别)两个数据集来训练ResNet50，精度分别是77%和79%。另外使用 JFT-300M训练ResNet152x4，精度可以上升到87.5%，相比ILSVRC-2012+ResNet50结构提升了10.5%。

虽然目前为止，大模型主要是以NLP为主，因为NLP抛弃了RNN序列依赖的问题，采用了Attention is All you need的Transformer结构，使得NLP能够演变出更多大模型。但是在最新的研究当做，图像领域也不甘示弱，CNN大模型也开始陆续涌现。例如ResNeXt WSL拥有8亿参数、GPipe拥有6亿参数规模，Google也通过EfficientNet-L2发布了4.8亿参数规模的网络模型，并且在JFT-300M数据集刷新了ImageNet的榜单，Top-1 Acc首次突破90。要知道在2020年，也就是1年前，大部分CNN网络模型规模都没有超过1亿，Top-1 Acc最高在87-89之间。

大模型应用场景

既然大模型能突破训练精度的极限，还能够兼容下游任务。那有没有一些具体的应用场景介绍呢？
智源研究院针对2021年北京冬奥会，提出了“悟道”大模型用于冬奥手语播报数字人，提供智能化的数字人手语生成服务，方便听障人士也能收看赛事专题报道，提升他们的社会参与度和幸福感。这个项目还得到了北京市残疾人联合会和市残联聋人协会的大力支持。

华为盘古CV大模型。主要是针对无人机电力智能巡检这个场景，以国网重庆永川供电公司为例，无人机智能巡检开发主要面临两个挑战：一是如何对海量数据进行高效标注；二是缺陷种类多达上百种，需要数十个AI识别模型。盘古CV大模型在数据标注方面，利用海量无标注电力数据进行预训练，结合少量标注样本进行微调，使得样本筛选效率提升约30倍，以永川供电每天采集5万张高清图片为例，可节省人工标注时间170人天。在模型通用性方面，可以做到一个模型适配上百种缺陷，替代原有20多个小模型，减少了模型维护成本，平均精度提升18.4%，开发成本降低90%。

当然也缺少不了最近双十一，双十一是淘宝系统服务最繁忙的一天，如何有效地应对成千上亿的用户咨询？基于达摩院开发的M6大模型智能生成内容文案，方便智能客服进行上下文理解和问题回答生成。另外大模型的多模态特征提取能力，也能进行商品属性标签补充、认知召回等下游任务。
大模型训练框架

目前部分深度学习框架，例如Pytorch和Tensorflow，没有办法满足超大规模模型训练的需求，于是微软基于Pytroch开发了DeepSpeed，腾讯基于Pytroch开发了派大星PatricStar，达摩院同基于Tensoflow开发的分布式框架Whale。像是华为昇腾的MindSpore、百度的PaddlePaddle，还有国内的追一科技OneFlow等厂商，对超大模型训练进行了深度的跟进与探索，基于原生的AI框架支持超大模型训练。

下面展开DeepSpeed和MindSpore来简单了解下。
2021年2月份微软发布了DeepSpeed，最核心的是显存优化技术ZeRO(零冗余优化器)，通过扩大规模、内存优化、提升速度、控制成本，四个方面推进了大模型训练能力。基于DeepSpeed微软开发了拥有170亿参数的图灵自然语言生成模型(Turing-NLG)。(2021年5月份发布的ZeRO-2，更是支持2000亿参数的模型训练)，另外微软联手英伟达，使用4480块A100组成的集群，发布了5300亿参数的NLP模型威震天-图灵(Megatron Turing-NLG)。
当然，作为国内首个支持千亿参数大模型训练的框架MindSpore这里面也提一下。在静态图模式下，MindSpore融合了流水线并行、模型并行和数据并行三种并行技术，开发者只需编写单机算法代码，添加少量并行标签，即可实现训练过程的自动切分，使得并行算法性能调优时间从月级降为小时级，同时训练性能相比业界标杆提升40%。
动态图模式下，MindSpore独特的函数式微分设计，能从一阶微分轻易地扩展到高阶微分，并进行整图性能优化，大幅提升动态图性能；结合创新的通讯算子融合和多流并行机制，较其它AI框架，MindSpore动态图性能提升60%。
<hr/>最后就是针对大模型的训练，网上很多人会说，大模型需要“大数据+大算力+强算法”三驾马车并驾齐驱。
ZOMI并不是非常认同这个观点，大模型首先是需要规模更大的海量数据，同时需要庞大的算力去支撑这个说没错。但是整体来说，这是一个系统工程，从并行训练到大规模并行训练，其中就包括对AI集群调度和管理，对集群通讯带宽的研究，对算法在模型的并行、数据的并行等策略上与通讯极限融合在一起考虑，求解在有限带宽前提下，数据通讯和计算之间的最优值。
目前在大模型这个系统工程里面，最主要的竞争对手有基于英伟达的GPU+微软的DeepSpeed，Google的TPU+Tensorflow，当然还有华为昇腾Atlas800+MindSpore三大厂商能够实现全面的优化。至于其他厂商，大部分都是基于英伟达的GPU基础上进行一些创新和优化。最后就是，核心技术在市场上并不是最重要的，谁能够为客户创造更大的价值，才是最后的赢家。

发表于 5 天前

大模型是指拥有海量参数、能够在大数据集上进行深度学习和训练的神经网络模型。超大模型则是指参数规模更大、计算资源需求更高的模型。而Foundation Model则是一种预训练模型，可以在多种任务上实现迁移学习，具有较好的通用性和可扩展性。<br><br>这些大模型之间的差异主要在于模型结构、训练数据、应用场景等方面。不同的模型针对不同的任务进行优化，因此具有不同的特点和优势。大模型的应用场景非常广泛，包括自然语言处理、计算机视觉、语音识别等领域。它们可以通过学习海量数据中的模式，实现更准确的预测和决策，从而提升各种应用的性能和用户体验。

什么是大模型？超大模型和 Foundation Model 呢？

本周热门