英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？

英伟达近日发布 Mistral-NeMo-Minitron 8B 小语言 AI 模型，具备精度高、计算效率高等优点，可在 GPU 加速的数据中心、云和工作站上运行模型。

发表于 5 天前

对于一个不在芯片行业的普通人，如果这个普通人还不打游戏不挖矿，基本上就是没什么概念，如果，把测试环境基于斯皮尔伯格的《头号玩家》，绿洲游戏有关的语境也许会更好的理解什么叫车好多的理想之家。

发表于 5 天前

相对当下，毋庸置疑是领先水平^_^

英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？-1.jpg

80亿参数规模在语言模型的九项流行基准测试中遥遥领先，显示出其在当前AI模型中的高水平。通过宽度剪枝和知识蒸馏技术的结合使用，英伟达能够在保持模型精度的同时，显著提高计算效率。

英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？-2.jpg

宽度剪枝：通过减少大型语言模型的计算需求，使其更适合在GPU、TPU等硬件上高效运行，降低内存占用和计算需求。

英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？-3.jpg

知识蒸馏：将一个复杂、庞大的模型的知识提炼并“灌输”给一个更小、更简单的模型，以提高小模型的泛化能力。
模型的应用场景：AI模型可以处理来自车辆传感器的大量数据，包括摄像头、雷达和激光雷达，用于精确地驾驶和导航。
小型自然语言模型适用于边缘运算节点，支持自动生成式人工智能技术的广泛应用。
与其他AI模型的想相比，之前的Mistral NeMo 12B模型，Mistral-NeMo-Minitron 8B在保持高精度的同时，具有更小的参数规模，使得模型更适合快速部署于资源有限的边缘运算节点。
在多个基准测试中表现优于Llama 3.1 8B和Gemma 7B，特别是在语言理解、常识推理、数学推理等方面展现出优异性能。
英伟达发布的80亿参数新AI模型不仅在参数规模上处于当前AI模型的领先水平，而且通过结合使用宽度剪枝和知识蒸馏技术，实现了高精度和高效率，为AI技术的应用开辟了新的可能性。

发表于 5 天前

英伟达用实际行动告诉了大家，老黄发布了这个世界上最快的Mistral-NeMo-Minitron 8B 小语言 AI 模型。
这一模型在上月发布的开源MistralNeMo12B模型基础上，进行了优化和缩减，，在此基础上英伟达再次推出更小的 Mistral-NeMo-Minitron 8B 模型，共 80 亿个参数，这种结合剪枝和蒸馏的混合技术，不仅保持了模型的精度，还显著提高了计算效率。

Mistral-NeMo-Minitron 8B究竟有那些亮点？

就其规模而言，在语言模型的九项流行基准测试中遥遥领先。这些基准涵盖了各种任务，包括语言理解、常识推理、数学推理、总结、编码和生成真实答案的能力。相关测试结果如下：

在测试中，在多个基准测试中表现优于 Llama 3.1 8B 和 Gemma 7B，主要表现在
1、通过宽度修剪 Mistral NeMo 12B 创建，修剪和知识提炼是秘诀
2、成本效益：与从头开始训练相比，训练 token 减少了 40 倍
3、基础模型已在 Hugging Face 上开放获取， ️将在 NVIDIA NeMo 框架中推出
4、修剪和知识蒸馏细节
8B 模型是通过对 Mistral NeMo 12B 基础模型进行宽度剪枝，然后使用知识提炼进行轻度再训练过程获得的。
为了纠正模型训练的原始数据集上的分布偏差，他们首先使用 127B 个标记在我们的数据集上对未剪枝的 Mistral NeMo 12B 模型进行微调。
使用 3800 亿个标记（与教师微调中使用的数据集相同）进行提炼。
刚才提到，在Mistral-NeMo-Minitron 8B模型的开发过程中，英伟达结合使用了宽度剪枝和知识蒸馏技术，这也是Mistral-NeMo-Minitron 8B模型的技术优势
给大家普及一下这2种技术：

宽度剪枝
宽度剪枝是一种减少大型语言模型计算需求的结构化剪枝方法。它通过减少投影权重矩阵的大小（例如，移除注意力头）来缩小网络宽度，同时保持层数不变。
传统的剪枝方法是随机或根据特定策略移除权重矩阵中的单个元素。虽然这种方法能有效减小模型的体积，但对硬件的利用效率不高，因为它破坏了权重矩阵的结构，难以充分利用现代硬件的并行计算优势。

所以，英伟达使用了一种结构化剪枝方法，保留了权重矩阵的结构，通过移除整个神经元、注意力头或卷积滤波器等，使得剪枝后的模型仍然适合在GPU、TPU等硬件上高效运行。这样可以降低模型的内存占用和计算需求，提升模型的训练速度和推理时间，使得大模型可以在有限的资源环境中进行部署。
说到这里，你对AI的剪枝云里雾里，你还不懂这个新模型中到底是怎么使用结构化的，那么很简单，我建议你去免费学习一下知乎知学堂的《程序员的AI大模型进阶之旅》，这里有业内大咖最快带你了解和学习 80 亿参数新 AI 模型的实现原理和应用技术，对宽度剪枝等LLM相关的技术做了大白话讲解，并且还能带你学习8BAI大模型技术与编程相结合，提供可运行Mistral-NeMo-Minitron 8B 模型的CPU和测试Demo，真正能让你学会AI方面的知识，入口我给大家要赤来了，直接听就可以了↓↓↓
在课上能够直接听到程序员如何通过AI大模型提高自己的专业技术。真的就清晰的讲解了AI大模型的基础知识与基本应用。听一听不会后悔的，现在还免费
知识蒸馏技术
为一种先进的机器学习技术，其核心理念在于将一个复杂、庞大的模型（通常称为教师模型）的知识和经验，提炼并“灌输”给一个更小、更简单的模型（学生模型）

英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？-4.jpg

蒸馏的核心思想是好的模型不是为了拟合训练数据，而是学习如何泛化到新的数据，所以蒸馏到目的是为了让学生模型学习到教师模型的泛化能力
结构化权重剪枝与知识蒸馏相结合，可以从初始较大的模型中逐步获得较小的语言模型。

英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？-5.jpg

经过剪枝和蒸馏，英伟达研究团队将 Llama 3.1 8B 提炼为 Llama-3.1-Minitron 4B 开源了出来。这是英伟达在 Llama 3.1 开源系列中的第一个作品。
80 亿参数新 AI 模型到底能有多牛批？

我这边以自动驾驶为例：
自动驾驶技术中，英伟达的AI模型可以用于处理来自车辆传感器的大量数据，包括摄像头、雷达和激光雷达。
我们都知道，自驾车需要的第三个方面是高度详细或高清的地图。为了精确地驾驶，汽车需要随时准确地知道它在哪里。根据我们的感应，汽车可以结合已知地图的知识，以厘米级的精度了解其位置。

英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？-6.jpg

存储在云端的地图和现实世界之间的任何差异将被传回云端，以更新高清地图。一旦我们知道我们的汽车在哪里，道路的拓扑结构是什么样的，并且跟踪场景中所有移动的物体（即汽车、卡车、行人、自行车），我们就可以计划一个安全的前进路径。自驾游管道的这一方面也包含了人工智能，因为我们可以训练神经网络来理解和预测人类行为。

英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？-7.jpg

英伟达的80亿参数的AI模型自我学习深度算法处理来自摄像头、雷达、激光雷达（LiDAR）等传感器的大量数据，以更高的精度识别和分类道路上的物体，如其他车辆、行人、交通标志等。

英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？-8.jpg

从用户体验的角度看，搭载Mistral-NeMo-Minitron8B的系统在各类操作中表现出色，高效完成大型数据集分析和复杂语言模型训练，节省时间，提升精准度。覆盖研究机构、企业应用到个人开发者需求，提供一站式解决方案，就连代码AI都可以一键帮你完成了！
AI的带来，无疑是给社会带来更加先进的生产力，聪明的人已经把像chatgpt这样的AI工具用得风生水起了，但大部分职场人还只知道埋头苦干，结果就是吃了信息闭塞的亏。所以我建议你花点时间学学知学堂的这门【程序员的AI大模型进阶之旅】，邀请了很多圈内的大佬，用2天的免费课程，帮助我们快速了解各种大莫型的擅长领域、使用技巧，综合考虑各种大模型的基础架构和使用体验，现在直播免费领，很快就没有了，先来占个位置不吃亏~
<a data-draft-node="block" data-draft-type="edu-card" data-edu-card-id="1810444425228341248">来听一下也许能打开自己的思路和眼界，帮助你找到 AI 落地的方向，做出属于自己的大模型应用。
总体看下来，英伟达发布的这款 80 亿参数新 AI 模型性能很强，安全，很高效。据说，英文大要开发由生成式物理 AI ，未又是一轮 AI 浪潮
在人工智能领域，英伟达无疑是一颗璀璨的明星！

发表于 5 天前

NVIDIA最近推出的Mistral-NeMo-Minitron 8B模型，不仅是一个新产品，更是AI领域技术进步的一个缩影。要理解这个模型的独特之处，我们先得从AI模型的“参数规模”说起。

参数规模的重要性
AI模型的参数规模通常被视为衡量其能力的一个关键指标。参数越多，模型的学习能力和复杂度也越高。在理论上，这意味着模型可以捕捉更复杂的模式，生成更精确的结果。因此，大模型如OpenAI的GPT-4，拥有超过百亿级的参数，成为了处理复杂任务的首选。
然而，参数规模的增大也伴随着计算资源需求的飞速增长。运行一个百亿参数的模型往往需要昂贵的硬件设备、庞大的数据中心以及高昂的电力消耗，这使得这些大模型难以在普通的硬件设备上应用。正因如此，NVIDIA的Mistral-NeMo-Minitron 8B显得格外特别。
Mistral-NeMo-Minitron 8B：以小博大
Mistral-NeMo-Minitron 8B的特别之处在于，它通过创新的修剪（Pruning）和蒸馏（Distillation）技术，成功地将原本12B的模型缩减到8B。具体来说，修剪技术让模型去除了对准确性贡献最小的权重，而蒸馏则在修剪后对模型进行重新训练，以恢复甚至提升其准确性 (NVIDIA Blog) (Tom&#39;s Hardware)。
这种技术的应用使得8B模型在保持高准确度的同时，大大降低了计算资源的需求。这意味着企业和开发者可以在普通的工作站、甚至是笔记本电脑上，运行这个高效的AI模型，享受到接近12B模型的性能，而无需依赖庞大的服务器群 (Tom&#39;s Hardware)。

小而精的应用场景
NVIDIA的8B模型被定位为“小而精”，适用于那些需要强大AI能力但硬件资源有限的场景。例如，企业可以在自己的本地服务器上部署这个模型，用于构建聊天机器人、虚拟助手、内容生成器等应用，而不必担心将敏感数据上传到云端。这种本地化的AI应用不仅减少了延迟，还提升了数据安全性 (NVIDIA Developer) (Hawkdive.com)。
此外，对于资源更为紧张的设备，像是智能手机或嵌入式设备，NVIDIA还提供了进一步压缩的模型版本。通过NVIDIA AI Foundry平台，开发者可以将Mistral-NeMo-Minitron 8B进一步缩减，以适应更加严格的硬件限制 (Hawkdive.com)。
参数规模与性能的权衡
在AI模型的设计中，参数规模和性能之间往往存在权衡。大模型的优势显而易见，但小模型在实际应用中也有其独特的优势。NVIDIA通过创新的修剪和蒸馏技术，成功地平衡了这个“参数规模与性能”的矛盾。这不仅提升了模型的实际应用价值，也为未来的AI模型设计提供了新的思路。
可以预见，随着技术的不断进步，未来的AI模型将能够在更小的参数规模下，达到更高的性能。NVIDIA的Mistral-NeMo-Minitron 8B只是一个开始，它展示了小模型的巨大潜力，以及在节能环保、高效计算方面的独特优势。

总结
Mistral-NeMo-Minitron 8B的发布，标志着AI技术进入了一个新的阶段。它不仅展示了如何在不牺牲性能的前提下，缩小模型规模，更为各行各业提供了一个实用、可负担的AI解决方案。无论是在大型企业的数据中心，还是在个人开发者的笔记本上，这款8B模型都能展现出它的独特魅力。
通过对模型参数的精细优化，NVIDIA将AI技术带入了一个更加高效、更加普及的时代。未来，随着更多类似技术的出现，AI的应用范围将进一步扩大，真正实现“AI赋能所有人”的愿景 (NVIDIA Developer) (Tom&#39;s Hardware)。

英伟达发布 80 亿参数新 AI 模型，这一参数规模在当前 AI 模型中处于什么水平？

本周热门