2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？

目前英特尔、AMD、英伟达都在推动大语言模型的本地运行，主要是将开源的LLAMA、chatGLM等在PC上运行。你认为这有意义吗？

发表于 6 天前

从今年年初开始，大量AI PC陆续上市，它们有一个显著的共性，就是都具备独立的本地AI算力。在其加持下，可以部署本地大模型。而能够本地运行大模型，这对AI PC这个概念真正的落地非常重要。其实我们不必如纠结在本问题的7B规模或者仅限于大语言模型。因为随着技术进步，7B这些数字很快就会失去意义。我们可以把视线看长远一点，思考得更深入一点：本地部署大语言模型，甚至是多模态大模型有意义吗？AI PC是炒作还是全村的希望？
作为计算机产业业内人士，我无疑对AI PC能否掀起一股换机潮，从而激活市场充满期待。但于此同时，AI PC高热度背后的隐忧也无须讳言：在基于云服务的AIGC已经被广泛认可的当下，PC本地部署AI大模型的必要性和可行性仍然存疑。这恰恰是决定AI PC能否成功的两个关键因素：

可行性，也就是PC硬件能否支撑得了大模型本地部署；
必要性，需要能够给用户带来真实价值的杀手级应用和独特使用场景。

而这两者互为因果和相互制约，很多时候是鸡和蛋的问题。很多时候，这种悖论掐灭了先行者的勇气，制约了新技术的发展。所幸，芯片制造商（如Intel等）和广大整机厂商已经勇敢得走出了第一步，2024一开年，率先推出了大量AI PC的笔记本电脑。舞台已经搭好，大戏的主角在哪里呢？
今年下半年登场的Windows 11 2024H2，它预计将搭载的本地AI Copilot助手，它也许就是一个AI PC的杀手级应用。目前的基于云的Copilot非常好用，多模态大模型用起来非常顺手，和Excel等Office联动也很好用。云Copilot既然这么好，为什么还要推出本地AI Copilot工具呢？那就是本地AI大模型，可以提供云端AI大模型不具备的几个优点：隐私好、响应快和服务优。
我作为固件工程师和科普达人，平时除了看文档和撸代码之外，花时间最多的就是写文档、ppt和科普文章了。它们普遍由三件工作量非常大的任务组成：文字、图片和视频。AIGC时代之前，当然代码和文字是手写了；图片是用搜索引擎在互联网上大海捞针，耗费大量时间筛选不说，图片版权往往存疑；视频更不是专长，能避免绝对不录视频，更别提创作了。 AIGC火了以后，ChatGPT确实好用，流行的Midjourney或者OpenAI的DALLE-3等闭源文生图网站也被我频繁访问，给我节省了非常多的时间。但这种远程访问云端AI算力的方法，也有很多问题。首先是有各种各样的限制，要不然得加钱；其次，但我觉得可能更加重要的是隐私性，文字和图片，甚至视频都要上传到云端进行加工，谁知道自己的资料会被怎么样使用。至于工作代码和关于芯片的各种文档，更是不能上传到云端，这样AIGC的效用就被大大打了折扣。
大模型的本地化部署，可以很好得规避上面的问题。但与此同时，也对本地AI算力提出了非常高的要求。现在的AI PC准备好了吗？在现在的AI PC上本地部署AI大模型，效果究竟怎么样呢？我就以手头的外星人Alienware x16 R2笔电，这款搭载了MTL CPU、NPU、iGPU和顶级4090独显的四个本地AI引擎的本地AI PC算力天花板，来实际部署本地大模型，看看效果。
AI PC的算力天花板

相信拥有一台Alienware外星人笔电是每一个游戏玩家最大的梦想。外星人系列无论是设计、外形和性能，都足够惊艳。

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-1.jpg

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-2.jpg

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-3.jpg

2024年的新款Alienware X16 R2更是在18.5mm的厚度下，容纳了顶级的RTX 4090笔记本显卡以及最新的高端AI移动处理器——酷睿Ultra 9 185H（MTL）。

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-4.jpg

酷睿Ultra CPU自带CPU、iGPU和NPU三大AI算力引擎，185H更是Ultra 9里面的最高端SKU，SOC AI算力摸到了34 TOPS。自带的RTX 4090笔记本显卡的AI算力虽不如台式机独显4090，也达到了686 TOPS。整体平台的AI算力：
MTL + 4090 laptop GPU = 34 + 686 = 720 TOPS
如此恐怖的算力，散热一定要跟上。外星人专属的Cryo-Tech超级散热架构和专属31号元素导热层恰恰可以将AI运算产生的热量全力排出去：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-5.jpg

我们从C面宽大的散热孔中，就可以一窥它的结构。
酷睿Ultra 9 185H CPU，6P+8E+2LP，22线程，算力本身就非常厉害，这是CPU-Z和CinebenchR20、CinebenchR23的测试数据：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-6.jpg

CPU-Z测试得分

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-7.jpg

CinebenchR20得分7252

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-8.jpg

CinebenchR23得分18256

用来办个公，真是杀鸡用牛刀：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-9.jpg

PCMark现代办公数据

RTX 4090 Laptop GPU是所有用笔电玩游戏的用户的终极梦想，搭载这款顶级显卡的Alienware在游戏跑分也是顶级：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-10.jpg

3DMark Time Spy跑分，非常非常高！

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-11.jpg

3DMark Fire Strick跑分

外星人Alienware x16 R2笔电可谓是目前AI PC本地算力的天花板了，它还搞不定的AI本地大模型，应该在短时间内，都不太可能被部署了。有了这个算力基础，我们来实际部署几个本地大模型，来看看实际效果和可用度如何，并切实体验一下本地部署的优点。
本地大模型部署效果

最近什么语言大模型最火？如果你回答ChatGPT，那有一点落伍了。Meta真正践行了OpenAI曾经承诺的开放公开的愿景，在Llama 2之后又推出Llama 3，打脸了闭源模型优于开源模型的论断。因为训练数据量的大幅提升（从2T到15T），Llama 3 70B模型的能力，已经可以和 Claude 3 Sonnet 与 Gemini 1.5 Pro 等量齐观，甚至都已经超过了GPT-4。更是由其开源的特性，可以不依赖KEY而完全本地离线部署。Llama 3在AI PC天花板外星人Alienware x16 R2上运行的如何呢？我们用GPT4All来实际体验一下。
首先需要下载安装GPT4All【1】和CUDA引擎。之后打开GPT4All，下载模型。这里可以搜索Llama 3来快速定位需要的模型：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-12.jpg

我下载了8B和70B两个模型：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-13.jpg

下载的时候，可以去设置界面皮肤和AI硬件引擎。外星人Alienware x16 R2我们可以分别选择4090 GPU和MTL CPU。GPU跑Llama 3 8B大模型速度飞快，每秒57个Tokens（注意需要中文回复的话，第一句要说“请用中文回复我”来限定后续使用中文）：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-14.jpg

GPU运行Llama 3 8B模型

CPU跑8B模型就有点吃力了，每秒7个Tokens：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-15.jpg

CPU跑Llama 3 8B大模型

也不是不能用，就是要等。让我比较吃惊的是，外星人Alienware x16 R2也可以运行70B大模型，GPU引擎运行70B速度比CPU运行8B模型还要快一点。我甚至让他编写了一个固件UEFI的程序，也没有看出大的错误。个人体验，Llama 3本地部署起来还是比较简单的，效果比免费的ChatGPT 3.5好，响应速度快得多。关键是隐私性好，问点隐私问题也不怕泄密。更妙的是，我们还可以把本地文档，纳入GPT4All的资料库：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-16.jpg

我有大量芯片资料文档，这些资料当然不能上传ChatGPT，就是拷贝给公司云也不可以（有我的水印）。于是检索这些文档就成了问题，普通的跨文件检索，需要字符完全匹配，完全没有AI能力，很不好用。于是导入本地文档的增强学习，就非常独特，能够解决实际问题，个人感觉会成为AI PC的一个独特的使用场景。
我也经常使用基于Midjourney生成图片，但云端使用有各种各样的限制（排队，次数等），图生图要上传个人图片总担心被挪作他用，有隐私焦虑。Stable Diffusion（SD）本地部署就不存在这种问题，我们一起来部署一下看看效果。SD有两个开源UI前端可以选择：WebUI或ComfyUI。我比较习惯用WebUI，本次就拿它来举例。
首先要下载最新版本的stable-diffusion-webui【2】和一些编译支撑工具。然后就可以去civitai【3】等网站上下载模型了:

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-17.jpg

模型下载好了之后，放入SD根目录Models\stable-diffusion（Checkpoint类型）下，点击webui.bat等编译通过，就可以开始图片生成了。
在WebUI会打开一个本地网页作为前端，在顶部的CheckPoint里面选好前面下载的模型，就可以开始自己生成图片了：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-18.jpg

我用比较喜欢的Jib Mix Realistic XL大模型，画了一个我在家过五一节的心情：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-19.jpg

提示词：
highest quality, extremely detailed, professional lighting, ((masterpiece)), cat sitting on a bridge by the lake, looking into the lake water, looking down, small fish swimming in the water
图片生成的非常快。有了本地SD的支持，写PPT和创作的时候，就可以根据需要表达的场景和主题，选择合适的模型和提示词，“创作”出一个没有版权纠纷的精美图片。我这个理工男，也可以有私人美工了，从此再也不用为没有题图而发愁了！
需要补充的是，Intel和英伟达，也各自为自己的芯片推出了大语言模型应用 [4]。外星人Alienware x16 R2笔电因为包含了两家的AI算力芯片，两个APP都可以用。读者可以下载比较一下。英伟达的ChatRTX软件集成度相对高一些，但默认安装的Mistral 7B LLM不太好用：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-20.jpg

用户还可以在“Add new models”下安装新大模型，建议安装CLIP和ChatGLM 3 6B模型（还有Llama 2但没有Llama 3）。ChatGLM 3 6B测试下来比Llama 3还是要差一些，但也已经非常好用了，而且回答速度飞快。

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-21.jpg

这些大模型都支持本地文档，但CLIP比较有特色的是可以文本来快速检索出本地文件下的匹配图像，速度飞快：

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？-22.jpg

CLIP搜索“a cat”的结果

CLIP结果一个正确，一个错误。
结论

AI PC需要强大的本地AI算力和大内存的支持，外星人Alienware x16 R2作为AI PC的算力天花板，720 TOPS整体算力和32GB大内存，在我们运行本地AI大模型看下来毫无问题。 AI PC硬件上已经准备好承接这一次AI从云到边的部分迁移，我们将这个阶段叫做AI PC Ready阶段，主要是硬件准备完毕；下一个阶段就是AI PC On阶段，关键是AI PC的杀手级应用和特殊使用场景。
在我这个将PC用作生产工具的用户看来，AI PC的软件已经初步准备好了，但他们目前就像早期的Linux发行版，都是给专业人士使用的，而不是面向一般消费者的真正产品，我部署SD的时候，都走了不少弯路。现在离真正普通用户可用，还需要好好打磨。还有一个问题，MTL的OpenVino运行库和GPU的CUDA运行库，不能协同工作，让720TOPS的算力不能成为一个整体，而变成分割的两个部分。这点更需要两家芯片公司协同来解决。
下面一个关键节点是下半年登场的Windows 11 2024H2，它将搭载的本地AI Copilot助手是个关键应用，加上其他本地大模型的产品化，也许今年下半年，AI PC能迎来真正的爆发。
x16 R2：
鼠标：
键盘：
参考链接

[1]: <a href="http://link.zhihu.com/?target=https%3A//gpt4all.io/index.html" class=" external" target="_blank" rel="nofollow noreferrer">https://gpt4all.io/index.html
[2]: https://github.com/AUTOMATIC1111/stable-diffusion-webui
[3]: https://civitai.com/
[4]: https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/

发表于 6 天前

1文件+2个命令，无需安装，单机离线运行70亿大模型
大家好，我是老章
最近苹果发布了自己的深度学习框架--MLX，专门为自家M系列芯片优化。看了展示视频，这个框架还能直接运行Llama 7B的大模型，在M2 Ultral上运行流畅。但是我尝试了一下，我的M2 Mac mini根本跑不动，模型权重太大了。
这倒勾起了我继续单机玩大模型的兴趣，然后就发现了llamafile的玩法：下载模型文件、直接执行即可浏览器中运行，就可以开始聊天，还可以上传图片进行提问。
先不介绍原理，直接看看如何运行吧：
1、下载llava-v1.5-7b-q4-server.llama 文件（对应模型是LLaVA 1.5，在 Llama 2 之上进行微调的大型多模式模型）

下载地址：https://huggingface.co/jartine/llava-v1.5-7B-GGUF/resolve/main/llava-v1.5-7b-q4-server.llamafile?download=true
鉴于有些同学可能无法访问huggingface，我也准备了这个文件在网盘，有需要可以找我要一下。
2、MacOS和linux用户需要在命令行中先授权这个文件可执行
chmod +x llava-v1.5-7b-q4-server.llamafile
# 然后运行
./llava-v1.5-7b-q4-server.llamafile

如果是windows用户，那就更省事了，直接重命名这个文件，后面加上 .exe 即可
3、浏览器会自动弹开聊天界面（如果没有，浏览器中直接打开https://localhost:8080即可）

首次打开需要配置一些参数，也可以直接使用默认值。
除了聊天，也可以上传图片让它识别。聊天完毕后，返回终端并点击 Control-C关闭 llamafile。

顺便简单介绍一下llamafile：
这个大模型文件是Mozilla 团队发布的，这个文件包含 LLM 的模型权重和运行该模型所需的代码，可以将它视为一个完整的本地服务器，带有用于与其交互的 Web UI。
llamafile是基于llama.cpp（一个领先的开源 LLM 聊天机器人框架）和Cosmopolitan Libc（一个开源项目，使 C 程序能够在大量平台和架构上编译和运行）实现的。使用 llamafile，可以将大型语言模型 (LLM) 权重文件转换为可在六种操作系统（macOS、Windows、Linux、FreeBSD、OpenBSD 和 NetBSD）上运行的二进制文件，而无需安装，确保给定的一组权重将永远保持可用并一致且可重复地执行。
想要了解更多，可以参考一下资料：
模型演示：https://llava.hliu.cc/
模型简介：https://llava-vl.github.io/
模型代码：https://github.com/haotian-liu/LLaVA
llamafile开源地址：https://github.com/Mozilla-Ocho/llamafile
llamafile简介：https://hacks.mozilla.org/2023/11/introducing-llamafile/

发表于 6 天前

那怎么能说有意义呢，那是相当有意义~
我姑且预言一波，在PC本地运行大语言模型，会成为未来PC的标配。
为什么这么说呢，主要有三个原因：个性化、高性能、高安全。
先说个性化。从AI大模型爆发到发展至今，人们对大模型的态度和接受程度也在不断变化。我相信绝大多数人一开始都被大模型的震撼感冲击到，但试用之后，现在还在日常使用大模型的人还有多少呢？
从大模型本身的角度来看，单纯提供模型已经不是各家厂商「卷」的方向了，重点已经变成如何能够更好的帮助每个使用者解决他们自己的问题。就看看OpenAI最新的发布会，应用商店、各种定制化的ChatGPT模型层出不穷，本质上就是要根据每个人的使用场景和问题做深度定制。
所以，一招鲜吃遍天的时代或许已经过去了，只有根据自身需要而不断进化的AI才有意义，才是未来发展的方向。
为了实现定制化和个性化，就必须要让大模型更加贴近使用者本身，而我们每天都在用的PC就成为了一个非常好的平台。如果能把大模型直接放在PC上，无时无刻的学习使用者的习惯，自动分析我在每个工作上花的时间，然后针对性的帮我提升，这势必将极大的提升使用者的工作和学习效率。
可能有人问，这种定制化和个性化需不需要对模型进行重训练？其实也并不一定。AI本身就可以基于基础模型进行自我学习和优化。我们常说的AI越用越聪明、越来越懂你，其实就是基于这样的原理。
再说高性能。这个应该很好理解，一方面是避免了网络传输的延时和不便，另一方面也能更加稳定、不会和其他用户抢云端算力。
你就想想，坐着飞机在天上飞，但是打开电脑就能咔咔和大模型交互，压根不需要联网，那叫一个丝滑。更重要的是，本地运行的大模型可以和其他PC应用无缝结合，比如你在写word、画ppt、用excel的时候，也可以同步用本地运行的大模型来帮你优化文字、生成图片、做数据计算等等，效率肯定进一步起飞。
有一说一，现在的PC上已经集成了很多AI能力，但大都是比较初级和被动的程度，比如开会的时候做个降噪、视频的时候模糊一下背景等等。有了大模型之后，就能做更加智能、甚至主动的AI。这当然和模型算法的进化有关，但PC处理器芯片的AI算力也至关重要。后面我们详细展开。
再说一下安全性，这个也是很多公司和使用者关注的重点。当前很多大公司其实并没有全面拥抱大模型，或者试用过一段时间就叫停了，原因就是发现一些秘密数据被「喂」给了大模型，结果在其他地方泄露了。云端大模型相当于一个「吃百家饭」的货，所有用户的信息都喂给它，说不定什么时候就在其他地方被吐出来了，造成安全问题。
但如果大模型部署在本地，直接在PC上运行，就能避免很多安全性的风险。
那么为了支持个性化、高性能和高安全，传统的PC处理器是肯定没办法的，特别是算力不够。所以这就成了PC处理器芯片大厂们接下来发力的方向。
图灵奖得主David Patterson说过，现在是体系结构的黄金时代。本质上就是因为像AI这样的新应用和新场景层出不穷，给芯片设计者带来了更多优化架构的方法，我们也看到，PC处理器芯片的设计趋势也从单一结构（同构），转变成大小核、多加速器的结合体（异构）。
就拿英特尔最新发布的Meteor Lake处理器举例，它最大的架构变革之一，就是首次将人工智能加速引擎NPU集成到了PC处理中，从而极大提升了PC的AI算力。NPU的引入，也标志着蓝厂构建XPU能力的关键一步。
从架构上来看，NPU中集成了两个神经网络计算引擎，每个引擎中包含大量乘加MAC阵列，以及专用的激活函数硬件加速器、以及用来做量化、转换、融合和存取的硬件单元。

MAC阵列中，支持矩阵乘法、卷积，数据类型支持INT8和FP16，每个引擎可以实现每周期2048次MAC运算。

存储方面，两个神经网络引擎共享Scratchpad存储器和DMA，采用了图形编译器优化调度DMA任务，从而加速数据的搬运和缓存。
和CPU相比，NPU针对卷积神经网络做了针对性优化，更擅长做复杂模型和运算的处理。由于NPU针对AI任务而专门设计，所以能兼顾运行时的低功耗。

比如用来做图片生成的Stable Diffusion，从用户给到输入到最后的图片输出需要经过文本编码器、Unet、VAE等四个模型的处理、并且需要经历扩散阶段的多次迭代，生成一张图片需要消耗大量CPU或GPU的计算资源。但使用了NPU之后，就能明显提升图片生成的吞吐量，效率提升达7.8倍。

除了强大的NPU算力，Meteor Lake也集成了GPU的AI加速能力，比如支持DP4A指令，每个周期可以执行64次INT8运算，并且可以完成32位累加等等。

一个高性能的AI系统自然也离不开软件的支持。这次Meteor Lake为开发者提供了完整的AI软件堆栈，从上到下分别有AI API、编译器和算子库、驱动程序、以及对底层硬件的映射与支持。

这种统一AI高性能堆栈的好处，就是让不同应用都能很好的利用起相同的一套软件开发系统，比如像Teams这样的音视频交流软件可以利用这个堆栈里的OpenVINO推理引擎，并利用NPU提升音视频的AI能力。一些像Adobe这样的创意软件，则可以使用DirectML API，调用GPU提升AI算力。
从操作系统的层面来看，它非常适合作为一个中间层，隐藏底层的硬件信息，同时给软件开发者提供算力管理和资源调度的能力。因此芯片算力能被用起来多少，其实也非常依赖于操作系统的针对性优化。英特尔也在和微软合作，不断优化NPU在Windows里的调度，最大化发挥NPU的性能。之后也可以在windows里看到NPU的使用情况，评估AI的算力利用率。
除了架构和软硬件的协同优化，Meteor Lake在制造工艺上也颇有看头。它是首个采用Intel 4工艺进行量产的CPU，并采用了Foveros 3D封装技术。单工艺的角度来看，就会有较高的性能提升和功耗降低，这也为NPU的集成和AI算力的提升提供了核心的技术支撑。
为了实现AI在PC上的真正落地，芯片是万里长征的第一步，同样重要的其实是生态。得生态者得天下，这一点绿厂的CUDA、华子「遥遥领先」的鸿蒙、OpenAI的大模型商店，其实都是这样的思路。而蓝厂也看到了AI PC生态的重要机会。
在各家芯片大厂都在开始在芯片里集成AI能力的时候，AI PC的生态仍然处于比较早期的发展阶段。这里既包括面向开发者的软件生态，也包括面向使用者的成熟软件产品，显然需要软硬件公司们一起合作发力。不过，总要有一个带头大哥。今年十月，蓝厂就推出了AI PC加速计划，将与超过100家ISV厂商深度合作、集成300余项AI加速功能，为超过1亿台PC带来AI特性。

有了生态的推动，相信无论是大语言模型，还是用个性化推荐、大数据分析、安全性增强等等传统的AI能力，都会成为未来PC的标配。这对于我们这些普通用户来说，势必会带来新一波效率的提升。比如可以使用PC里的AI辅助创意和设计工作，像音乐制作、图片生成这些之前需要大量云端资源的工作，未来都可以在本地的PC上轻松完成。还能根据我们的使用习惯和兴趣推荐电影、音乐或游戏。
总之，当前AI更多存在云计算，但其实PC端有着更多机会，因为这是普通人每天都在使用的领域。作为PC的定义者，英特尔对于未来「PC」的认知，已经从Personal Computer，变成了Personal Computing。通过芯片+生态降低了算力门槛，AI自然会无处不在。相信AI+PC的结合，会成为未来几年PC发展的重点方向，也会给我们这些普通消费者带来更多效率提升。
以上。

发表于 6 天前

7B其实已经算是很大的模型了。CV领域最大的模型也就几百M，Stable Diffusion的大模型也只有1.5B左右，只有语言模型领域才会有那些超大规模你想。
不要低估7B模型的潜力。我想任何用过rwkv-world 7B（尤其是针对角色扮演的微调版）的用户都能理解这一点。

发表于 6 天前

现实的角度是钱的问题。也即是说对于企业来说能否盈利，对于消费者来说花钱买算力是否划算。
其实题目没有必要限制在6-7b的模型，实际上现在一众13,14B的模型经过4位量化的性能已经非常惊艳。目前自己部署过的，国产的有千问13B。根据mistral 7B的惊艳表现，估计mistral 13B可能完全是gpt3.5的水平，甚至更好。int4 量化的13B模型，需要大概13G显存，也即是现在4060ti 16G 就能跑。最近流传 gpt3.5-turbo实际上是一个20B模型。所以作为一个消费者，我如果需一张本地大模型计算卡，应该是一个至少有24g显存，然后运行13-20B模型，推理速度 >= 20 token/s的显卡。现在英伟达也在开发自己的大模型推理加速框架，也许3060ti这种级别算力的显卡也许可以达到要求。假定这张卡定价是3000左右，那其实对于非游戏佬消费者来说，就是花3000块加一张显卡值不值得问题。如果按照显卡两年贬值50%粗略估算，那一年的显卡贬值为750元。文心4.0目前看起来和gpt3.5-turbo是差不多，而文心会员是50元/月，一年600元。考虑到独享算力，和数据隐私来说，照现国内大模型的智能水平，本地部署是很划算的。那如果有非月费服务呢，比如说现在百川每千token是0.02rmb（这个价格下降空间还很大），750元可以处理3700万token。。。。考虑到上下文，按照sharegpt 平均长度337token计算，也即是平均每天要进行大约150次问答，这个可能已经超过了每个人每天的需求量，而且使用的是更大效果更好的模型。所以普通用户如果使用token计费的产品，自己买显卡是明显不划算的。但是对于，有数据隐私要求的企业来说，本地部署大模型性价比还是很高的。
那对于显卡厂商来说可以赚钱吗，如果游戏卡赚钱，那么这种大模型计算卡就可以赚钱。而且消费级大模型计算卡的需求量应该会比游戏卡高。
其实还有更应该考虑的角色：机器人。现在给机器人加上大模型计算卡，可以实现更快的first token返回时间。机器人可以实现接近人类的对话，更好的任何规划能力，多模态语意理解能力。可以说有大模型和没有大模型加持的机器人，完全是两种东西。这里广义上的机器人也包括智能汽车。所以这个想象空间还是很大。

跳出钱的角度，这实际上是一个中心化还是去中心化的问题。从人类目前的伦理和控制AI危险来考虑，不应该把所有AI计算都交给中心化的数据中心。所以本地大模型卡和AI PC这样的产品也是有意义的。

以上为个人浅见，所有数据引用纯凭记忆，没有核实。

2024年开始，AI PC将登上舞台，你认为本地运行6-7B 的大语言模型有意义吗？

本周热门