从今年年初开始,大量AI PC陆续上市,它们有一个显著的共性,就是都具备独立的本地AI算力。在其加持下,可以部署本地大模型。而能够本地运行大模型,这对AI PC这个概念真正的落地非常重要。其实我们不必如纠结在本问题的7B规模或者仅限于大语言模型。因为随着技术进步,7B这些数字很快就会失去意义。我们可以把视线看长远一点,思考得更深入一点:本地部署大语言模型,甚至是多模态大模型有意义吗?AI PC是炒作还是全村的希望?
作为计算机产业业内人士,我无疑对AI PC能否掀起一股换机潮,从而激活市场充满期待。但于此同时,AI PC高热度背后的隐忧也无须讳言:在基于云服务的AIGC已经被广泛认可的当下,PC本地部署AI大模型的必要性和可行性仍然存疑。这恰恰是决定AI PC能否成功的两个关键因素:
- 可行性,也就是PC硬件能否支撑得了大模型本地部署;
- 必要性,需要能够给用户带来真实价值的杀手级应用和独特使用场景。
而这两者互为因果和相互制约,很多时候是鸡和蛋的问题。很多时候,这种悖论掐灭了先行者的勇气,制约了新技术的发展。所幸,芯片制造商(如Intel等)和广大整机厂商已经勇敢得走出了第一步,2024一开年,率先推出了大量AI PC的笔记本电脑。舞台已经搭好,大戏的主角在哪里呢?
今年下半年登场的Windows 11 2024H2,它预计将搭载的本地AI Copilot助手,它也许就是一个AI PC的杀手级应用。目前的基于云的Copilot非常好用,多模态大模型用起来非常顺手,和Excel等Office联动也很好用。云Copilot既然这么好,为什么还要推出本地AI Copilot工具呢?那就是本地AI大模型,可以提供云端AI大模型不具备的几个优点:隐私好、响应快和服务优。
我作为固件工程师和科普达人,平时除了看文档和撸代码之外,花时间最多的就是写文档、ppt和科普文章了。它们普遍由三件工作量非常大的任务组成:文字、图片和视频。AIGC时代之前,当然代码和文字是手写了;图片是用搜索引擎在互联网上大海捞针,耗费大量时间筛选不说,图片版权往往存疑;视频更不是专长,能避免绝对不录视频,更别提创作了。 AIGC火了以后,ChatGPT确实好用,流行的Midjourney或者OpenAI的DALLE-3等闭源文生图网站也被我频繁访问,给我节省了非常多的时间。但这种远程访问云端AI算力的方法,也有很多问题。首先是有各种各样的限制,要不然得加钱;其次,但我觉得可能更加重要的是隐私性,文字和图片,甚至视频都要上传到云端进行加工,谁知道自己的资料会被怎么样使用。至于工作代码和关于芯片的各种文档,更是不能上传到云端,这样AIGC的效用就被大大打了折扣。
大模型的本地化部署,可以很好得规避上面的问题。但与此同时,也对本地AI算力提出了非常高的要求。现在的AI PC准备好了吗?在现在的AI PC上本地部署AI大模型,效果究竟怎么样呢?我就以手头的外星人Alienware x16 R2笔电,这款搭载了MTL CPU、NPU、iGPU和顶级4090独显的四个本地AI引擎的本地AI PC算力天花板,来实际部署本地大模型,看看效果。
AI PC的算力天花板
相信拥有一台Alienware外星人笔电是每一个游戏玩家最大的梦想。外星人系列无论是设计、外形和性能,都足够惊艳。
2024年的新款Alienware X16 R2更是在18.5mm的厚度下,容纳了顶级的RTX 4090笔记本显卡以及最新的高端AI移动处理器——酷睿Ultra 9 185H(MTL)。
酷睿Ultra CPU自带CPU、iGPU和NPU三大AI算力引擎,185H更是Ultra 9里面的最高端SKU,SOC AI算力摸到了34 TOPS。自带的RTX 4090笔记本显卡的AI算力虽不如台式机独显4090,也达到了686 TOPS。整体平台的AI算力:
MTL + 4090 laptop GPU = 34 + 686 = 720 TOPS
如此恐怖的算力,散热一定要跟上。外星人专属的Cryo-Tech超级散热架构和专属31号元素导热层恰恰可以将AI运算产生的热量全力排出去:
我们从C面宽大的散热孔中,就可以一窥它的结构。
酷睿Ultra 9 185H CPU,6P+8E+2LP,22线程,算力本身就非常厉害,这是CPU-Z和CinebenchR20、CinebenchR23的测试数据:
CPU-Z测试得分
CinebenchR20得分7252
CinebenchR23得分18256
用来办个公,真是杀鸡用牛刀:
PCMark现代办公数据
RTX 4090 Laptop GPU是所有用笔电玩游戏的用户的终极梦想,搭载这款顶级显卡的Alienware在游戏跑分也是顶级:
3DMark Time Spy跑分,非常非常高!
3DMark Fire Strick跑分
外星人Alienware x16 R2笔电可谓是目前AI PC本地算力的天花板了,它还搞不定的AI本地大模型,应该在短时间内,都不太可能被部署了。有了这个算力基础,我们来实际部署几个本地大模型,来看看实际效果和可用度如何,并切实体验一下本地部署的优点。
本地大模型部署效果
最近什么语言大模型最火?如果你回答ChatGPT,那有一点落伍了。Meta真正践行了OpenAI曾经承诺的开放公开的愿景,在Llama 2之后又推出Llama 3,打脸了闭源模型优于开源模型的论断。因为训练数据量的大幅提升(从2T到15T),Llama 3 70B模型的能力,已经可以和 Claude 3 Sonnet 与 Gemini 1.5 Pro 等量齐观,甚至都已经超过了GPT-4。更是由其开源的特性,可以不依赖KEY而完全本地离线部署。Llama 3在AI PC天花板外星人Alienware x16 R2上运行的如何呢?我们用GPT4All来实际体验一下。
首先需要下载安装GPT4All【1】和CUDA引擎。之后打开GPT4All,下载模型。这里可以搜索Llama 3来快速定位需要的模型:
我下载了8B和70B两个模型:
下载的时候,可以去设置界面皮肤和AI硬件引擎。外星人Alienware x16 R2我们可以分别选择4090 GPU和MTL CPU。GPU跑Llama 3 8B大模型速度飞快,每秒57个Tokens(注意需要中文回复的话,第一句要说“请用中文回复我”来限定后续使用中文):
GPU运行Llama 3 8B模型
CPU跑8B模型就有点吃力了,每秒7个Tokens:
CPU跑Llama 3 8B大模型
也不是不能用,就是要等。让我比较吃惊的是,外星人Alienware x16 R2也可以运行70B大模型,GPU引擎运行70B速度比CPU运行8B模型还要快一点。我甚至让他编写了一个固件UEFI的程序,也没有看出大的错误。个人体验,Llama 3本地部署起来还是比较简单的,效果比免费的ChatGPT 3.5好,响应速度快得多。关键是隐私性好,问点隐私问题也不怕泄密。更妙的是,我们还可以把本地文档,纳入GPT4All的资料库:
我有大量芯片资料文档,这些资料当然不能上传ChatGPT,就是拷贝给公司云也不可以(有我的水印)。于是检索这些文档就成了问题,普通的跨文件检索,需要字符完全匹配,完全没有AI能力,很不好用。于是导入本地文档的增强学习,就非常独特,能够解决实际问题,个人感觉会成为AI PC的一个独特的使用场景。
我也经常使用基于Midjourney生成图片,但云端使用有各种各样的限制(排队,次数等),图生图要上传个人图片总担心被挪作他用,有隐私焦虑。Stable Diffusion(SD)本地部署就不存在这种问题,我们一起来部署一下看看效果。SD有两个开源UI前端可以选择:WebUI或ComfyUI。我比较习惯用WebUI,本次就拿它来举例。
首先要下载最新版本的stable-diffusion-webui【2】和一些编译支撑工具。然后就可以去civitai【3】等网站上下载模型了:
模型下载好了之后,放入SD根目录Models\stable-diffusion(Checkpoint类型)下,点击webui.bat等编译通过,就可以开始图片生成了。
在WebUI会打开一个本地网页作为前端,在顶部的CheckPoint里面选好前面下载的模型,就可以开始自己生成图片了:
我用比较喜欢的Jib Mix Realistic XL大模型,画了一个我在家过五一节的心情:
提示词:
highest quality, extremely detailed, professional lighting, ((masterpiece)), cat sitting on a bridge by the lake, looking into the lake water, looking down, small fish swimming in the water
图片生成的非常快。有了本地SD的支持,写PPT和创作的时候,就可以根据需要表达的场景和主题,选择合适的模型和提示词,“创作”出一个没有版权纠纷的精美图片。我这个理工男,也可以有私人美工了,从此再也不用为没有题图而发愁了!
需要补充的是,Intel和英伟达,也各自为自己的芯片推出了大语言模型应用 [4]。外星人Alienware x16 R2笔电因为包含了两家的AI算力芯片,两个APP都可以用。读者可以下载比较一下。英伟达的ChatRTX软件集成度相对高一些,但默认安装的Mistral 7B LLM不太好用:
用户还可以在“Add new models”下安装新大模型,建议安装CLIP和ChatGLM 3 6B模型(还有Llama 2但没有Llama 3)。ChatGLM 3 6B测试下来比Llama 3还是要差一些,但也已经非常好用了,而且回答速度飞快。
这些大模型都支持本地文档,但CLIP比较有特色的是可以文本来快速检索出本地文件下的匹配图像,速度飞快:
CLIP搜索“a cat”的结果
CLIP结果一个正确,一个错误。
结论
AI PC需要强大的本地AI算力和大内存的支持,外星人Alienware x16 R2作为AI PC的算力天花板,720 TOPS整体算力和32GB大内存,在我们运行本地AI大模型看下来毫无问题。 AI PC硬件上已经准备好承接这一次AI从云到边的部分迁移,我们将这个阶段叫做AI PC Ready阶段,主要是硬件准备完毕;下一个阶段就是AI PC On阶段,关键是AI PC的杀手级应用和特殊使用场景。
在我这个将PC用作生产工具的用户看来,AI PC的软件已经初步准备好了,但他们目前就像早期的Linux发行版,都是给专业人士使用的,而不是面向一般消费者的真正产品,我部署SD的时候,都走了不少弯路。现在离真正普通用户可用,还需要好好打磨。还有一个问题,MTL的OpenVino运行库和GPU的CUDA运行库,不能协同工作,让720TOPS的算力不能成为一个整体,而变成分割的两个部分。这点更需要两家芯片公司协同来解决。
下面一个关键节点是下半年登场的Windows 11 2024H2,它将搭载的本地AI Copilot助手是个关键应用,加上其他本地大模型的产品化,也许今年下半年,AI PC能迎来真正的爆发。
x16 R2:
鼠标:
键盘:
参考链接
[1]: <a href="http://link.zhihu.com/?target=https%3A//gpt4all.io/index.html" class=" external" target="_blank" rel="nofollow noreferrer">https://gpt4all.io/index.html
[2]: https://github.com/AUTOMATIC1111/stable-diffusion-webui
[3]: https://civitai.com/
[4]: https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/ |
|