韩建飞 发表于 6 天前

2024年开始,AI PC将登上舞台,你认为本地运行6-7B 的大语言模型有意义吗?

目前英特尔、AMD、英伟达都在推动大语言模型的本地运行,主要是将开源的LLAMA、chatGLM等在PC上运行。你认为这有意义吗?

Shoubuliao 发表于 6 天前

从今年年初开始,大量AI PC陆续上市,它们有一个显著的共性,就是都具备独立的本地AI算力。在其加持下,可以部署本地大模型。而能够本地运行大模型,这对AI PC这个概念真正的落地非常重要。其实我们不必如纠结在本问题的7B规模或者仅限于大语言模型。因为随着技术进步,7B这些数字很快就会失去意义。我们可以把视线看长远一点,思考得更深入一点:本地部署大语言模型,甚至是多模态大模型有意义吗?AI PC是炒作还是全村的希望?
作为计算机产业业内人士,我无疑对AI PC能否掀起一股换机潮,从而激活市场充满期待。但于此同时,AI PC高热度背后的隐忧也无须讳言:在基于云服务的AIGC已经被广泛认可的当下,PC本地部署AI大模型的必要性和可行性仍然存疑。这恰恰是决定AI PC能否成功的两个关键因素:

[*]可行性,也就是PC硬件能否支撑得了大模型本地部署;
[*]必要性,需要能够给用户带来真实价值的杀手级应用和独特使用场景。
而这两者互为因果和相互制约,很多时候是鸡和蛋的问题。很多时候,这种悖论掐灭了先行者的勇气,制约了新技术的发展。所幸,芯片制造商(如Intel等)和广大整机厂商已经勇敢得走出了第一步,2024一开年,率先推出了大量AI PC的笔记本电脑。舞台已经搭好,大戏的主角在哪里呢?
今年下半年登场的Windows 11 2024H2,它预计将搭载的本地AI Copilot助手,它也许就是一个AI PC的杀手级应用。目前的基于云的Copilot非常好用,多模态大模型用起来非常顺手,和Excel等Office联动也很好用。云Copilot既然这么好,为什么还要推出本地AI Copilot工具呢?那就是本地AI大模型,可以提供云端AI大模型不具备的几个优点:隐私好、响应快和服务优。
我作为固件工程师和科普达人,平时除了看文档和撸代码之外,花时间最多的就是写文档、ppt和科普文章了。它们普遍由三件工作量非常大的任务组成:文字、图片和视频。AIGC时代之前,当然代码和文字是手写了;图片是用搜索引擎在互联网上大海捞针,耗费大量时间筛选不说,图片版权往往存疑;视频更不是专长,能避免绝对不录视频,更别提创作了。 AIGC火了以后,ChatGPT确实好用,流行的Midjourney或者OpenAI的DALLE-3等闭源文生图网站也被我频繁访问,给我节省了非常多的时间。但这种远程访问云端AI算力的方法,也有很多问题。首先是有各种各样的限制,要不然得加钱;其次,但我觉得可能更加重要的是隐私性,文字和图片,甚至视频都要上传到云端进行加工,谁知道自己的资料会被怎么样使用。至于工作代码和关于芯片的各种文档,更是不能上传到云端,这样AIGC的效用就被大大打了折扣。
大模型的本地化部署,可以很好得规避上面的问题。但与此同时,也对本地AI算力提出了非常高的要求。现在的AI PC准备好了吗?在现在的AI PC上本地部署AI大模型,效果究竟怎么样呢?我就以手头的外星人Alienware x16 R2笔电,这款搭载了MTL CPU、NPU、iGPU和顶级4090独显的四个本地AI引擎的本地AI PC算力天花板,来实际部署本地大模型,看看效果。
AI PC的算力天花板

相信拥有一台Alienware外星人笔电是每一个游戏玩家最大的梦想。外星人系列无论是设计、外形和性能,都足够惊艳。






2024年的新款Alienware X16 R2更是在18.5mm的厚度下,容纳了顶级的RTX 4090笔记本显卡以及最新的高端AI移动处理器——酷睿Ultra 9 185H(MTL)。


酷睿Ultra CPU自带CPU、iGPU和NPU三大AI算力引擎,185H更是Ultra 9里面的最高端SKU,SOC AI算力摸到了34 TOPS。自带的RTX 4090笔记本显卡的AI算力虽不如台式机独显4090,也达到了686 TOPS。整体平台的AI算力:
MTL + 4090 laptop GPU = 34 + 686 = 720 TOPS
如此恐怖的算力,散热一定要跟上。外星人专属的Cryo-Tech超级散热架构和专属31号元素导热层恰恰可以将AI运算产生的热量全力排出去:


我们从C面宽大的散热孔中,就可以一窥它的结构。
酷睿Ultra 9 185H CPU,6P+8E+2LP,22线程,算力本身就非常厉害,这是CPU-Z和CinebenchR20、CinebenchR23的测试数据:



CPU-Z测试得分



CinebenchR20得分7252



CinebenchR23得分18256

用来办个公,真是杀鸡用牛刀:



PCMark现代办公数据

RTX 4090 Laptop GPU是所有用笔电玩游戏的用户的终极梦想,搭载这款顶级显卡的Alienware在游戏跑分也是顶级:



3DMark Time Spy跑分,非常非常高!



3DMark Fire Strick跑分

外星人Alienware x16 R2笔电可谓是目前AI PC本地算力的天花板了,它还搞不定的AI本地大模型,应该在短时间内,都不太可能被部署了。有了这个算力基础,我们来实际部署几个本地大模型,来看看实际效果和可用度如何,并切实体验一下本地部署的优点。
本地大模型部署效果

最近什么语言大模型最火?如果你回答ChatGPT,那有一点落伍了。Meta真正践行了OpenAI曾经承诺的开放公开的愿景,在Llama 2之后又推出Llama 3,打脸了闭源模型优于开源模型的论断。因为训练数据量的大幅提升(从2T到15T),Llama 3 70B模型的能力,已经可以和 Claude 3 Sonnet 与 Gemini 1.5 Pro 等量齐观,甚至都已经超过了GPT-4。更是由其开源的特性,可以不依赖KEY而完全本地离线部署。Llama 3在AI PC天花板外星人Alienware x16 R2上运行的如何呢?我们用GPT4All来实际体验一下。
首先需要下载安装GPT4All【1】和CUDA引擎。之后打开GPT4All,下载模型。这里可以搜索Llama 3来快速定位需要的模型:


我下载了8B和70B两个模型:


下载的时候,可以去设置界面皮肤和AI硬件引擎。外星人Alienware x16 R2我们可以分别选择4090 GPU和MTL CPU。GPU跑Llama 3 8B大模型速度飞快,每秒57个Tokens(注意需要中文回复的话,第一句要说“请用中文回复我”来限定后续使用中文):



GPU运行Llama 3 8B模型

CPU跑8B模型就有点吃力了,每秒7个Tokens:



CPU跑Llama 3 8B大模型

也不是不能用,就是要等。让我比较吃惊的是,外星人Alienware x16 R2也可以运行70B大模型,GPU引擎运行70B速度比CPU运行8B模型还要快一点。我甚至让他编写了一个固件UEFI的程序,也没有看出大的错误。个人体验,Llama 3本地部署起来还是比较简单的,效果比免费的ChatGPT 3.5好,响应速度快得多。关键是隐私性好,问点隐私问题也不怕泄密。更妙的是,我们还可以把本地文档,纳入GPT4All的资料库:


我有大量芯片资料文档,这些资料当然不能上传ChatGPT,就是拷贝给公司云也不可以(有我的水印)。于是检索这些文档就成了问题,普通的跨文件检索,需要字符完全匹配,完全没有AI能力,很不好用。于是导入本地文档的增强学习,就非常独特,能够解决实际问题,个人感觉会成为AI PC的一个独特的使用场景。
我也经常使用基于Midjourney生成图片,但云端使用有各种各样的限制(排队,次数等),图生图要上传个人图片总担心被挪作他用,有隐私焦虑。Stable Diffusion(SD)本地部署就不存在这种问题,我们一起来部署一下看看效果。SD有两个开源UI前端可以选择:WebUI或ComfyUI。我比较习惯用WebUI,本次就拿它来举例。
首先要下载最新版本的stable-diffusion-webui【2】和一些编译支撑工具。然后就可以去civitai【3】等网站上下载模型了:


模型下载好了之后,放入SD根目录Models\stable-diffusion(Checkpoint类型)下,点击webui.bat等编译通过,就可以开始图片生成了。
在WebUI会打开一个本地网页作为前端,在顶部的CheckPoint里面选好前面下载的模型,就可以开始自己生成图片了:


我用比较喜欢的Jib Mix Realistic XL大模型,画了一个我在家过五一节的心情:


提示词:
highest quality, extremely detailed, professional lighting, ((masterpiece)), cat sitting on a bridge by the lake, looking into the lake water, looking down, small fish swimming in the water
图片生成的非常快。有了本地SD的支持,写PPT和创作的时候,就可以根据需要表达的场景和主题,选择合适的模型和提示词,“创作”出一个没有版权纠纷的精美图片。我这个理工男,也可以有私人美工了,从此再也不用为没有题图而发愁了!
需要补充的是,Intel和英伟达,也各自为自己的芯片推出了大语言模型应用 。外星人Alienware x16 R2笔电因为包含了两家的AI算力芯片,两个APP都可以用。读者可以下载比较一下。英伟达的ChatRTX软件集成度相对高一些,但默认安装的Mistral 7B LLM不太好用:


用户还可以在“Add new models”下安装新大模型,建议安装CLIP和ChatGLM 3 6B模型(还有Llama 2但没有Llama 3)。ChatGLM 3 6B测试下来比Llama 3还是要差一些,但也已经非常好用了,而且回答速度飞快。


这些大模型都支持本地文档,但CLIP比较有特色的是可以文本来快速检索出本地文件下的匹配图像,速度飞快:



CLIP搜索“a cat”的结果

CLIP结果一个正确,一个错误。
结论

AI PC需要强大的本地AI算力和大内存的支持,外星人Alienware x16 R2作为AI PC的算力天花板,720 TOPS整体算力和32GB大内存,在我们运行本地AI大模型看下来毫无问题。 AI PC硬件上已经准备好承接这一次AI从云到边的部分迁移,我们将这个阶段叫做AI PC Ready阶段,主要是硬件准备完毕;下一个阶段就是AI PC On阶段,关键是AI PC的杀手级应用和特殊使用场景。
在我这个将PC用作生产工具的用户看来,AI PC的软件已经初步准备好了,但他们目前就像早期的Linux发行版,都是给专业人士使用的,而不是面向一般消费者的真正产品,我部署SD的时候,都走了不少弯路。现在离真正普通用户可用,还需要好好打磨。还有一个问题,MTL的OpenVino运行库和GPU的CUDA运行库,不能协同工作,让720TOPS的算力不能成为一个整体,而变成分割的两个部分。这点更需要两家芯片公司协同来解决。
下面一个关键节点是下半年登场的Windows 11 2024H2,它将搭载的本地AI Copilot助手是个关键应用,加上其他本地大模型的产品化,也许今年下半年,AI PC能迎来真正的爆发。
x16 R2:
鼠标:
键盘:
参考链接

: <a href="http://link.zhihu.com/?target=https%3A//gpt4all.io/index.html" class=" external" target="_blank" rel="nofollow noreferrer">https://gpt4all.io/index.html
: https://github.com/AUTOMATIC1111/stable-diffusion-webui
: https://civitai.com/
: https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/

固执的蛮牛 发表于 6 天前

1文件+2个命令,无需安装,单机离线运行70亿大模型
大家好,我是老章
最近苹果发布了自己的深度学习框架--MLX,专门为自家M系列芯片优化。看了展示视频,这个框架还能直接运行Llama 7B的大模型,在M2 Ultral上运行流畅。但是我尝试了一下,我的M2 Mac mini根本跑不动,模型权重太大了。
这倒勾起了我继续单机玩大模型的兴趣,然后就发现了llamafile的玩法:下载模型文件、直接执行即可浏览器中运行,就可以开始聊天,还可以上传图片进行提问。
先不介绍原理,直接看看如何运行吧:
1、下载llava-v1.5-7b-q4-server.llama 文件(对应模型是LLaVA 1.5,在 Llama 2 之上进行微调的大型多模式模型 )


下载地址:https://huggingface.co/jartine/llava-v1.5-7B-GGUF/resolve/main/llava-v1.5-7b-q4-server.llamafile?download=true
鉴于有些同学可能无法访问huggingface,我也准备了这个文件在网盘,有需要可以找我要一下。
2、MacOS和linux用户需要在命令行中先授权这个文件可执行
chmod +x llava-v1.5-7b-q4-server.llamafile
# 然后运行
./llava-v1.5-7b-q4-server.llamafile


如果是windows用户,那就更省事了,直接重命名这个文件,后面加上 .exe 即可
3、浏览器会自动弹开聊天界面(如果没有,浏览器中直接打开https://localhost:8080即可)


首次打开需要配置一些参数,也可以直接使用默认值。
除了聊天,也可以上传图片让它识别。聊天完毕后,返回终端并点击 Control-C关闭 llamafile。


顺便简单介绍一下llamafile:
这个大模型文件是Mozilla 团队发布的,这个文件包含 LLM 的模型权重和运行该模型所需的代码 ,可以将它视为一个完整的本地服务器,带有用于与其交互的 Web UI。
llamafile是基于llama.cpp(一个领先的开源 LLM 聊天机器人框架)和Cosmopolitan Libc(一个开源项目,使 C 程序能够在大量平台和架构上编译和运行)实现的。使用 llamafile,可以将大型语言模型 (LLM) 权重文件转换为可在六种操作系统(macOS、Windows、Linux、FreeBSD、OpenBSD 和 NetBSD)上运行的二进制文件,而无需安装,确保给定的一组权重将永远保持可用并一致且可重复地执行。
想要了解更多,可以参考一下资料:
模型演示:https://llava.hliu.cc/
模型简介:https://llava-vl.github.io/
模型代码:https://github.com/haotian-liu/LLaVA
llamafile开源地址:https://github.com/Mozilla-Ocho/llamafile
llamafile简介:https://hacks.mozilla.org/2023/11/introducing-llamafile/

E拨通 发表于 6 天前

那怎么能说有意义呢,那是相当有意义~
我姑且预言一波,在PC本地运行大语言模型,会成为未来PC的标配。
为什么这么说呢,主要有三个原因:个性化、高性能、高安全。
先说个性化。从AI大模型爆发到发展至今,人们对大模型的态度和接受程度也在不断变化。我相信绝大多数人一开始都被大模型的震撼感冲击到,但试用之后,现在还在日常使用大模型的人还有多少呢?
从大模型本身的角度来看,单纯提供模型已经不是各家厂商「卷」的方向了,重点已经变成如何能够更好的帮助每个使用者解决他们自己的问题。就看看OpenAI最新的发布会,应用商店、各种定制化的ChatGPT模型层出不穷,本质上就是要根据每个人的使用场景和问题做深度定制。
所以,一招鲜吃遍天的时代或许已经过去了,只有根据自身需要而不断进化的AI才有意义,才是未来发展的方向。
为了实现定制化和个性化,就必须要让大模型更加贴近使用者本身,而我们每天都在用的PC就成为了一个非常好的平台。如果能把大模型直接放在PC上,无时无刻的学习使用者的习惯,自动分析我在每个工作上花的时间,然后针对性的帮我提升,这势必将极大的提升使用者的工作和学习效率。
可能有人问,这种定制化和个性化需不需要对模型进行重训练?其实也并不一定。AI本身就可以基于基础模型进行自我学习和优化。我们常说的AI越用越聪明、越来越懂你,其实就是基于这样的原理。
再说高性能。这个应该很好理解,一方面是避免了网络传输的延时和不便,另一方面也能更加稳定、不会和其他用户抢云端算力。
你就想想,坐着飞机在天上飞,但是打开电脑就能咔咔和大模型交互,压根不需要联网,那叫一个丝滑。更重要的是,本地运行的大模型可以和其他PC应用无缝结合,比如你在写word、画ppt、用excel的时候,也可以同步用本地运行的大模型来帮你优化文字、生成图片、做数据计算等等,效率肯定进一步起飞。
有一说一,现在的PC上已经集成了很多AI能力,但大都是比较初级和被动的程度,比如开会的时候做个降噪、视频的时候模糊一下背景等等。有了大模型之后,就能做更加智能、甚至主动的AI。这当然和模型算法的进化有关,但PC处理器芯片的AI算力也至关重要。后面我们详细展开。
再说一下安全性,这个也是很多公司和使用者关注的重点。当前很多大公司其实并没有全面拥抱大模型,或者试用过一段时间就叫停了,原因就是发现一些秘密数据被「喂」给了大模型,结果在其他地方泄露了。云端大模型相当于一个「吃百家饭」的货,所有用户的信息都喂给它,说不定什么时候就在其他地方被吐出来了,造成安全问题。
但如果大模型部署在本地,直接在PC上运行,就能避免很多安全性的风险。
那么为了支持个性化、高性能和高安全,传统的PC处理器是肯定没办法的,特别是算力不够。所以这就成了PC处理器芯片大厂们接下来发力的方向。
图灵奖得主David Patterson说过,现在是体系结构的黄金时代。本质上就是因为像AI这样的新应用和新场景层出不穷,给芯片设计者带来了更多优化架构的方法,我们也看到,PC处理器芯片的设计趋势也从单一结构(同构),转变成大小核、多加速器的结合体(异构)。
就拿英特尔最新发布的Meteor Lake处理器举例,它最大的架构变革之一,就是首次将人工智能加速引擎NPU集成到了PC处理中,从而极大提升了PC的AI算力。NPU的引入,也标志着蓝厂构建XPU能力的关键一步。
从架构上来看,NPU中集成了两个神经网络计算引擎,每个引擎中包含大量乘加MAC阵列,以及专用的激活函数硬件加速器、以及用来做量化、转换、融合和存取的硬件单元。


MAC阵列中,支持矩阵乘法、卷积,数据类型支持INT8和FP16,每个引擎可以实现每周期2048次MAC运算。


存储方面,两个神经网络引擎共享Scratchpad存储器和DMA,采用了图形编译器优化调度DMA任务,从而加速数据的搬运和缓存。
和CPU相比,NPU针对卷积神经网络做了针对性优化,更擅长做复杂模型和运算的处理。由于NPU针对AI任务而专门设计,所以能兼顾运行时的低功耗。


比如用来做图片生成的Stable Diffusion,从用户给到输入到最后的图片输出需要经过文本编码器、Unet、VAE等四个模型的处理、并且需要经历扩散阶段的多次迭代,生成一张图片需要消耗大量CPU或GPU的计算资源。但使用了NPU之后,就能明显提升图片生成的吞吐量,效率提升达7.8倍。


除了强大的NPU算力,Meteor Lake也集成了GPU的AI加速能力,比如支持DP4A指令,每个周期可以执行64次INT8运算,并且可以完成32位累加等等。


一个高性能的AI系统自然也离不开软件的支持。这次Meteor Lake为开发者提供了完整的AI软件堆栈,从上到下分别有AI API、编译器和算子库、驱动程序、以及对底层硬件的映射与支持。


这种统一AI高性能堆栈的好处,就是让不同应用都能很好的利用起相同的一套软件开发系统,比如像Teams这样的音视频交流软件可以利用这个堆栈里的OpenVINO推理引擎,并利用NPU提升音视频的AI能力。一些像Adobe这样的创意软件,则可以使用DirectML API,调用GPU提升AI算力。
从操作系统的层面来看,它非常适合作为一个中间层,隐藏底层的硬件信息,同时给软件开发者提供算力管理和资源调度的能力。因此芯片算力能被用起来多少,其实也非常依赖于操作系统的针对性优化。英特尔也在和微软合作,不断优化NPU在Windows里的调度,最大化发挥NPU的性能。之后也可以在windows里看到NPU的使用情况,评估AI的算力利用率。
除了架构和软硬件的协同优化,Meteor Lake在制造工艺上也颇有看头。它是首个采用Intel 4工艺进行量产的CPU,并采用了Foveros 3D封装技术。单工艺的角度来看,就会有较高的性能提升和功耗降低,这也为NPU的集成和AI算力的提升提供了核心的技术支撑。
为了实现AI在PC上的真正落地,芯片是万里长征的第一步,同样重要的其实是生态。得生态者得天下,这一点绿厂的CUDA、华子「遥遥领先」的鸿蒙、OpenAI的大模型商店,其实都是这样的思路。而蓝厂也看到了AI PC生态的重要机会。
在各家芯片大厂都在开始在芯片里集成AI能力的时候,AI PC的生态仍然处于比较早期的发展阶段。这里既包括面向开发者的软件生态,也包括面向使用者的成熟软件产品,显然需要软硬件公司们一起合作发力。不过,总要有一个带头大哥。今年十月,蓝厂就推出了AI PC加速计划,将与超过100家ISV厂商深度合作、集成300余项AI加速功能,为超过1亿台PC带来AI特性。


有了生态的推动,相信无论是大语言模型,还是用个性化推荐、大数据分析、安全性增强等等传统的AI能力,都会成为未来PC的标配。这对于我们这些普通用户来说,势必会带来新一波效率的提升。比如可以使用PC里的AI辅助创意和设计工作,像音乐制作、图片生成这些之前需要大量云端资源的工作,未来都可以在本地的PC上轻松完成。还能根据我们的使用习惯和兴趣推荐电影、音乐或游戏。
总之,当前AI更多存在云计算,但其实PC端有着更多机会,因为这是普通人每天都在使用的领域。作为PC的定义者,英特尔对于未来「PC」的认知,已经从Personal Computer,变成了Personal Computing。通过芯片+生态降低了算力门槛,AI自然会无处不在。相信AI+PC的结合,会成为未来几年PC发展的重点方向,也会给我们这些普通消费者带来更多效率提升。
以上。

希哦那个台 发表于 6 天前

7B其实已经算是很大的模型了。CV领域最大的模型也就几百M,Stable Diffusion的大模型也只有1.5B左右,只有语言模型领域才会有那些超大规模你想。
不要低估7B模型的潜力。我想任何用过rwkv-world 7B(尤其是针对角色扮演的微调版)的用户都能理解这一点。

冰湖小生 发表于 6 天前

现实的角度是钱的问题。也即是说对于企业来说能否盈利,对于消费者来说花钱买算力是否划算。
其实题目没有必要限制在6-7b的模型,实际上现在一众13,14B的模型经过4位量化的性能已经非常惊艳。目前自己部署过的,国产的有千问13B。根据mistral 7B的惊艳表现,估计mistral 13B可能完全是gpt3.5的水平,甚至更好。int4 量化的13B模型,需要大概13G显存,也即是现在4060ti 16G 就能跑。最近流传 gpt3.5-turbo实际上是一个20B模型。 所以作为一个消费者,我如果需一张本地大模型计算卡,应该是一个至少有24g显存,然后运行13-20B模型,推理速度 >= 20 token/s的显卡。现在英伟达也在开发自己的大模型推理加速框架,也许3060ti这种级别算力的显卡也许可以达到要求。假定这张卡定价是3000左右,那其实对于非游戏佬消费者来说,就是花3000块加一张显卡值不值得问题。如果按照显卡两年贬值50%粗略估算,那一年的显卡贬值为750元。文心4.0目前看起来和gpt3.5-turbo是差不多,而文心会员是50元/月,一年600元。考虑到独享算力,和数据隐私来说,照现国内大模型的智能水平,本地部署是很划算的。那如果有非月费服务呢,比如说现在百川每千token是0.02rmb(这个价格下降空间还很大),750元可以处理3700万token。。。。考虑到上下文,按照sharegpt 平均长度337token计算,也即是平均每天要进行大约150次问答,这个可能已经超过了每个人每天的需求量,而且使用的是更大效果更好的模型。所以普通用户如果使用token计费的产品,自己买显卡是明显不划算的。但是对于,有数据隐私要求的企业来说,本地部署大模型性价比还是很高的。
那对于显卡厂商来说可以赚钱吗,如果游戏卡赚钱,那么这种大模型计算卡就可以赚钱。而且消费级大模型计算卡的需求量应该会比游戏卡高。
其实还有更应该考虑的角色:机器人。现在给机器人加上大模型计算卡,可以实现更快的first token返回时间。机器人可以实现接近人类的对话,更好的任何规划能力,多模态语意理解能力。可以说有大模型和没有大模型加持的机器人,完全是两种东西。这里广义上的机器人也包括智能汽车。所以这个想象空间还是很大。

跳出钱的角度,这实际上是一个中心化还是去中心化的问题。从人类目前的伦理和控制AI危险来考虑,不应该把所有AI计算都交给中心化的数据中心。所以本地大模型卡和AI PC这样的产品也是有意义的。

以上为个人浅见,所有数据引用纯凭记忆,没有核实。
页: [1]
查看完整版本: 2024年开始,AI PC将登上舞台,你认为本地运行6-7B 的大语言模型有意义吗?