阿里云发布通义千问2.5，同时继续坚定走开源开放策略，如何看待大模型开源与闭源之争？_发现AI问答

bibi_im286 发表于 3 天前

阿里云发布通义千问2.5，同时继续坚定走开源开放策略，如何看待大模型开源与闭源之争？

5月9日，阿里云正式发布通义千问2.5，模型中文性能全面赶超 GPT-4-Turbo，成为地表最强中文大模型。
此外，阿里云还发布了最新款开源模型1100亿参数的Qwen1.5-110B，阿里云表示，该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta的Llama-3-70B模型；HuggingFace推出的开源大模型排行榜OpenLLMLeaderboard上，Qwen1.5-110B位列榜首。阿里云表示，海内外大量中小企业和开发者以下载开源模型的方式使用通义，在HuggingFace、魔搭ModelScope等开源社区，通义开源大模型的累计下载量超过了700万。通义千问为什么坚持开源？如何看待大模型开源与闭源之争？
阿里云CTO谈大模型开闭源之争：模型应用不能只对接一个形式

libo 发表于 3 天前

大模型届的开源现在有个非常不好的风气……
就是水平不行的时候宣布我是开源的并永远开源……一旦觉得以及行了，就开始各种闭源……你也不能说什么……毕竟大家要吃饭的……但是你打着开源的名号，用各种开源设施有点不要面孔……
这个风气当然是close ai最先带起来的……
大模型的开源届……以后要擦亮眼，这种伪开源大家就不应该添砖加瓦了……有问题就去官方社区指责他们就行了……毕竟是收费模型吗……一顿输出……
大模型届现在缺一个四道慢来引领方向了……

十一月末 发表于 3 天前

“通义千问”开源，可免费商用，直接啪啪打脸其他AI模型。
之前我学习AI模型的时候，会遇到这样的一个场景：
不给你内测资格，天天给你发短信，各种注册他们的网站，有时候还得参加他们的会议，不然没有内测资格

更可恶的就是，很多企业是借着AI大模型的名义，在圈自己的私域流量，做自己的用户，把用户当猴耍。
这回好了，阿里开源了2.0的通义千问，我们可以在AI的模型里开上&#34;保时捷&#34;了
什么是通义千问？

通义千问是阿里云推出的一款超大规模语言模型，它具备多种强大功能，包括多轮对话、文案创作、逻辑推理、多模态理解以及多语言支持。这个模型能够与人类进行多轮交互，并且能够理解多种形式。
通义千问还推出了免费的文档解析功能，可解析网页、文档、论文、图书。针对单个文档，通义千问能够处理超万页的极长资料，换算成中文篇幅约1000万字；针对多个文档，可一键速读100份不同格式的资料；还可解析在线网页。阿里通义千问现已升级至2.5，个人或企业客户可通过阿里通义千问大模型平台申请接入。
目前，通义开源模型下载量已经超过700万。

与上一代有哪些亮点？
1、超过前两天发布的meta模型
该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta的Llama-3-70B模型；
2、性能大部分提升
2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%
3、支持跨过语言
到1100亿的八款大语言模型，小尺寸模型如0.5B、1.8B、4B、7B、14B
4、支持多设备部署
可支持手机，电脑，平板
5、支持企业级和科研教学应用场景
6、来源多种模型

[*]视觉理解模型Qwen-VL、
[*]音频理解模型Qwen-Audio、
[*]代码模型CodeQwen1.5-7B、
[*]混合专家模型Qwen1.5-MoE。
难怪阿里云称，通义千问2.5，在权威基准OpenCompass上，该模型得分追平GPT-4 Turbo，是中国国产大模型首次在该基准取得该项成绩。
更重要的是，阿里坚持了自己的开源原则
这回，阿里云没有藏着掖着，而是真正掏出了家底，感觉他们也通过这个不赚钱，如果获得认可，用户，必将成为用户体量最大的一个AI大模型。
目前市面上几十种AI大模型，市场太乱了，从业者无从下手。阿里2.5模型可能给你带来很一个学习AI模型的学习机会
如果不知道怎么学习阿里模型，正好知乎知学堂的程序员的AI公开课邀请了AI界技术大佬，可以帮助你更好学习通问千义2.5的模型，揭示千问模型的底层原理，手把手带你打造属于自己的专业AI模型，关键是0元学习，赶紧抓住学习机会↓↓↓
该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等规模通用模型的表现。

还记得上次千问大模型2.的吗，我部署了一个的阿里云大模型[让照片跳舞]
比如这里，首先上传一个女生的照片，最好是全身照片
接着上传一个视频动作，用来作为参考：

可以看到，最后生成的效果还是很惊艳的。在人物相似的情况下，做到了把动作复原。

奥特曼也会跳舞

动物也可以的：

看，是不是特别神奇！
体验了一把2.5的模型，生成的速度和效果更是比上一代强上了好几倍！
AI大模型的开源，无疑会为中小企业提供强大的算力和大模型基础设施，让更多人能够实现创新。届时，全民AI的时代也开启了！
论开源和格局，果然还是得阿里，开源届的鼻祖！

晴天发表于 3 天前

阿里巴巴最近的表现是一个接着一个，瞬间让人觉得，曾经那个“西湖论剑”的意气风发又回来了。
马云可以老去，但是阿里还是年轻人的阿里。
为中国所有公司节省时间，不用重复造轮子

我是举着双手双脚支持开源的，特别是人工智能在这个时间点，如果中国能鼓励开源，将会给整个行业节省无数的实践，不用一个团队一个团队的重复造轮子。一个这样的贡献，比做多少个人IP，比投多少公关和广告费用，都能提高企业在整个行业的知名度和美誉度。所有程序员，所有产品经理，所有运营，都会知道，没有阿里的开源，就没有自己的饭碗。
这是对整个行业的贡献，在这里请允许我把中国目前我知道的（其实就是知乎上搜的）开源模型都贴在文章的最后“附件1”，让我们记住他们的名字，让我们感谢所有这些先行者的伟大与奉献。他们的项目也许会死掉，但是他们的代码永生。
那他们的项目真的会死掉吗？不会。死掉的不是开源项目，是烂代码。
你的代码不好，开源不开源，都会死掉。

接下来就是第二个问题
阿里开源能得到什么？

阿里可以成为整个行业的“规则制定者”，也就是说，这个行业未来，芯片怎么做怎么适配怎么优化，下游产品如何更新能提供什么功能，同行如何发展，都由阿里来制定。
阿里可以成为

[*]行业领导者：指在行业中具有领先地位和影响力的企业或个人。会聚集巨量的开发者生态。
[*]行业标杆：指在行业内被广泛认可和效仿的典范或标准。比如帮助形成统一的API，统一的部署环境，统一的训练标准等等，这都会极大的节省行业的时间，也能为阿里赚取利润。
[*]行业规范：指行业内普遍遵循的规则和准则。
[*]行业认证：指由官方或权威机构颁发的，证明产品、服务或个人符合特定行业标准的认证。
[*]行业影响力：指对行业发展方向、政策制定或市场趋势有显著影响的能力。
[*]行业话语权：指在行业内拥有的发言权和决策权。
[*]行业标准制定者：指参与或主导制定行业内通用标准和规范的组织或个人。
[*]市场主导权：指在市场中具有引导和决定市场趋势的能力。
[*]技术领先：开源的代码会有很多人帮助一起更新，生态起来了，技术就有后劲，慢慢就能赶超，
为什么一定要开源？

面对2C用户，其实这个产品开源不开源，无所谓。完全是企业个人选择，比如，我也很喜欢的文心一言，KiMi，我认为开源不开源，完全是他们企业自己的决策，C端用户购买的是结果，完全不关心你是如何实现的，爱喝牛奶不用爱上那头奶牛
但是，如果你做B端或者G端，你必须要“过程透明”，你不能拿着一个黑盒去交付。
越是大的公司，大的企业，越是要求整个过程的可控。你得能过得了审计，经得起推敲，出了问题得有人背锅。
一个闭源的大模型，是不行的。
你不能把企业涉密的信息，放在一个黑盒子里，或者甩给一个闭源公司的大模型底座就说OK了

http://picx.zhimg.com/v2-20af2bf8cdf406e61b9a8c6d3fd3dced_r.jpg?source=1def8aca
为什么阿里可以开源？

因为阿里是打算卖云的，它卖的是算力，卖的是服务，这就是最典型的互联网商业模式“最值钱的东西免费，赠品要钱”
你训练模型要不要有个环境？我这里调优了
你模型要不要搭模块？我这里标准统一了
你模型要不要对齐要不要微调？你把数据给我，我还能帮你做B2B的转卖。这样其他人也不用重复造轮子了。
阿里未来还可能卖数据，训练模型的数据交易也会是一个巨大的市场。中国还有很多尘封的知识财富等待激活。我看最近国家也在推动这个市场。
大家不要总是盯着国内市场这一亩三分地，正像山鸡对肥尸说的“你在这里凶我是没用的，有种到钵兰街闯一闯！”

希望大家团结起来
希望通义千问能做的更好
附件1：国内开源模型

模型链接模型描述BayLing中科院开源，性能媲美GPT-3.5，基于LLama7B/13B，增强的语言对齐的英语/中文大语言模型GLM清华发布的中英双语双向密集模型，具有1300亿个参数，使用通用语言模型（GLM）算法进行预训练。它旨在支持在单台 A100（40G * 8）或V100（32G * 8）服务器上支持 130B 参数的推理任务。XWin-LM一款基于Llama2微调的语言模型,成功在斯坦福AlpacaEval上击败了GPT-4,成为新的榜首模型XVERSE元象科技自主研发的支持多语言的大语言模型（Large Language Model），参数规模为650亿，底座模型 XVERSE-65BXVERSE-256K最大支持 256K 的上下文窗口长度，约 25w 字的输入内容，可以协助进行文献总结、报告分析等任务ChatGLM3智谱AI训练的第三代大型语言模型，它不仅能理解和生成人类语言，还能执行代码、调用工具，并以markdown格式进行响应ChatGLM2具备强大的问答和对话功能，拥有最大32K上下文，并且在授权后可免费商用！ChatGLM清华开源的、支持中英双语的对话语言模型，使用了代码训练，指令微调和RLHFOrion-14B-Base具有140亿参数的多语种大模型，该模型在一个包含2.5万亿token的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言。Baichuan2百川第二代也出第二个版本了，提供了7B/13B Base和chat的版本Baichuan百川智能开源7B大模型可商用免费ziya2基于Llama2训练的ziya2它终于训练完了ziyaIDEA研究院在7B/13B llama上继续预训练+SFT+RM+PPO+HFTT+COHFT+RBRSQwen1.5-MoE-A2.7BQwen推出MOE版本，推理更快Qwen1.5通义千问升级1.5，支持32K上文Qwen1-7B+14B+70B阿里开源，可商用，通义千问7B,14B,70B Base和chat模型InternLM2 7B+20B商汤的书生模型2支持200KYuan-2.0浪潮发布Yuan2.0 2B，51B，102BYI-200K元一智能开源超长200K的6B，34B模型YI元一智能开源34B，6B模型DeepSeek-MOE深度求索发布的DeepSeekMoE 16B Base和caht模型DeepSeek深度求索发布的7B，67B大模型LLama2-chinese没等太久中文预训练微调后的llama2它来了~YuLan-chat2高瓴人工智能基于Llama-2中英双语继续预训练+指令微调/对话微调BlueLMVivo人工智能实验室开源大模型zephyr-7BHuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型Skywork昆仑万维集团·天工团队开源13B大模型可商用Chinese-LLaMA-Alpaca哈工大中文指令微调的LLaMAMoss为复旦正名！开源了预训练，指令微调的全部数据和模型。可商用InternLM书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型Aquila2智源更新Aquila2模型系列包括全新34BAquila智源开源7B大模型可商用免费UltraLM系列面壁智能开源UltraLM13B，奖励模型UltraRM，和批评模型UltraCMPandaLLMLLAMA2上中文wiki继续预训练+COIG指令微调XVERSE据说中文超越llama2的元象开源模型13B模型BiLLaLLama词表·扩充预训练+预训练和任务1比1混合SFT+指令样本SFT三阶段训练Phoenix港中文开源凤凰和奇美拉LLM，Bloom基座，40+语言支持Wombat-7B达摩院开源无需强化学习使用RRHF对齐的语言模型, alpaca基座TigerBot虎博开源了7B 180B的模型以及预训练和微调语料Luotuo-Chinese-LLM冷子昂@商汤科技, 陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目，包含了一系列大语言模型、数据、管线和应用OpenBuddyLlama 多语言对话微调模型Chinese VincunaLLama 7B基座，使用Belle+Guanaco数据训练LinlyLlama 7B基座，使用belle+guanaco+pclue+firefly+CSL+newscommentary等7个指令微调数据集训练Firefly中文2.6B模型，提升模型中文写作，古文能力，待开源全部训练代码，当前只有模型Baize使用100k self-chat对话数据微调的LLamaBELLE使用ChatGPT生成数据对开源模型进行中文优化Chatyuanchatgpt出来后最早的国内开源对话模型，T5架构是下面PromptCLUE的衍生模型PromptCLUE多任务Prompt语言模型PLUG阿里达摩院发布超大规模语言模型PLUG，上能写诗词歌赋、下能对答如流CPM2.0智源发布CPM2.0

胖六传奇 发表于 3 天前

开源的主要原因还是这个东西难以赚大钱，特别是阿里这样的大公司现阶段也不靠这个赚钱，可就苦了一些小而美的创业公司。

Javabloger 发表于 3 天前

阿里云于今天正式发布了通义千问2.5版本，这一版本的模型性能在多个基准测评中取得了最佳成绩。

同时在今天的峰会上，阿里还宣布开源通义千问1100亿参数模型。
相比上一版本通义千问2.1，通义千问2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。
从今天的新闻来看，继前一段Llama3发布引起业界热烈讨论后，国产的开源大模型也不甘落后，马上开源了最新的Qwen，这一切的行动，让开源社区更加繁荣。
一、新闻重点

通义千问新发布2.5版本的1100亿参数的开源模型，在多个基准测评中取得最佳成绩，超越了Meta的Llama-3-70B模型。
通义坚持开源策略，积极推动AI技术共享。目前已经推出了多款开源模型，并获得了超过700万的下载量。

自2023年8月加入开源行列以来，通义已推出十多款开源模型，下载量超700万次。
通义提供从5亿到1100亿参数的多款大语言模型，满足不同场景需求。小尺寸模型适合端侧设备，大尺寸模型支持企业级应用，中等尺寸模型寻求性能与资源的平衡。
此外，通义还开源了视觉、音频、代码等多领域模型。
二、国外代表性开源大模型

让我们也再看看国外的最新开源大模型的现状。
1.Llama 3

2024年4月18日，Meta在官网上宣布旗下最新开源大模型Llama 3发布。
目前，Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本。

根据Meta的官方解读，Llama 3借由在其定制的两个24k GPU集群上，利用超过15TB的数据进行训练，这一数据容量相当于其前身Llama 2使用数据的七倍之多，并且包含的代码量是后者的四倍。
此外，Llama 3还增强了上下文处理能力，支持的上下文长度达到8K，是Llama 2处理能力的两倍。
Meta还发布了一套全新的、高质量的人类评估数据集。
该评估集综合了1800个提示，覆盖了12个核心用途，囊括了从寻求建议和头脑风暴到更复杂的任务，如分类、封闭式和开放式问答、编码、创意写作、信息提取、角色塑造、推理、重写和总结等。

在将Llama 3与同期竞争的大型语言模型进行比较时，Meta进行了全面的人类评估研究。
这些比较包括了如Claude Sonnet、Mistral Medium以及广泛认可的GPT-3.5等模型。评估者基于构建的评估集进行了细致的偏好排名。
结果显示，在模拟真实世界应用的场景下，Llama 3的性能非常出色，赢得了至少52.9%的偏好率。
Meta已在GitHub、Hugging Face、Replicate上开源其Llama 3模型，开发人员可使用工具对Llama 3进行定制和微调，以适应特定的用例和需求，感兴趣的开发者可以查看官方的入门指南并前往下载部署。
Github地址：
https://github.com/meta-llama/llama3/2.Grok-1

在2024年3月，马斯克宣布开源的Grok-1，是一个由 xAI 从头训练的模型，拥有高达314亿个参数，采用了混合专家（MoE）层结构。

xAI 发布了大型语言模型 Grok-1 的基本模型权重和网络架构，使用了 Apache-2.0 许可证。
根据介绍，Grok 的架构是在 2023 年 10 月使用自定义训练堆栈在 JAX 和 Rust 上开发的，采用了创新的神经网络设计方法。

Grok-1有314B的大小，需要有足够 GPU 内存的机器，从网友的推算来看，可能需要一台拥有 628 GB GPU 内存的机器，大概是8个H100（每个 80GB），才有可能使用示例的代码来测试模型。
Github地址：
https://github.com/xai-org/grok-13. Gemma

谷歌在2024年2月，推出了全新的开源模型系列「Gemma」。
相比 Gemini，Gemma 更加轻量，同时保持免费可用，模型权重也一并开源了，且允许商用。

这次的发布包含两种权重规模的模型：Gemma 2B 和 Gemma 7B。
每种规模都有预训练和指令微调版本。
想使用的人可以通过 Kaggle、谷歌的 Colab Notebook 或通过 Google Cloud 访问。

谷歌在推出Gemma时采取了一个与之前Gemini模型截然不同的策略。通过将Gemma直接推向开源生态系统，谷歌打破了自己之前倾向于保持核心技术封闭的做法。
Gemma的开源特性使其与Gemini形成了鲜明对比。
如果要使用Gemini，开发者只能通过特定的接口或者在谷歌自家的Vertex AI平台上工作，相比之下，Gemma的开源不仅降低了使用门槛，让开发者可以直接获取模型的源代码和权重，进行自由修改和再训练以适应特定需求。
官方地址：
https://ai.google.dev/gemma/4.Mistral Large

Mistral AI被称作“法国版 OpenAI”，Mistral Large 是 Mistral AI 的最新旗舰版，特点是具备顶级的的推理能力，可用于处理复杂的多语言推理任务，涵盖文本理解、转换和代码生成等。

作为一款欧洲制作的大模型，Mistral Large支持英语、法语、西班牙语、德语和意大利语，据称它能够提供对这些语言的深层次理解，不仅能精准把握各语言的复杂语法规则，还能细腻捕捉文化背景中的微妙差异。
该模型配置了32,000个token的上下文窗口，确保在分析长达约24,000英文单词的文档时，能精确抽取每一个核心信息点，无遗漏。
在功能设计上，Mistral Large强调指令的精确执行能力，使开发者能轻松制定并实施个性化的审核与管理策略。

此外，它原生集成了函数调用功能与输出模式的自定义限制，极大地促进了应用程序的扩展能力，简化了技术集成过程，加速了开发团队技术栈的现代化迭代。
官方地址：
Mistral AI | Frontier AI in your hands三、开源还是闭源

关于日后优秀大模型的趋势是开源还是闭源，业界看法不一。
百度CEO李彦宏曾公开表示，开源模型会越来越落后。他认为，“大家以前用开源觉得开源便宜，其实在大模型场景下，开源是最贵的。所以开源模型会越来越落后。”
而360集团的创始人周鸿祎却表达了不同看法。周鸿祎认为，开源是科技发展的重要推动力。
没有开源就没有Linux，而没有Linux就没有今天的互联网。他鼓励企业和开发者们充分利用开源资源，共同推动科技进步。

我用AI绘画工具生成的图片

而从我的个人观点来看，开源大模型能够促进技术的共享和创新。
通过开源，所有互联网上的共创者可以更容易地访问和使用这些先进的技术，从而加速新技术的研发和应用。
例如在AI绘画的应用中，目前开源的Stable Diffusion通过众多共创者对插件的补充，逐渐不断完善对AI绘画的精确深度控制。形成了AI绘画软件百花齐放的现状。

我用AI绘画工具生成的图片

然而，闭源大模型也有其独特的优势。
闭源模型通常由企业控制，可以更好地保护知识产权，维护商业秘密，同时也能为企业带来直接的经济收益，有了收益，才能更好的推进大模型的开发。
闭源模型还可以根据企业的具体需求进行定制化开发。
从长远来看，开源和闭源大模型可能会并行发展，而不是简单的零和游戏。

我用AI绘画工具生成的图片

我认为在未来，有些企业可能会选择部分开源，以利用开源社区的力量，同时保留核心技术的闭源状态，以保护自己的竞争优势。
这种策略既可以享受开源带来的协作和创新的好处，又可以保持一定程度的控制权和盈利能力。
结语

无论是开源还是闭源，只要能推动人类科技共同进步，都是我希望看到的。
当然，我更加感激有这么多无私奉献的互联网开源者。
因为你们，真正诠释了互联网开放共享的精神！
<hr/>我是德里克文，一个对AI绘画，人工智能有强烈兴趣，从业多年的室内设计师！如果对我的文章内容感兴趣，请帮忙关注点赞收藏，谢谢！

sc163 发表于前天 08:30

阿里云发布通义千问2.5，展现了其在中文大模型领域的强大实力，同时坚定走开源开放策略。对于大模型的开源与闭源之争，这是一个复杂的问题。 阿里云CTO认为，模型应用不能只对接一种形式，开源和闭源都有其独特的优势。开源能够促进技术共享和社区合作，让更多人参与模型的改进和优化，有助于技术的快速发展和普及。而闭源则能够保护模型的知识产权，确保商业利益不受侵犯。在实际应用中，可以根据需求选择适合的模型。 通义千问坚持开源，是为了让更多企业和开发者能够利用这一技术，降低开发门槛，促进人工智能技术的普及和应用。这是阿里云推动产业发展、与社会共享技术成果的具体体现。 总的来说，无论是开源还是闭源，关键在于模型能否在实际应用中发挥作用，满足用户需求。阿里云的做法体现了其开放、合作、共享的理念，有助于推动人工智能技术的发展和应用。

llmllm 发表于前天 08:34

阿里云发布的通义千问2.5和Qwen1.5-110B模型展现了其在中文大模型领域的强大实力。坚持开源策略，让通义千问能够让更多的中小企业和开发者便捷地获取并使用模型，促进了模型的应用与普及。关于大模型的开源与闭源之争，实际上反映的是不同应用场景和需求的权衡。 开源模型能降低技术门槛，促进技术共享和创新，有助于模型不断优化和完善。而闭源模型则更能保护知识产权和技术优势，但也可能限制了技术的普及和进步。在实际情况中，需要根据模型的应用场景、需求和发展阶段来选择适当的策略。 阿里云CTO认为，模型应用不能只对接一个形式，开闭源之争并非非黑即白。在推动技术进步的同时，也需要关注实际应用的需求和中小企业的利益。阿里云通过开源策略，让更多用户受益，也促进了模型的持续优化和完善。

tkv2373 发表于前天 08:38

阿里云发布通义千问2.5，展现了其在中文大模型领域的强大实力，同时坚定走开源开放策略。对于大模型的开源与闭源之争，实际上并没有绝对的优劣之分，而是要根据实际应用场景和需求来选择。 开源模型可以汇聚全球开发者的智慧和力量，促进技术的共同进步和创新，尤其对于中小企业和开发者而言，下载和使用开源模型更为便捷和经济。而闭源模型则更注重商业化和封闭性，能够更好地保护知识产权和商业机密。但不论是开源还是闭源，模型的应用不能局限于一种形式，需要根据不同场景灵活选择和应用。因此，阿里云的开源策略有其独特的价值和意义。总的来说，无论开源还是闭源，关键是看是否能真正推动技术进步和应用落地。

页: [1]

发现AI问答's Archiver

阿里云发布通义千问2.5，同时继续坚定走开源开放策略，如何看待大模型开源与闭源之争？