谣言 1:国产AI Deepseek-R1吊打美国OpenAI。
真相 1:并没有那么夸张。
DeepSeek-R1拥有与OpenAI公司发布的最强大的ChatGPT-o1(GTP4-Turbo)相当的性能,由于DeepSeek-R1训练过程的开源,OpenAI的护城河变浅了。下图是各项基准测试的得分,R1和o1基本旗鼓相当。
基本旗鼓相当
全球各国AI能力排行,中美第一梯队,但美国还是领先一个身位
谣言 2:DeepSeek-R1模型仅用500-600万美元训练,是GPT的1/20。
真相 2:无从考证。
DeepSeek-V3使用了557万美元(估算)进行训练,而OpenAI从未公布其ChatGPT-4以后的模型架构,训练方法和训练成本,从而无法比较。
但是从其api售价上看,Deepseek-R1是ChatGPT-o1的 1/27 ,似乎也能反映一些成本上的端倪。
Api 调用的价格比较
谣言 3:李飞飞等研究人员花费50美金训练出名为s1的推理模型,性能与o1和r1类似。
真相 3:标题党的把戏。关于李飞飞那个新闻仅指出模型在微调阶段使用的云计算算力成本。就是租用云平台微调计算的成本。而训练大语言模型的成本囊括多个方面,算力成本仅是其中之一
- GPU算力 (自建/云计算)
- 数据的存储和管理
- 数据采集/标注
- 研究人员的劳动报酬
从0到1研发、训练大模型,极其烧钱。光机器、芯片运行起来的电力消耗就十分惊人,GPT-3的单次训练成本就高达140万美元,对于一些更大的LLM(大型语言模型),训练成本介于200万美元至1200万美元之间。50美元玩大语言模型训练,简直是玩呢。。。。
谣言 4:DeepSeek 不应该开源,不能让其他国家轻而易举地掌握核心算法技术。
真相 4:开源 ≠ 出卖核心技术
开源并不是出卖核心技术,而是战略性地共享部分技术以促进创新和生态建设,同时保留关键竞争优势。LLM的核心技术包括哪些?可能包括模型架构(如Transformer)、训练方法、优化算法、数据处理流程、超参数设置等。其中,模型架构本身很多已经是公开的,比如Transformer架构由Google在2017年开源。但具体的实现细节,比如模型参数的调整、训练数据的处理、分布式训练的技术等可能是企业的核心竞争力。DeepSeek 开源的内容聚焦于 基础架构模型与工具链,旨在吸引开发者共建生态,都来玩并且有利可图,而其核心壁垒(高质量标记数据、工程优化、垂直场景技术)仍保留。
就比如你研发了一种独家火锅底料配方,味道美极了,大受欢迎。如是你想开连锁餐厅,如是你“开源”:
- 开源行为:公开基础底料做法(如“牛油+花椒+辣椒”),但隐藏核心原料比例,微量关键配料与熬制工艺。
- 竞争对手:能按公开配方开店,但味道始终差一截,因为缺乏你的秘制配方和火候控制技术。
- 你的盈利:
- 售卖升级版底料包给连锁店和竞争对手(企业版);
- 培训厨师如何搭配菜品(技术服务);
- 打造品牌联盟,收加盟费(生态分成)。
结果:
- 更多人因你的配方有利可图,且降低了入行门槛而进入火锅行业,整个市场变大(现在你经常可以看到某某大公司接入DeepSeek);
- 你通过控制核心工艺和生态规则,始终是行业龙头;
- 竞争对手想超越,仍需投入巨资研发你的“未公开技术”。
所以,对其他公司或国家而言,并不是复制粘贴就可以搞个大模型出来,真正的核心竞争力(数据、算力、人才)仍需自主积累。一向自视甚高的印度在DeepSeek开源后也表示也要10个月推出自己的大模型,且听象吟诗。
China Can , So Can Bharat
谣言 5:目前的AI和 5G ,元宇宙一样,只是成为融资的噱头,并不能产生新的技术革命。
真相 5:AI目前已经渗透到生活的方方面面,从语音助手到推荐算法,再到自动驾驶、医疗诊断、工业智能制造,它的进展是实实在在的。
如果期待是通用人工智能(AGI)的迅速实现,那确实可能让人失望,因为AGI还有很长的路要走,一些技术瓶颈尚未突破。但如果看具体应用,比如生成式AI(如ChatGPT、豆包),它已经带来了生产力的提升和商业模式的变革。AI是可以深度学习,自我优化的,终将在各个领域渗透,效果会逐步显示。已成为一场不可逆的技术变革,并非只是资本炒作。5G 并未带来消费端的“革命”,其商业化进程比预期慢得多。5G是通讯技术,依然在等待其他的技术赶上才能发挥作用。但在企业级市场,如智慧工厂、工业自动化等领域有价值,长期看潜力不容忽视。元宇宙基本上是一个“概念先行、技术跟不上、需求模糊”的典型案例。
文章来源---https://mp.weixin.qq.com/s/NTTyjcn4e2OXpPQHMSJ2cw |
|