大模型之路 LV
发表于 2025-4-16 13:25:41
聪明、利己、靠谈论政治为自己争取利益的小丑。千万不要对这个华裔抱有一丝丝同情、善意和好感,因为他完完全全以自己是美国人为荣,以抹黑中国为自己争取利益。
很多人以为 Alexandr Wang 是在 DeepSeek R1 发布之后破防才变得这么小丑的,实际上,早在 2018 年,他就已经开始公开表达对中国的政治倾向了。为什么?我只能说是强烈的利益相关,通过炒作中美 AI 竞赛的话题,渲染中国威胁论,他已经成功地从美国五角大楼拿到了上千万美元的合同。DeepSeek 虽然在某种程度上影响了他的数据标注生意,但同时,也给了他通过讨论地缘政治向美国政府和国防部表忠心以争取业务的机会。
Alexandr Wang 是中国移民二代,1997 年出生。2016 年创办 Scale AI 公司,主要业务是数据标注,也就是为 AI 训练提供素材。2023 年年底,Time 杂志评选 AI 100 人时曾把 Alexandr Wang 列入,当时对他的介绍是[1]:Alexandr Wang 在 24 岁时成为全球最年轻的白手起家的亿万富翁,这一切源自五年前他从麻省理工学院(MIT)辍学并于 2016 年共同创办了 Scale AI。Scale AI 帮助公司改进用于训练机器学习算法的数据,通过软件和人工劳动力对大量文本、图像和视频数据进行标注或标签化。这家总部位于旧金山的公司已经成长为一家价值 70 亿美元的巨头,客户包括许多行业巨头,如 Meta、微软和 OpenAI。「我们已经默默地为整个 AI 行业提供动力好多年了,」现年26岁的 Wang 说道。
然而,越来越使 Scale AI 与众不同的是其首席执行官的观点:美国的国家安全与其能否成为 AI 领域的主导者息息相关。2018 年访问中国后,Wang 开始公开谈论中国在人工智能领域的雄心所带来的威胁,并积极与一些有共同紧迫感的美国官员建立联系。他表示:「我突然意识到,这项技术对未来世界的发展变得至关重要。我认为,不仅是我们自己,尽可能多的 AI 公司也应该共同努力,帮助缩小这个差距。」
2023 年,Financial Times 对 Alexandr Wang 有过一篇专访[2],以下是部分摘录:
George Hammond: 人工智能对军事有多重要?
Alexandr Wang: 我认为,人工智能在军事上的重要性极为显著。如果你回顾战争历史或军事力量的历史,你会发现,通常那些最迅速整合新技术的国家,在硬实力上占据了优势。我的个人观点是,归根结底,对于任何国家来说,硬实力是最重要的力量,是最关键的力量。
如果回顾我成长的地方——洛斯阿拉莫斯,显然,原子弹的出现决定性地结束了第二次世界大战。从那以后几十年,战争明显减少,和平远远超过了之前几百年的时期——这段时间被称为「美国的和平」(Pax Americana)。我认为,这其中的一个重要因素是美国能够自原子弹以来,迅速整合和发展新技术,提升我们在硬实力方面的投射能力。
再看人工智能这样的技术,它在我们日常生活中显然无处不在,而这种影响,我认为很少有技术能够与之相比。你可以想象,这同样适用于战争。人工智能是为数不多的几项技术之一,可能会渗透到战争的各个组成部分,从武器部署和研发到后勤管理,比如「军事后勤效率如何?」、「一个国家的人员管理或情报能力,像是网络安全领域,效率如何?」
假设有一个其他国家——无论是俄罗斯、中国,还是阿联酋或其他国家——能够更迅速地将人工智能融入其作战体系。这是非常可怕的,因为那时你面对的对手,其能力你完全无法了解。
George Hammond: 那么,这就引出了一个问题,你认为在美国和中国之间,关于人工智能的竞争现在处于什么阶段,尤其是在军事应用方面?谁领先?除了投入的资金外,成功的关键因素有哪些?
Alexandr Wang: 从纯技术发展角度来看,西方世界,特别是美国,显然处于领先地位。今天非常重要的大型语言模型技术,就是在美国开发的;去年让世界惊叹的图像生成技术也是如此。这些都是美国技术,来源于美国的创新体系,这是一个值得乐观的理由。
而且,有充分的理由相信,中国实际上可能会在这些领域受到制约。中国最近发布了其人工智能监管条例,其中一条规定是,人工智能必须符合社会主义原则。任何用过 ChatGPT 的人都会意识到,这些系统是很难控制的。所以,作为一个国家,中国投入了大量的审查工作,这使得它在文化上很难全力投入大型语言模型技术。
不过,如果我们看军事应用,我认为我们需要特别关注:面部识别和计算机视觉技术在中国的应用已经取得了一定的优势,因为他们通过民用与军用的融合,以及国内科技产业的发展,创造出了差异化的军事能力。
George Hammond: 你曾经提到过,数据在这场人工智能的竞争中至关重要。中国在数据隐私方面的做法与美国不同。美国是否能够在不妥协隐私的情况下保持领先?
Alexandr Wang: 有趣的是,并非所有数据对于人工智能来说都是一样的。人们常常引用一个观点:中国对隐私或公民自由的关切较少,因此能够积累更多的数据。我认为这可能是对的,但关键在于数据的用途是什么。如果他们想要建立一个全球监控国家,那么显然这类数据非常有价值。但如果他们想要建立差异化的军事能力,那么他们需要的是军事数据。
美国在这方面应该有决定性的优势。我们在军事平台上的投资远远超过其他任何国家。我们拥有的军事硬件数量是全球最多的,我们在太空中的卫星数量也是最多的。如果我们能够将所有这些平台收集到的数据转化为一个中央数据集,供我们自己的发展使用,那将是一个决定性的优势,中国将无法赶上,因为他们必须投资数万亿美元的军事硬件才能竞争。
当然,现实情况使得这一点在今天并不完全成立。比如,美国国防部每天产生 22TB 的数据,这远远超过中国军事硬件每天能够生成的数据量。但目前,大部分数据在美国被丢弃。
George Hammond: 你最初在 Scale 从事的是自动驾驶车辆的数据标注工作。那么,国家安全领域的转变是何时开始的?如今这一部分的工作占据了多大的比重?
Alexandr Wang: 这一切真正发生在我提到的那次中国之行之后。那次旅行让我感到不太对劲。大约一年后,我们开始有意识地与美国政府建立联系并进行合作。
这已成为我们工作的重要部分。如果我从全局角度来看 Scale 可能会带来的长远影响——假设从几个世纪之后回顾——有两点。一是,我们是当前人工智能革命中一切的关键推动者,二是,确保美国在人工智能领域的领导地位,特别是在美国政府的能力方面。从使命的角度来看,这对我们在 Scale 所做的工作非常重要。即便这可能不是最好的商业决策,我认为这是我们必须投入的重要工作。
<hr/>看了上面这段访谈,再看 Alexandr Wang 对 DeepSeek 破防之后的言论就不奇怪了,他本来就是靠渲染中国威胁吃 AI 数据标准这碗饭的人,DeepSeek 的出现对他来说,即是仙草,也是毒药。
DeepSeek V3 发布时,他说[3]:中国科技的「苦涩教训」是:他们在美国休息时工作,用更便宜、更快、更强追上美国。
DeepSeek R1 发布之后他说[4]:
DeepSeek 是对美国的警示,但并不会改变战略:
- 美国必须继续超越创新,并加速发展,就像我们在整个人工智能历史中所做的那样。
- 必须加强对芯片的出口管制,以确保我们能够保持未来的领先地位。
每一次人工智能的重大突破都是美国人的成就。
他造谣 DeepSeek 有 50000 张 H100[5],敦促美国加强芯片管制。
他不遗余力地为自己的数据标注生意辩护[6]:
DeepSeek R1 和 v3 对于大型语言模型(LLM)数据的意义:
与我看到的一些评论不同,DeepSeek R1 实际上是在大量人工生成的数据上进行训练的——事实上,DeepSeek 模型在开源模型中创下了公开的后训练数据量记录:
- 600,000 个推理数据样本
- 200,000 个非推理的 SFT 数据样本
- 人类偏好(RLHF)数据集,大小未公开
- 用于冷启动的数据的人类处理合成数据
根据中国的 AI 工程师说法,DeepSeek 实际上比其他中国实验室更加重视数据标注,甚至 CEO 亲自为模型标注数据(这让我想起了 @karpathy ,他曾在 Tesla 时,花四分之一的时间进行数据标注)。DeepSeek-v3 的论文甚至专门有一个致谢部分来感谢数据标注工作 。
从 DeepSeek-R1 蒸馏出来的 DeepSeek-V3 也在 150 万条指令调优数据样本上进行了训练。
这些 SFT 数据集的规模甚至比其他开源模型还要大:
- Qwen-2.5 在 100 万条 SFT 样本上进行了训练
- Meta 上次披露的数据是 Llama 2,该模型只在 30k 条 SFT 样本和 300 万条 RLHF 样本上进行了训练
- Kimi K1.5 在大约 100 万条 SFT、100 万条多模态 SFT、80 万条经典奖励建模样本和 80 万条 CoT(思维链)标注示例上进行了训练
有趣的是,RLHF 数据集的大小没有公开,而 SFT 和推理数据集的大小则公开了。这可能是因为 RLHF 数据集比预期的大,或者其中揭示了一些他们不愿透露的技术细节。通常在人类偏好数据集上,数据量往往比 SFT 数据集大,因此可以合理推测 DeepSeek 的模型可能使用了至少 300-500 万个样本进行训练,这确实是一个相当大的偏好数据集!
DeepSeek-R1 的主要技术突破在于,对于推理任务,你可以跳过 SFT 数据,直接使用推理数据——但推理数据仍然是困难问题和答案的人工数据,涵盖多个领域。
推理数据集实际上相当庞大——60 万条推理样本已经非常多。这与我们从 SFT 数据向其他数据类型(如人类偏好/RLHF 数据和推理数据)转变的广泛趋势是一致的。原因是,SFT 会将模型的性能限制在某一水平,而 RLHF 或其他方法则能让模型继续在数据集的限制之外不断提升。
DeepSeek R1 是一个非常令人兴奋的模型,看到推理能力在实际应用中的复现非常棒。然而,在训练数据方面,DeepSeek 模型实际上在使用的人工数据量上创下了开源记录。 |
|