如何评价Scale AI（AI数据标注独角兽公司）的创始人汪滔（Alexandr Wang）？

人物经历：
2016年，19岁的亚历山大·王在大一从麻省理工学院(MIT)辍学，创立Scale AI。
2024年1月5日消息，在山姆·奥特曼重返OpenAI担任首席执行官后，OpenAI董事会及其代表已开始与候选人讨论填补董事会成员空缺，候选人包括Scale AI首席执行官兼联合创始人亚历山大·王等。
现为Scale AI首席执行官兼创始人。

所获荣誉：
2023年，入选《福布斯》“最年轻的白手起家亿万富翁”榜单。
2023年9月，《时代》周刊发布了首届全球百大AI人物，亚历山大·王被评为全球AI领袖。

发表于 2025-4-16 12:59:50

我去查了一下这位Alexander Wang的相关信息，Google的前几条都是关于另一位同名华裔服装设计师的。但还是查到了一点有意思的：

如何评价Scale AI（AI数据标注独角兽公司）的创始人汪滔（Alexandr Wang）？-1.jpg

这位Alexander Wang的女友是一位好莱坞欧裔女星，名叫Kiernan Shipka。众所周知，加州系好莱坞的那些庸俗小报记者们是不会放过关于明星的各种花边新闻的。然而，有关两人感情的新闻几乎在全网都找不到任何报道，只能在几个youtube视频和reddit评论区看见。好莱坞主流娱乐媒体对此的态度是清一色的blackout。

如何评价Scale AI（AI数据标注独角兽公司）的创始人汪滔（Alexandr Wang）？-2.jpg

与此形成鲜明对比的是，甲骨文CEO与某位中国女子的老少恋一经曝光，在美国媒体上就有广泛的讨论。好莱坞及其媒体虽然打着“多元”、“自由”、“包容”的旗号，在实际操作上，一些群体是被默默排除在外的。然而现在，其实已经有相当多的华人看穿了这一骗局，只不过他们不用国内社交媒体，所以才让某些一代移民和Woke Liberal Liars在中文互联网大行其道，借用信息差盲目吹捧一些东西。

如何评价Scale AI（AI数据标注独角兽公司）的创始人汪滔（Alexandr Wang）？-3.jpg

总而言之，这种现象其实反映出了加州系文化深层次的某些心态。关于美东和美西文化的区别，以及形成这种现象的原因，我会在后续的文章中介绍一二。有的时候，我们感觉有些东西不对劲，但说不上哪里不对劲，这就说明，里面一定有很大的猫腻。

发表于 2025-4-16 13:13:03

商业嗅觉一流。数据标注没啥技术含量，就是吃第三世界廉价劳动力。安徽某中科大毕业的干部去新疆挂职，看了一下当地的产业，叹了一口气，直接回合肥找中科讯飞合作，在当地搞数据标注扶贫吧...

发表于 2025-4-16 13:25:41

聪明、利己、靠谈论政治为自己争取利益的小丑。千万不要对这个华裔抱有一丝丝同情、善意和好感，因为他完完全全以自己是美国人为荣，以抹黑中国为自己争取利益。

很多人以为 Alexandr Wang 是在 DeepSeek R1 发布之后破防才变得这么小丑的，实际上，早在 2018 年，他就已经开始公开表达对中国的政治倾向了。为什么？我只能说是强烈的利益相关，通过炒作中美 AI 竞赛的话题，渲染中国威胁论，他已经成功地从美国五角大楼拿到了上千万美元的合同。DeepSeek 虽然在某种程度上影响了他的数据标注生意，但同时，也给了他通过讨论地缘政治向美国政府和国防部表忠心以争取业务的机会。
Alexandr Wang 是中国移民二代，1997 年出生。2016 年创办 Scale AI 公司，主要业务是数据标注，也就是为 AI 训练提供素材。2023 年年底，Time 杂志评选 AI 100 人时曾把 Alexandr Wang 列入，当时对他的介绍是[1]：

Alexandr Wang 在 24 岁时成为全球最年轻的白手起家的亿万富翁，这一切源自五年前他从麻省理工学院（MIT）辍学并于 2016 年共同创办了 Scale AI。Scale AI 帮助公司改进用于训练机器学习算法的数据，通过软件和人工劳动力对大量文本、图像和视频数据进行标注或标签化。这家总部位于旧金山的公司已经成长为一家价值 70 亿美元的巨头，客户包括许多行业巨头，如 Meta、微软和 OpenAI。「我们已经默默地为整个 AI 行业提供动力好多年了，」现年26岁的 Wang 说道。
然而，越来越使 Scale AI 与众不同的是其首席执行官的观点：美国的国家安全与其能否成为 AI 领域的主导者息息相关。2018 年访问中国后，Wang 开始公开谈论中国在人工智能领域的雄心所带来的威胁，并积极与一些有共同紧迫感的美国官员建立联系。他表示：「我突然意识到，这项技术对未来世界的发展变得至关重要。我认为，不仅是我们自己，尽可能多的 AI 公司也应该共同努力，帮助缩小这个差距。」

2023 年，Financial Times 对 Alexandr Wang 有过一篇专访[2]，以下是部分摘录：
George Hammond: 人工智能对军事有多重要？
Alexandr Wang: 我认为，人工智能在军事上的重要性极为显著。如果你回顾战争历史或军事力量的历史，你会发现，通常那些最迅速整合新技术的国家，在硬实力上占据了优势。我的个人观点是，归根结底，对于任何国家来说，硬实力是最重要的力量，是最关键的力量。
如果回顾我成长的地方——洛斯阿拉莫斯，显然，原子弹的出现决定性地结束了第二次世界大战。从那以后几十年，战争明显减少，和平远远超过了之前几百年的时期——这段时间被称为「美国的和平」（Pax Americana）。我认为，这其中的一个重要因素是美国能够自原子弹以来，迅速整合和发展新技术，提升我们在硬实力方面的投射能力。
再看人工智能这样的技术，它在我们日常生活中显然无处不在，而这种影响，我认为很少有技术能够与之相比。你可以想象，这同样适用于战争。人工智能是为数不多的几项技术之一，可能会渗透到战争的各个组成部分，从武器部署和研发到后勤管理，比如「军事后勤效率如何？」、「一个国家的人员管理或情报能力，像是网络安全领域，效率如何？」
假设有一个其他国家——无论是俄罗斯、中国，还是阿联酋或其他国家——能够更迅速地将人工智能融入其作战体系。这是非常可怕的，因为那时你面对的对手，其能力你完全无法了解。
George Hammond: 那么，这就引出了一个问题，你认为在美国和中国之间，关于人工智能的竞争现在处于什么阶段，尤其是在军事应用方面？谁领先？除了投入的资金外，成功的关键因素有哪些？
Alexandr Wang: 从纯技术发展角度来看，西方世界，特别是美国，显然处于领先地位。今天非常重要的大型语言模型技术，就是在美国开发的；去年让世界惊叹的图像生成技术也是如此。这些都是美国技术，来源于美国的创新体系，这是一个值得乐观的理由。
而且，有充分的理由相信，中国实际上可能会在这些领域受到制约。中国最近发布了其人工智能监管条例，其中一条规定是，人工智能必须符合社会主义原则。任何用过 ChatGPT 的人都会意识到，这些系统是很难控制的。所以，作为一个国家，中国投入了大量的审查工作，这使得它在文化上很难全力投入大型语言模型技术。
不过，如果我们看军事应用，我认为我们需要特别关注：面部识别和计算机视觉技术在中国的应用已经取得了一定的优势，因为他们通过民用与军用的融合，以及国内科技产业的发展，创造出了差异化的军事能力。
George Hammond: 你曾经提到过，数据在这场人工智能的竞争中至关重要。中国在数据隐私方面的做法与美国不同。美国是否能够在不妥协隐私的情况下保持领先？
Alexandr Wang: 有趣的是，并非所有数据对于人工智能来说都是一样的。人们常常引用一个观点：中国对隐私或公民自由的关切较少，因此能够积累更多的数据。我认为这可能是对的，但关键在于数据的用途是什么。如果他们想要建立一个全球监控国家，那么显然这类数据非常有价值。但如果他们想要建立差异化的军事能力，那么他们需要的是军事数据。
美国在这方面应该有决定性的优势。我们在军事平台上的投资远远超过其他任何国家。我们拥有的军事硬件数量是全球最多的，我们在太空中的卫星数量也是最多的。如果我们能够将所有这些平台收集到的数据转化为一个中央数据集，供我们自己的发展使用，那将是一个决定性的优势，中国将无法赶上，因为他们必须投资数万亿美元的军事硬件才能竞争。
当然，现实情况使得这一点在今天并不完全成立。比如，美国国防部每天产生 22TB 的数据，这远远超过中国军事硬件每天能够生成的数据量。但目前，大部分数据在美国被丢弃。
George Hammond: 你最初在 Scale 从事的是自动驾驶车辆的数据标注工作。那么，国家安全领域的转变是何时开始的？如今这一部分的工作占据了多大的比重？
Alexandr Wang: 这一切真正发生在我提到的那次中国之行之后。那次旅行让我感到不太对劲。大约一年后，我们开始有意识地与美国政府建立联系并进行合作。
这已成为我们工作的重要部分。如果我从全局角度来看 Scale 可能会带来的长远影响——假设从几个世纪之后回顾——有两点。一是，我们是当前人工智能革命中一切的关键推动者，二是，确保美国在人工智能领域的领导地位，特别是在美国政府的能力方面。从使命的角度来看，这对我们在 Scale 所做的工作非常重要。即便这可能不是最好的商业决策，我认为这是我们必须投入的重要工作。

<hr/>看了上面这段访谈，再看 Alexandr Wang 对 DeepSeek 破防之后的言论就不奇怪了，他本来就是靠渲染中国威胁吃 AI 数据标准这碗饭的人，DeepSeek 的出现对他来说，即是仙草，也是毒药。
DeepSeek V3 发布时，他说[3]：中国科技的「苦涩教训」是：他们在美国休息时工作，用更便宜、更快、更强追上美国。

如何评价Scale AI（AI数据标注独角兽公司）的创始人汪滔（Alexandr Wang）？-4.jpg

DeepSeek R1 发布之后他说[4]：
DeepSeek 是对美国的警示，但并不会改变战略：

美国必须继续超越创新，并加速发展，就像我们在整个人工智能历史中所做的那样。
必须加强对芯片的出口管制，以确保我们能够保持未来的领先地位。

每一次人工智能的重大突破都是美国人的成就。

如何评价Scale AI（AI数据标注独角兽公司）的创始人汪滔（Alexandr Wang）？-5.jpg

他造谣 DeepSeek 有 50000 张 H100[5]，敦促美国加强芯片管制。

如何评价Scale AI（AI数据标注独角兽公司）的创始人汪滔（Alexandr Wang）？-6.jpg

他不遗余力地为自己的数据标注生意辩护[6]：
DeepSeek R1 和 v3 对于大型语言模型（LLM）数据的意义：
与我看到的一些评论不同，DeepSeek R1 实际上是在大量人工生成的数据上进行训练的——事实上，DeepSeek 模型在开源模型中创下了公开的后训练数据量记录：

600,000 个推理数据样本
200,000 个非推理的 SFT 数据样本
人类偏好（RLHF）数据集，大小未公开
用于冷启动的数据的人类处理合成数据

根据中国的 AI 工程师说法，DeepSeek 实际上比其他中国实验室更加重视数据标注，甚至 CEO 亲自为模型标注数据（这让我想起了 @karpathy ，他曾在 Tesla 时，花四分之一的时间进行数据标注）。DeepSeek-v3 的论文甚至专门有一个致谢部分来感谢数据标注工作。
从 DeepSeek-R1 蒸馏出来的 DeepSeek-V3 也在 150 万条指令调优数据样本上进行了训练。
这些 SFT 数据集的规模甚至比其他开源模型还要大：

Qwen-2.5 在 100 万条 SFT 样本上进行了训练
Meta 上次披露的数据是 Llama 2，该模型只在 30k 条 SFT 样本和 300 万条 RLHF 样本上进行了训练
Kimi K1.5 在大约 100 万条 SFT、100 万条多模态 SFT、80 万条经典奖励建模样本和 80 万条 CoT（思维链）标注示例上进行了训练

有趣的是，RLHF 数据集的大小没有公开，而 SFT 和推理数据集的大小则公开了。这可能是因为 RLHF 数据集比预期的大，或者其中揭示了一些他们不愿透露的技术细节。通常在人类偏好数据集上，数据量往往比 SFT 数据集大，因此可以合理推测 DeepSeek 的模型可能使用了至少 300-500 万个样本进行训练，这确实是一个相当大的偏好数据集！
DeepSeek-R1 的主要技术突破在于，对于推理任务，你可以跳过 SFT 数据，直接使用推理数据——但推理数据仍然是困难问题和答案的人工数据，涵盖多个领域。
推理数据集实际上相当庞大——60 万条推理样本已经非常多。这与我们从 SFT 数据向其他数据类型（如人类偏好/RLHF 数据和推理数据）转变的广泛趋势是一致的。原因是，SFT 会将模型的性能限制在某一水平，而 RLHF 或其他方法则能让模型继续在数据集的限制之外不断提升。
DeepSeek R1 是一个非常令人兴奋的模型，看到推理能力在实际应用中的复现非常棒。然而，在训练数据方面，DeepSeek 模型实际上在使用的人工数据量上创下了开源记录。

发表于 2025-4-16 13:38:32

自从deepseek r1出来后这人就彻底不正常了。
一边对deepseek的文章胡言乱语说那些自动生成的数据是人工数据，一边呼喊ai是战争妄图让美国政府给他支持，本质上只是自己百亿美刀估值的数据标注start up在纯RL就能work的情况下变成了泡沫却还在试图保住自己的钱。

发表于 2025-4-16 13:50:00

说一个大家不知道的，很多电诈园区骗不到人的时候，接的就是AI数据标注的活，能保底来钱，对外还能宣称自己是白公司。
园区招聘时基本都以数据标注的名义，绑人进来，实际上也确实在干这种苦力活。换句话说，这个工作猪仔都能干，毫无技术含量，纯属重资产劳动密集型。
建立在第三世界血汗工厂上的AI新殖民主义，是时候结束了。

如何评价Scale AI（AI数据标注独角兽公司） 的创始人汪滔（Alexandr Wang）？

本周热门

如何评价Scale AI（AI数据标注独角兽公司）的创始人汪滔（Alexandr Wang）？