小鸭影艺 LV
发表于 2025-4-1 10:20:36
阿里的淘宝天猫电商零售业被拼多多围剿得太狠了,如果一直没有新的增长点,眼看就要寄了,去年甚至一度出现过市值被拼多多短暂反超。。
前段时间爆火的DeepSeek通过免费提供o1级别的推理模型,直接让全球用户体验到了推理模型的强大魅力,有了这一个突破口,随之而来的就是全世界各大厂的推理模型推出热潮,先是OpenAI免费开放了o3-mini,再是这两天马斯克发布的Grok3基座和相应的推理模型,这下是阿里来冲击刷榜推理模型了。
DeepSeek 思维链展示的是真实思考过程吗?还是为了更像人类思维而展示的呢?从国内整个互联网的市值带动方面看,自从DeepSeek 火出圈后,直到今天,恒指上多少中概股被带动大涨,中国的互联网科技公司之前被华尔街严重低估,现在逐渐价值回归,同时也让全世界认识到我们本土科技公司和人才的实力。
前几天有新闻统计,随着DeepSeek这波点燃AI热潮,过去一个月,全球对冲基金以数月来最快速度涌入中国股市,推动在岸与离岸市场总市值增长超1.3万亿美元。
恒指科技直接从4100一路涨到了今天的最高点5800,交易量也明显上来了:
至于阿里的大模型能力,我之前在答案中回答过,推理模型的效果好很大一部分要取决于训练所用的基座模型,
DeepSeek R1推理模型效果非常好的最大原因,应该是因为DeepSeek 在训练R1-zero的时候,强化学习是在v3基座上进行的。DeepSeek-v3作为强大的基座模型,语言理解和生成能力极强。
于是,用强大的模型基座能解决RL训练采样效率低的问题,(有点类似于最早alphago,有pre-training的先验知识),基座模型v3生成质量足够高的思维链,避免我们在强化训练中常见的探索维度爆炸但rewards 信号没办法稳定上升并收敛的问题。
另外就是被讨论最多的R1-zero在RL训练过程中,随着训练steps的增加,其在训练集上的平均响应长度逐渐增加,表明其自然学会在推理任务中花费更多思考时间,从而提高解决复杂任务的能力。
所以,除了思维链每一步的质量,长度问题也很关键,随着训练步数的增加,思维链长度也是稳步上升,就能生成更复杂的推理过程,而正是因为基座模型足够强,思维链的长度同时被rewards 信号鼓励增加,形成正反馈,从而获得很好的效果。
甚至,推理模型有了显著的self-evolution, 即随着test-time computation的增加,产生了反思reflection、探索解决问题的替代方法,以及经常被提到的“Aha Moment”等Agent behavior(这里可以参考我在文末放的另一个回答“智能的本质是什么”),这些行为都是模型作为RL Agent与强化学习环境相互作用的结果。
欢迎大神科普:《关于DeepSeek 的强化学习,为什么强化学习RL对LLM推理能起效? 》?董不懂在摸鱼:如何区分不同大模型、兼谈快思考和慢思考而Qwen2.5-Max与Sota基座大模型DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet等的性能对比结果如下图,可以看出来指标上都是高于DeesSeek V3(但这不一定表示推出的推理模型一定各方面都优于DeepSeek R1,还有很多其他因素)。
于是市场上的期待更高,股价便开盘就涨到了这个程度。。
就在昨晚阿里美股上直接跳空高开涨了12%,更逆天的是看看底下交易量,这才刚开盘就远超之前全天的交易量。。
当然除了前段时间座谈会信心鼓舞,主要原因一个是业绩超预期,另一个关键就是阿里的大模型和未来持续对AI的投入,给市场带来了不少期待。
为什么AI大模型容易误认为strawberry里有2个r? |
|