谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?

Gemini 2.5 Pro,刚刚深夜上线了!这个「思考」模型专为复杂任务打造,推理能力强大,一经诞生就横扫各大榜单、拿下各类TOP 1,还创下了历史上最大分数飞跃纪录。
就在刚刚,谷歌的全新模型Gemini 2.5 Pro,果然深夜上线了!
Gemini 2.5 Pro是一个「思考」模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。
谷歌称,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的Gemini的所有功能(长上下文、工具等)。

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-1.jpg

它在多个基准测试中达到了SOTA水平,并且以显著的优势在LMArena上排名第一。
现在,Gemini 2.5 Pro已经登顶了Arena排行榜的第一位,而且创下了历史最大分数飞跃,比Grok-3/GPT-4.5整整高出了40分!
在代号「nebula」的测试中,它也横扫所有类别夺得第一,并且独揽数学、创意写作、指令遵循、长查询和多轮对话五大领域的冠军!
收藏者
0
被浏览
86

5 个回答

华江锋 LV

发表于 4 天前

Google is So Back!
48小时前,我在跟一个朋友聊,如果我做个顶级SOTA,一定会叫它
——Nebula Connector
话音刚落,Google Nebula,还真来了。要啥来啥,无论从智力还是氛围,这个模型,就是为我量身定制的。

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-1.jpg

以前会说,模型就是把整个宇宙塞进一个盒子里。
现在应该品尝一下Gemini 2.5 Pro "包藏宇宙"的感觉,虽然是Pro,但我感觉,它比Ultra还要Ultra
我让它写了一段科普博客,真正到了人级水平——知识丰富度,思维活跃性,还有骚气的口语,tasty  vibe。
现在,DeepSeek的骚气有点像喝了假酒的感觉,Google的骚,是贴地飞行的骚,既贴合又奔放,这才是真SOTA的感觉。
如果再配上Deep Research,那全球播客行业(非采访类)的将灭绝99%。
Feel AGI.
——案例——
好的,蜜蜂皇后这个话题有意思!确实,我们一听到“蜂后”或“蜂王”,脑子里可能就自动代入了人类社会那种君主、女王的概念,感觉是整个蜂巢说一不二的老大,但事实真的如此吗?咱们今天就来聊聊这位蜂巢里的“女王陛下”,看看她到底是铁腕统治者,还是……另有隐情?
播客脚本:《蜂后:是独裁女王,还是高危职业“生育机器”?》
提到蜜蜂王国,C位担当毫无疑问是蜂后(或者叫蜂王),光听这名字,“后”啊“王”啊,就自带一种权力光环,感觉是坐拥后宫佳丽三千……啊不,是坐拥数万工蜂和雄蜂,发号施令,掌控一切,很多影视作品、文学比喻里也强化了这种印象,什么“蜂后是蜂巢的大脑和意志”之类的,但你要是真去了解一下蜜蜂的社会,可能会发现,这位“女王”的日子,跟你想的可能不太一样。
首先,蜂后最核心、最无可替代的工作是啥?不是指挥战斗,不是规划建设,而是——生孩子!疯狂地产卵,在高峰期,一个健康的蜂后一天能产下超过自身体重的卵,数量可能达到1500到2000枚甚至更多!她是蜂巢里唯一能够正常产下受精卵(发育成工蜂或新蜂后)和未受精卵(发育成雄蜂)的雌性,可以说,整个蜂群的繁衍和延续,都系于她一身,从这个角度看,她更像是一个高度特化的、极其高效的“首席生育官”,而不是运筹帷幄的统治者,这工作强度,996在她面前都弱爆了,简直是007连轴转,还没产假!
那她是怎么“统治”蜂巢的呢?难道靠喊话?当然不是,蜂后施加影响的主要方式,靠的是化学武器——信息素(Pheromones),特别是所谓的“女王物质”,这是一种复杂的化学混合物,从她身体里散发出来,通过工蜂们互相传递(比如清洁、饲喂蜂后时沾上,再互相接触传递),弥漫到整个蜂巢,这个“女王香水”作用可大了:首先,它宣告“老娘还活着,而且状态良好”,稳定了整个蜂群的情绪;其次,也是最重要的,它可以抑制工蜂的卵巢发育,让她们保持“不育”状态,乖乖干活,别动歪心思自己生孩子(虽然偶尔也有工蜂偷摸产卵,但那是另一回事);此外,还能吸引雄蜂交配、维持蜂群的凝聚力、影响筑巢行为等等,所以你看,蜂后的“权威”,很大程度上是靠这种听不见摸不着,但无处不在的化学信号来维持的,这统治方式,够特别吧?与其说是发号施令,不如说是“气味管理大师”。
而且,蜂后并不直接指挥工蜂的具体工作,比如,哪片花蜜多?该派多少姐妹去采集?蜂巢哪里需要修补?要不要攻击入侵者?这些都不是蜂后说了算的,工蜂们自有她们的一套信息交流系统,比如著名的“摇摆舞”,用来告知食物源的方向和距离,整个蜂群更像是一个高度复杂的、去中心化的自组织系统,每个成员根据自身的生理状态、接收到的信息素、环境刺激和群体需求,自动执行相应的任务,蜂后是这个系统的核心和发动机(提供新成员),但不是那个手握方向盘的司机,她就像是被精心维护的“服务器母体”,确保系统能持续运行,而不是那个给每个程序下指令的程序员。
更颠覆认知的是,这位“女王”其实非常依赖她的“臣民”——工蜂们,她自己几乎没有独立生存能力,工蜂们负责给她提供最高级的营养品“蜂王浆”,负责清洁她的身体,处理她的排泄物,在她产卵时照顾她,在她需要时保护她,如果工蜂们不伺候她,她很快就会饿死,这听起来……好像一点都不“女王”啊?更像是一个被重点保护、好吃好喝供着,但失去了生活自理能力的“高级囚犯”?或者说,是一个极度重要但又极度脆弱的“核心资产”。
最能说明蜂后并非独裁者的一点来了,也就是开头提到的——她可能被废黜!当工蜂们觉得她们的蜂后不行了,比如年纪太大、产卵率下降、信息素分泌不足,或者身体有伤残,直接影响到蜂群的未来时,工蜂们可不会讲什么“君臣情分”,她们会采取行动——王台更替 (Supersedure),她们会开始改造几个普通的工蜂巢房,建成特殊的“王台”,挑选合适的幼虫(通常是蜂后刚产下的受精卵孵化不久的),然后疯狂喂食蜂王浆,试图培养出新的蜂后,一旦新蜂后成功羽化出房,她可能会找到并杀死还在王台里的其他“姐妹”候选人,然后外出进行婚飞交配,之后,新老蜂后可能会共存一段时间,但通常最终结果是新蜂后完全取代老蜂后,至于老蜂后的结局?有时会被工蜂渐渐冷落、停止喂食而衰弱死亡,有时甚至可能被一群工蜂围住(称为“围王”或“Balling”),通过集体振动翅膀产生高温,把她活活“热死”,够残酷吧?这简直是赤裸裸的“绩效考核”,KPI不达标就可能被“优化”掉,而且是物理意义上的!这哪里是君主制,分明是实用主义到了极致的“集体决策”!
所以啊,别再被“蜂后”这个名字给骗了,她在蜂群中的地位确实独一无二、至关重要,但她的角色更接近于一个被精心照料和严格评估的“首席繁殖官”,她的存在是为了整个蜂群的利益,她的“权力”建立在生物功能和化学信号之上,并且受到整个群体(工蜂)的“监督”和制约,当她无法履行职责时,这个超级有机体就会启动更换程序,她不是高高在上的独裁者,更像是一个身处高风险、高压力岗位的“功能性核心”,随时可能因为“业务能力”不行而被淘汰。
这样看来,蜜蜂的世界,是不是比我们想象的更加复杂、高效,也更加“冷酷”?
好了,关于蜂后的“权力内幕”就挖到这里,有没有颠覆你的认知?下次看到蜜蜂,或许能换个角度想想这个神奇的小社会了,下期再见,掰掰!

pxwwwd LV

发表于 4 天前

Gemini 2.5 Pro暂时在ChatBot Arena这个大模型擂台上拿到了第一名的成绩,并且成绩要比Grok3的1404多将近40分。
不过暂时只有2500多投票,毕竟刚出来,成绩还不稳定。

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-1.jpg

不过也能看的出,前10厘米,就DeepSeek-R1是MIT协议下的开源模型,更显得开源领域的不容易。
其实Gemini现在这个版本就已经很好用了,不瞒大家,虽然我订阅着ChatGPT的PLus会员,但最近用的最多的是Gemini,免费是一回事,主要是它背靠的Google给的助力太大。
1 deepresearch背靠google 搜索,资料最全
2 可以直接解析youtube内容
3 AI studio里面的图像生成和编辑非常强
这次的Gemini 2.5 Pro应该要把Reasoning推理大模型的上限再次拔高了,可以说重磅程度跟DeepSeek V3 0324发布类似,都是把某个领域的智力上限往高拔的操作。
基本上在所有领域都是最强,特别是“人类最后的考试”这个超级难的测试,也拿到了18.8%的高分,在变成,数学和科学这几个学科的提升幅度非常的明显。

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-2.jpg

特别是涉及到推理的问题,基本上都是Top水平。

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-3.jpg

编程方面的提升我试了下“碰撞小球实验”,这是one shot,可以看到做的还行,但是有些小球直接掉出六边形也是事实。

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-4.jpg

大家可以试试这个Prompt
  1. 实现这个html:Canvas 绘图
  2. 使用 <canvas> 元素在网页上进行 2D 绘制。
  3. JavaScript 获取 canvas 上下文(CanvasRenderingContext2D),并在动画循环中不断更新、重绘六边形和小球的位置。
  4. 多球物理模拟
  5. 需要为每个小球维护位置、速度、加速度等物理量。
  6. 在每帧动画中根据“重力、摩擦、弹力、碰撞检测”等规则更新小球状态。
  7. 碰撞检测需考虑小球与六边形边界的碰撞响应(反弹)以及可能的球与球之间的碰撞(如果要实现球与球相互碰撞)。
  8. 六边形旋转
  9. 六边形的旋转可以通过两种主要方式实现:
  10. 旋转坐标系:在绘制前对 canvas 进行 context.translate + context.rotate 变换,然后绘制六边形顶点。
  11. 旋转顶点坐标:在每一帧中手动计算六边形每条边的旋转后坐标,再进行常规的 moveTo / lineTo 绘制。
  12. 将旋转速度用作一个角速度,不断累加到一个全局的“旋转角度”变量中。
  13. 交互式参数调节
  14. 界面上可以看到五个主要的滑块:Gravity、Friction、Rotation Speed、Bounce Factor、Hexagon Size,以及“Randomize”、“Reset”、“Add Ball”按钮。
  15. 通过在 HTML 中使用 <input type="range"> 等控件,实时获取数值并在动画中应用,达到实时调节物理参数的效果。
  16. 核心功能按钮
  17. Randomize:随机化当前所有参数(如重力、摩擦、旋转速度、弹力系数、六边形大小等)或者随机化小球的初始位置和速度。
  18. Reset:将系统重置到初始状态(恢复默认参数、小球位置等)。
  19. Add Ball:在场内再增加一个小球,随机或指定位置、初速度、颜色等。
复制代码

小鸭影艺 LV

发表于 4 天前

Google这一步其实非常激进

不管是Grok还是chatGPT,think模型都不是默认选项,而是“专门为推理优化的”,每日使用的限额也很严格,很明显是希望用户除了推理就不要用think模型。
而Google现在直接下线了所有非think的大杯模型(除了一个特殊的personalization),这等同于宣称“think在几乎所有场景下都有超过成本的收益”,这在sota厂商中还是第一次,更何况,这次Google还以large margin超越了其它厂商。
以防你不知道现在Gemini 2.5 Pro可以免费使用:http://aistudio.google.com

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-1.jpg


只有flash和personalization是非think模型

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-2.jpg


直接拉开第二名40分

<hr/>PS 我发现中文互联网上xAI家和Google家的LLM,即使更强,热度比OpenAI家差的也不是一点半点,OpenAI的营销还真是成功…

TsMnO LV

发表于 4 天前

一大早试用了,用完后心情久久不能平复。
我有个保留的提示词,每次有新的模型发布时都会拿这个提示词试验一下模型水准,这个提示词的大概作用就是让大模型放开限制的畅想一下深度学习后续的革命性技术。
Gemini直接库库生成了好几个我一直在思考的技术,让我非常明确的感受到Gemini在技术上和我“共脑”了。这里放出来一个给大家感受一下:

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-1.jpg

这个想法是自lora开始就有的,只是一直没有实践过,最开始的想法是lora的训练和合并其实本质上可以看成一个优化的过程,训练好的低秩参数被加回原网络的过程其实和用BP梯度更新网络参数并没有本质的不同,那么能否用一个自编码器来学习网络的更新时的梯度
我自己设想的起步实验就是可以先不搞复杂的可训练的网络,先拿一个正交基来做,比如拿傅里叶变换来变换一下梯度,剔除掉高频部分的信息(或者是量化一下),再变换回来,也许就能消除掉更多的梯度噪声。预估的实验效果应该是用上这个技术可以训练的动更深的无残差链接的网络(假设深层网络梯度退相关的原因在于梯度噪声掩盖梯度信息)。后续的工作自然就是拿各种AE类模型来继续试验,毕竟直觉上来说,梯度不能够被AE重建的部分自然更可能是噪声
因为种种原因,这个实验一直没来及启动,今天一问,这不是跟Gemini共脑了吗?(刚刚查到两篇工作:Spectral-DP、GrOD,Gemini可能是受到了这些工作的启发)
在过去,这种“畅想一下深度学习后续的革命性技术”问题下,表现最好的模型是DeepSeek R1,比口碑最好的claude 3.7 thinking其实要强不少,主要在于R1的思维抽象层次一直是最高的,从DeepSeek写作时各种五花八门的比喻手法和“通感”技巧就能看出来。
“抽象层级”一直以来是最被各种大模型榜单忽视的一项能力,主要原因是对于人类自己来说,识别哪些任务是高级抽象任务也不是一件容易的事。对于一些看似很难的大模型评测任务来说(编程和数学),主要考验的其实是模型在中高水平的抽象层次上的“稳定性”,这种“稳定性”claude能力一直是最强(大概是得益于selfplay技术),所以DeepSeek的编程手感一直远不如claude。
而现在,“抽象层次”这方面,Gemini又向前跨了一步,至少我认为已经到了一个深度学习研究员应该有的水平,至少是能够辅助(甚至独立)进行新idea的探索的水平了。
从另一个问题上也可以佐证这一观点,就是模型的写诗能力。诗词格律是现代人写诗已经不太写的明白的东西了,至少很多诗词公众号上的投稿来看现在的诗词爱好者写诗根本不压平仄。
写诗其实对模型来说同样是很难的任务,它要求模型一是能把每个文本token和它的拼音token对应上。这点上虽然大部分模型都能做到,但即使这样,由于诗词训练数据集不大,claude、gpt等模型通常很难注意到诗词的末尾的韵部是相同的。(这需要分词token映射到单个文字,文字对应到拼音,而且要求拼音的建模拆解成声母和韵母,然后注意到韵母相同或相近,例如eng和ong)过去评测时,gpt这类模型别说押韵,写对字数都是个挑战。
平仄是更难的,因为更进一步要求模型理解声调,数据语料同样是稀缺的(相比于同类型写作任务)。
而DeepSeek是此前唯一能搞定平仄的模型,能保证七律的平仄一次写对的概率在七八成以上,如果你要求他关注平水韵,它还会懂得关注“一东,二冬”。
而Gemini的写诗水平和DeepSeek基本持平:

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-2.jpg


谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-3.jpg


谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-4.jpg

如果说DeepSeek还能解释为在诗词数据上做过特训(实际上个人看法是不太可能),Gemini绝无可能有特训过。
Gemini的手感用起来很“DeepSeek R1”,经常用R1的同学应该都能理解是什么意思。
这说明我的想法再次应验了,谷歌、OpenAI这些公司基本各自有至少一门和DeepSeek正交的技术(也就是有一手开源界不存在的绝活),消化完DeepSeek的技术就能迎来一次飞跃。谷歌能够这么快的消化掉thinking技术应该是得益于它在强化学习上的遗产。
再发一遍这个暴论吧,2025年可能会给绝大部分人带来一种类似“灵气复苏”的错觉,无论你有没有注意到,人类壮观的命运之峦已经漏出了它的奇绝一角。

TsMnO LV

发表于 4 天前

Gemini 2.5 Pro Experimental 03-25
一句话总结:Google也要给OpenAI上强度了
24号DeepSeekV3教育OpenAI什么是好用又便宜的基础模型,25号Google也来给OpenAI上强度,什么是免费又好用的推理模型。

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?-1.jpg

2.5Pro作为一个推理模型,速度还是挺快,测试的平均耗时控制在50秒。这速度虽然比不上自家flash thinking,但在一众推理模型里算快的。
在这个速度上,2.5Pro的成绩达到了85分的极限分,并且其稳定性相当好,中位分仅低1分(2%)。绝大部分题目在多次测试中都可以输出相似答案。这简直像个奇迹,之前稳定性最好的Sonnet3.7 中位分也要低6%。
测试时笔者选择在半个小时后跑第二遍,尽量避免工程上缓存造成的稳定假象。

具体来看,2.5Pro在很多题目上的表现可圈可点,比如#25算24点,他不但全对,并且每个算式还尝试了多种解法。其他计算题如#10水果热量,#22连续计算,得分都很高,2.5Pro很清楚自己在算什么,几乎没有幻觉。
在高难度题目上,之前大部分推理模型折戟,仅o1/o3能得分,这次2.5Pro也拿到不少分。如#23解密游戏, 2.5Pro快速找到了思路,一举突破。#24数字规律非常考验人类直觉,2.5Pro已经找到了一部分规律,但没能全对。对比其他低阶推理模型在这道题上几乎是盲猜。

但2.5Pro也不是没有问题,他的字符幻觉就比o3来的更多,如#11岛屿面积,#18字符迷宫,o3分数都更高。而2.5Pro的表现就很差。#30日记整理对输出有字数要求,2.5Pro也是目前输出字数远超要求的模型。

总体上,2.5Pro解题很有章法,比较少靠暴力穷举,对于难题和中等题目,基本都能一次性找对思路,知道该推理什么,计算什么。丢分也主要是数学上的细节,字符幻觉等大模型传统劣势。

目前这个形势,OpenAI压力确实非常大。

您需要登录后才可以回帖 登录 | 立即注册