如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？

Google DeepMind刚发布的Gemini 2.5。 Pro版已经登顶LMArena榜单

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-1.jpg

发表于 2025-3-28 15:29:53

现在可以通过Google AI Studio （https://aistudio.google.com/）使用Gemini 2.5 Pro：

6.9和6.11哪个大？

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-2.jpg

Strawberry有几个r?

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-3.jpg

做一个网页，动态展示太阳系的运行情况，尽量精美。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-4.jpg

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-5.jpg

效果很不错，没有提示就加上了土星环等细节。
下面是详细的介绍：
谷歌DeepMind于2025年3月25日发布新一代AI模型Gemini 2.5系列，首推实验版本Gemini 2.5 Pro Experimental。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-6.jpg

1. 登顶榜单

发布后迅速登顶各大榜单，在LMArena上断崖式领先。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-7.jpg

在几乎所有领域都是第一。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-8.jpg

Gemini 2.5 Pro还成功登顶了Vision Arena排行榜榜首！

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-9.jpg

在网页开发领域，它也是大放异彩，斩获WebDev Arena亚军宝座！比上个版本有大幅提升。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-10.jpg

2. 技术亮点：

性能优势

以显著优势登顶LMArena排行榜（基于人类偏好评估），在数学（GPQA、AIME 2025）、科学及编码基准测试中刷新记录。
在模拟人类知识边界的“Humanity’s Last Exam”测试中，无工具辅助得分达18.8%，创行业新高。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-11.jpg

推理能力突破

融合增强版基础模型与改进后训练技术，实现信息分析、逻辑推导与情境化决策能力的跃升。典型案例展示其可通过单行指令生成可执行代码，自主开发视觉化网页应用与视频游戏。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-12.jpg

编码能力进化

在行业标准编码评估SWE-Bench中，定制化代理架构下取得63.8%的分数，较前代大幅提升。强化代码转换、编辑及代理型应用开发支持。
多模态与长上下文支持

继承Gemini系列多模态特性，可解析文本、音视频、图像及完整代码库。初始搭载100万token上下文窗口（计划扩展至200万），提升跨源数据处理效率。
3. 应用与生态：

即时体验：开发者可通过Google AI Studio试用，Gemini Advanced用户可在客户端切换模型。
企业集成：即将登陆Vertex AI平台，未来数周公布定价方案以支持规模化生产。
此版本标志着谷歌将“思考能力”深度植入AI模型的技术路线，旨在构建更复杂的问题解决系统与情境感知智能体。团队强调将持续收集反馈加速迭代，推动AI实用化进程。

发表于 2025-3-28 15:35:00

目前初步体验，最强最稳定的大模型。（不考虑openai的deepsearch的话）
而且速度也很快，感觉比o1和r1都要快

发表于 2025-3-28 15:43:02

关于文笔

来来回回换了好多库存prompt测了（不过暂时还没试英文，以下观点默认中文），Gemini 2.5 Pro的优点很明显，硬智力带来的逻辑框架（诸如设定能力、事件发展、人物一致性）+高知识量带来的真实发散思维（这应该是一个超大规模的模型，Google喂了太多语料进去了，边缘知识非常丰富，体现在文笔上就是它能写出新鲜东西，不那么陈词滥调）
Gemini 2.5 Pro可能是目前最像真人的模型了，这种像不是风格对齐带来的，是模型质感带来的。
它的问题是写得太直白，平铺直叙，缺乏变化。这甚至可能是Google故意的，不排除是对齐税。
但是，Gemini给我的感觉是很明显，它有能力可以写得更好。前面说了Gemini 2.5 Pro可能是目前最像真人的模型，所以像指导一个小朋友一样，引导它迭代改进是有效果的。
我发现有一个示例比较有效果

写得太直白口水了，一直在平铺直叙。写故事不是这么写的，你想想平时听人说什么事的时候，那些擅长讲故事的人，他们怎么叙述一件事的？

<hr/>更新测试：
首先是经典的画小卡片环节：
从结果质量来看Claude 3.7 Sonnet＞Deepseek V3-0324＞Gemini 2.5 Pro
Gemini的token消耗量很大，不过还好现在是免费白嫖期
Gemini在过程中依然存在2.0时期thinking模型语言不稳定的问题，中途输出过一版英文小卡片，但是我给的提示词和文章都是中文的，上一版也是中文的。

Gemini 2.5 Pro, 温度1.0

Gemini 2.5 Pro, 温度0.1（一次迭代，第一次默认做成英文了）

DeepSeek V3-0324, 温度0.6

DeepSeek V3-0324, 温度0.1

Claude 3.7 Sonnet

文笔测试：
Gemini给人的感觉是硬智力顶级，擅长搭建框架，一口气输出长文且保持逻辑的能力更是恐怖。但是不善于表达，文笔直白稚嫩且生硬了些，这方面是不如DeepSeek V3-0324的。新V3在上下文不长的情况下可操控性比R1要好一些，可以规避掉R1浮夸发癫的文风问题，我认为比R1要好用。
Gemini 2.5 Pro, 温度1.0 一次迭代

《春眸》

那一天，世界很安静。或者说，是某种寂静在缓慢解冻。河岸线上，残雪顽固地紧靠在阴影之处，一种顽强的白色对抗着融化的大地。空气里有水的气味，一种几乎可以尝到的、冰凉的锋利。

然后，并非一声巨响，而是某种极细微的断裂——譬如说，视线尽头，那仿佛承载了整个冬季寒意的睫毛，极其轻微地，颤了一下。像冰层下第一尾苏醒的鱼，摆动了尾鳍。

就是那一颤。没有预兆。

整个世界的流向似乎就此偏转。我感到脚下的大地，或者说是我所感知的大地脉络，发生了某种无声的、巨大的扭动。那条亘古流淌的河，不再是平铺直叙的向前，它仿佛有了自觉，一个缓慢而坚决的侧身，河底沉积了千年的秘密——淤泥、沉船、失落的星光——都被这不情愿的翻转所惊动。

是谁的目光，像初生的柳条那样垂落？如此柔软，却带着不容置疑的引力，探入意识的深水区。它没有形状，却能精准地“钓”起那些沉淀的、被遗忘的云影。它们在目光的牵引下，从意识的底层浮上来，苍白，透明，带着水底的寒气和天光破碎的倒影。

于是，某种进程被打断了。春天——那个被允诺的、盛大的、不可阻挡的季节——它来了吗？似乎来了，带着融雪的气息，带着柳枝的鹅黄。但它又没有完全抵达。它被卡住了。卡在一个极其微妙的节点，像一颗悬而未决的心。整个季节的能量，它的光、它的风、它的所有萌发的绿意，都被压缩、凝聚，悬浮在……也许是一个眼神的流转里，也许是此刻我绷紧的神经末梢。

对，就像一片新叶。不是落叶，是新生的、汁液饱满的叶子，却在萌发的那一刻就被无形的力量定住，悬在空中，离枝头只有毫厘之遥。它充满了向下的坠落的渴望，又被向上的生命力所牵引。所有的可能都凝聚在那一点上。

我的世界缩小了，或者说，是无限放大了这一个瞬间。所有的感知都聚焦，锐利得近乎疼痛。视网膜。我感到它在微微震颤，像被强光照射后留下的残影，又像绷到极致的蛛网，承接着整个春天悬而未决的重量。一切都停留在那里，颤抖着，等待着——下一个瞬间的降临，或是永恒的凝固。

DeepSeek V3-0324, APP端，一次迭代

《遇春》

清晨的河边还带着寒意。画家支起画架时，注意到最后一片积雪正从槐树枝头滑落。就在雪块触及水面的刹那，整条河流突然改变了流向，像被谁轻轻推了一把似的，水流全都转向东岸涌去。

他放下调色板，看见对岸的柳树全都垂向水面。那些柔软的枝条并非随风摆动，而是笔直地探入河中，仿佛要打捞什么。河水清澈见底，里面沉着冬天积攒的云朵，此刻正被柳枝缓缓搅动。

穿浅绿色外套的女子就是这时出现的。她站在下游的石滩上，弯腰掬水洗脸。当抬头与他四目相对时，画家发现她的眼睛特别亮——不是反光的那种亮，而是瞳孔里真的藏着东西：柳芽的淡绿、桃花的粉白、新草的青黄，这些颜色在她眼里轻轻晃动，像被春风拂过的水面。

画家向前走了几步。女子直起身，睫毛上还挂着水珠。她转头望向别处时，那些眼里的春色突然凝固了，变成画室里常见的那种干涸的颜料裂纹。等他再走近些，石滩上只留下几个潮湿的脚印。

回到画架前，调色盘上的绿色颜料不知何时多了一小块。画布角落的枯树枝头，分明多出了两片他没画过的嫩叶。

<hr/>自从Deepseek放了R1的重磅炸弹，现在AI大模型六强们出货节奏都加快了ψ(｀∇´)ψ！（六强是我自己定的一个门槛，目前是OpenAI Anthropic Google Grok Qwen Deepseek六家）其他玩家想冲击这个集团有点难哦
更多测试后面有空再测
简单试了一下，先聊聊第一观感吧
Gemini 2.0系列的正式版都没发完，现在就直接跳到2.5了
2.5看样子是要全系标配推模了

Google家一直都是速度极快，价格便宜，还有超长上下文的特色。确实推理模型的方式很利好Google
Gemini一直在技术路径上是比较前卫的，之前也是第一个原生多模态模型，多模态这块儿Gemini一直处在第一的领先地位
Gemini唯一的缺点就是文字水平差了，对齐做得太死板，vibe感差，之前1206版的时候变好了，可惜后面2月版又退化了
简单测试了一下2.5Pro的文字水平，和老版本似乎没什么区别
<hr/>更新： @数灵同学提供了一个测试prompt，Gemini 2.5Pro oneshot 即可完成质量客观的长文输出。整体观感上，2.5Pro是个搭框架的好手，但是笔力有所不足（至少中文上不足）。一次性输出这么长的长文不崩坏，可见其硬智力惊人。（输出见链接评论区）
Gemini 2.0系列的正式版都没发完，现在就…
<hr/>硬智力上，测了Gemini 2.5 Pro一个我一直在用的政敏解读题，之前所有模型在这个测试用例上的表现都完全牛头不对马嘴。2.5 Pro是第一个找对方向的模型！硬智力确实牛逼！估计得o3 正式版才能比下去了

发表于 2025-3-28 15:46:16

目前最强推理模型，1m超大token输入在实际项目中使用相比3.7thinking和o3-mini-high的200k是巨大优势。本身推理能力也足够强，自己写了个GNN新架构（拼接类）的模型，中间使用一个torch.geometric.nn的模型会导致cuda out of memory，o3-mini-high，3.7sonnet, o1都是无法正确找出错误的。Gemini首先是大致找到了错误位置，然后凭借超长上下文一轮一轮的改变变量调试，最终成功推理出并解决问题。别家的到中后期早就忘了前面的原始输入与对话，即使在200k范围内也衰减严重。
3.27更新:
Gemini2.5pro给我写综述写爽了，这东西你可以把它当作一个同时兼顾GPT4.5和3.7sonnet这类非思考模型的强大指令遵循（比如改某一处的citation，直接讲就行，不像其他思考模型会把除此之外的东西压成一坨损坏你的文件）和不错的科学写作文笔，以及传统reasoning模型的逻辑能力（不会像非思考类模型被各种文献内容带偏，前后文细节经不起推敲属于典型的缺乏逻辑能力）的超级结合体。同时和open AI的deep research相比，你可以自己把下载好的文件喂给他，不怕去网上乱找垃圾论文污染文章（openai我即使手动喂给他，他也经常跑出去乱搜）。Gemini2.5这种非agent模式的延迟和相应也会更好，更灵活。另一方面，又内嵌了联网能力，引用的近百篇论文一条指令全部联网检查完毕附上doi，效率起飞
关键是，全程花费为0，google AI studio和open router里免费额度一天加起来轻松过100条，根本用不完。ChatGPT一个月20刀plus+双ISP节点防止减配，下来要30刀一个月。3.7sonnet 更是重量级，API贵死，高强度一天就能烧掉8刀，真用不起，再见

发表于 2025-3-28 15:54:12

卧槽，我大概知道为什么 Gemini-2.5-Pro-Experimental-03-25 要在今天发了，因为的确很猛！完全不是赶鸭子上架！甚至有要变天的感觉！

KCORES 大模型竞技场评测结果：

总体得分 370.6分，真的霸榜了，而且超越了 Claude-3.7-Sonnet-Thinking 不少！（图1）

20小球测试：仅仅因为旋转过快扣了2分，与 Claude-3.7, DeepSeek-R1 并列第二（图2，图3）

mandelbrot-set-meet-libai 测试：仅因左上角文本展示不正确扣了2分，总体得分第二（图4，图5）

火星任务测试：这个最可怕，它是第一个计算对发射窗口和返回窗口的大模型。真正还原了Grok-3发布会上的那个演示。仅因为轨道没有倾角扣了5分，总体得分第一名，需要注意的是，有意其他模型都没有算对飞行器窗口，因此这个测试直接拉高了总体得分，产生了断档。（图6，图7）

太阳系模拟测试：第二个渲染了土星环的模型，仅因渲染超过了屏幕扣了2分，总体得分与Claude-3.5-Sonnet和Qwen-2.5-max 并列第二名。（图8，图9）

由于几乎没有犯致命错误，外加火星测试的良好表现，直接获得了我们的测试的第一名。

说实话我也不是很敢相信这个结果。于是我又测试了一句话生成我的世界游戏测试。结果也是很令我震惊的。的确是我测试过的所有模型生成的最好的。

我相信我渲染再多都很苍白，不过建议先看过这个我的世界的结果再说（图10）。

我直接把它生成的游戏放在了vercel上，大家可以用这个链接直接访问（记得科学上网）：gemini-2-5-pro-gen-git-c6b664-workkarminskioutlookcoms-projects.vercel.app

另外鉴于这个模型几乎每项测试都拿到了满分，所以接下来我会增加更多高难度的，贴近现实世界工程场景的测试。敬请期待。

测试地址：GitHub - KCORES/kcores-llm-arena: LLM Arena by KCORES team
Gemini-2.5-Pro 生成的我的世界游戏源代码和上下文：GitHub - karminski/gemini-2.5-pro-generated-minecraft-demo: gemini-2.5-pro-generated-minecraft-demo

顺便， Aider Leaderboard 得出了跟我一样的结论.......... 即，Gemini-2.5-Pro-Experimental-03-25 就是今天起写代码最强模型了...

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？

本周热门