如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?

Google DeepMind刚发布的Gemini 2.5。 Pro版已经登顶LMArena榜单

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-1.jpg
收藏者
0
被浏览
65

5 个回答

ziken LV

发表于 2025-3-28 15:29:53

现在可以通过Google AI Studio (https://aistudio.google.com/)使用Gemini 2.5 Pro:

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-1.jpg

6.9和6.11哪个大?


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-2.jpg

Strawberry有几个r?


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-3.jpg

做一个网页,动态展示太阳系的运行情况,尽量精美。


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-4.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-5.jpg

效果很不错,没有提示就加上了土星环等细节。
下面是详细的介绍:
谷歌DeepMind于2025年3月25日发布新一代AI模型Gemini 2.5系列,首推实验版本Gemini 2.5 Pro Experimental

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-6.jpg

1. 登顶榜单

发布后迅速登顶各大榜单,在LMArena上断崖式领先。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-7.jpg

在几乎所有领域都是第一。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-8.jpg

Gemini 2.5 Pro还成功登顶了Vision Arena排行榜榜首!

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-9.jpg

在网页开发领域,它也是大放异彩,斩获WebDev Arena亚军宝座!比上个版本有大幅提升。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-10.jpg

2. 技术亮点:

性能优势

以显著优势登顶LMArena排行榜(基于人类偏好评估),在数学(GPQA、AIME 2025)、科学及编码基准测试中刷新记录。
在模拟人类知识边界的“Humanity’s Last Exam”测试中,无工具辅助得分达18.8%,创行业新高。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-11.jpg

推理能力突破

融合增强版基础模型与改进后训练技术,实现信息分析、逻辑推导与情境化决策能力的跃升。典型案例展示其可通过单行指令生成可执行代码,自主开发视觉化网页应用与视频游戏。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-12.jpg

编码能力进化

在行业标准编码评估SWE-Bench中,定制化代理架构下取得63.8%的分数,较前代大幅提升。强化代码转换、编辑及代理型应用开发支持。
多模态与长上下文支持

继承Gemini系列多模态特性,可解析文本、音视频、图像及完整代码库。初始搭载100万token上下文窗口(计划扩展至200万),提升跨源数据处理效率。
3. 应用与生态:

即时体验:开发者可通过Google AI Studio试用,Gemini Advanced用户可在客户端切换模型。
企业集成:即将登陆Vertex AI平台,未来数周公布定价方案以支持规模化生产。
此版本标志着谷歌将“思考能力”深度植入AI模型的技术路线,旨在构建更复杂的问题解决系统与情境感知智能体。团队强调将持续收集反馈加速迭代,推动AI实用化进程。

李白 LV

发表于 2025-3-28 15:35:00

目前初步体验,最强最稳定的大模型。(不考虑openai的deepsearch的话)
而且速度也很快,感觉比o1和r1都要快

attribt LV

发表于 2025-3-28 15:43:02

关于文笔

来来回回换了好多库存prompt测了(不过暂时还没试英文,以下观点默认中文),Gemini 2.5 Pro的优点很明显,硬智力带来的逻辑框架(诸如设定能力、事件发展、人物一致性)+高知识量带来的真实发散思维(这应该是一个超大规模的模型,Google喂了太多语料进去了,边缘知识非常丰富,体现在文笔上就是它能写出新鲜东西,不那么陈词滥调)
Gemini 2.5 Pro可能是目前最像真人的模型了,这种像不是风格对齐带来的,是模型质感带来的。
它的问题是写得太直白,平铺直叙,缺乏变化。这甚至可能是Google故意的,不排除是对齐税。
但是,Gemini给我的感觉是很明显,它有能力可以写得更好。前面说了Gemini 2.5 Pro可能是目前最像真人的模型,所以像指导一个小朋友一样,引导它迭代改进是有效果的。
我发现有一个示例比较有效果
写得太直白口水了,一直在平铺直叙。写故事不是这么写的,你想想平时听人说什么事的时候,那些擅长讲故事的人,他们怎么叙述一件事的?
<hr/>更新测试:
首先是经典的画小卡片环节:
从结果质量来看Claude 3.7 Sonnet>Deepseek V3-0324>Gemini 2.5 Pro
Gemini的token消耗量很大,不过还好现在是免费白嫖期
Gemini在过程中依然存在2.0时期thinking模型语言不稳定的问题,中途输出过一版英文小卡片,但是我给的提示词和文章都是中文的,上一版也是中文的。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-1.jpg


Gemini 2.5 Pro, 温度1.0

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-2.jpg


Gemini 2.5 Pro, 温度0.1(一次迭代,第一次默认做成英文了)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-3.jpg


DeepSeek V3-0324, 温度0.6

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-4.jpg


DeepSeek V3-0324, 温度0.1

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-5.jpg


Claude 3.7 Sonnet

文笔测试:
Gemini给人的感觉是硬智力顶级,擅长搭建框架,一口气输出长文且保持逻辑的能力更是恐怖。但是不善于表达,文笔直白稚嫩且生硬了些,这方面是不如DeepSeek V3-0324的。新V3在上下文不长的情况下可操控性比R1要好一些,可以规避掉R1浮夸发癫的文风问题,我认为比R1要好用。
Gemini 2.5 Pro, 温度1.0 一次迭代
《春眸》

那一天,世界很安静。或者说,是某种寂静在缓慢解冻。河岸线上,残雪顽固地紧靠在阴影之处,一种顽强的白色对抗着融化的大地。空气里有水的气味,一种几乎可以尝到的、冰凉的锋利。

然后,并非一声巨响,而是某种极细微的断裂——譬如说,视线尽头,那仿佛承载了整个冬季寒意的睫毛,极其轻微地,颤了一下。像冰层下第一尾苏醒的鱼,摆动了尾鳍。

就是那一颤。没有预兆。

整个世界的流向似乎就此偏转。我感到脚下的大地,或者说是我所感知的大地脉络,发生了某种无声的、巨大的扭动。那条亘古流淌的河,不再是平铺直叙的向前,它仿佛有了自觉,一个缓慢而坚决的侧身,河底沉积了千年的秘密——淤泥、沉船、失落的星光——都被这不情愿的翻转所惊动。

是谁的目光,像初生的柳条那样垂落?如此柔软,却带着不容置疑的引力,探入意识的深水区。它没有形状,却能精准地“钓”起那些沉淀的、被遗忘的云影。它们在目光的牵引下,从意识的底层浮上来,苍白,透明,带着水底的寒气和天光破碎的倒影。

于是,某种进程被打断了。春天——那个被允诺的、盛大的、不可阻挡的季节——它来了吗?似乎来了,带着融雪的气息,带着柳枝的鹅黄。但它又没有完全抵达。它被卡住了。卡在一个极其微妙的节点,像一颗悬而未决的心。整个季节的能量,它的光、它的风、它的所有萌发的绿意,都被压缩、凝聚,悬浮在……也许是一个眼神的流转里,也许是此刻我绷紧的神经末梢。

对,就像一片新叶。不是落叶,是新生的、汁液饱满的叶子,却在萌发的那一刻就被无形的力量定住,悬在空中,离枝头只有毫厘之遥。它充满了向下的坠落的渴望,又被向上的生命力所牵引。所有的可能都凝聚在那一点上。

我的世界缩小了,或者说,是无限放大了这一个瞬间。所有的感知都聚焦,锐利得近乎疼痛。视网膜。我感到它在微微震颤,像被强光照射后留下的残影,又像绷到极致的蛛网,承接着整个春天悬而未决的重量。一切都停留在那里,颤抖着,等待着——下一个瞬间的降临,或是永恒的凝固。
DeepSeek V3-0324, APP端,一次迭代
《遇春》  

清晨的河边还带着寒意。画家支起画架时,注意到最后一片积雪正从槐树枝头滑落。就在雪块触及水面的刹那,整条河流突然改变了流向,像被谁轻轻推了一把似的,水流全都转向东岸涌去。  

他放下调色板,看见对岸的柳树全都垂向水面。那些柔软的枝条并非随风摆动,而是笔直地探入河中,仿佛要打捞什么。河水清澈见底,里面沉着冬天积攒的云朵,此刻正被柳枝缓缓搅动。  

穿浅绿色外套的女子就是这时出现的。她站在下游的石滩上,弯腰掬水洗脸。当抬头与他四目相对时,画家发现她的眼睛特别亮——不是反光的那种亮,而是瞳孔里真的藏着东西:柳芽的淡绿、桃花的粉白、新草的青黄,这些颜色在她眼里轻轻晃动,像被春风拂过的水面。  

画家向前走了几步。女子直起身,睫毛上还挂着水珠。她转头望向别处时,那些眼里的春色突然凝固了,变成画室里常见的那种干涸的颜料裂纹。等他再走近些,石滩上只留下几个潮湿的脚印。  

回到画架前,调色盘上的绿色颜料不知何时多了一小块。画布角落的枯树枝头,分明多出了两片他没画过的嫩叶。
<hr/>自从Deepseek放了R1的重磅炸弹,现在AI大模型六强们出货节奏都加快了ψ(`∇´)ψ!(六强是我自己定的一个门槛,目前是OpenAI Anthropic Google Grok Qwen Deepseek六家)其他玩家想冲击这个集团有点难哦
更多测试后面有空再测
简单试了一下,先聊聊第一观感吧
Gemini 2.0系列的正式版都没发完,现在就直接跳到2.5了
2.5看样子是要全系标配推模了

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-6.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-7.jpg

Google家一直都是速度极快,价格便宜,还有超长上下文的特色。确实推理模型的方式很利好Google
Gemini一直在技术路径上是比较前卫的,之前也是第一个原生多模态模型,多模态这块儿Gemini一直处在第一的领先地位
Gemini唯一的缺点就是文字水平差了,对齐做得太死板,vibe感差,之前1206版的时候变好了,可惜后面2月版又退化了
简单测试了一下2.5Pro的文字水平,和老版本似乎没什么区别
<hr/>更新: @数灵 同学提供了一个测试prompt,Gemini 2.5Pro oneshot 即可完成质量客观的长文输出。整体观感上,2.5Pro是个搭框架的好手,但是笔力有所不足(至少中文上不足)。一次性输出这么长的长文不崩坏,可见其硬智力惊人。(输出见链接评论区)
Gemini 2.0系列的正式版都没发完,现在就…
<hr/>硬智力上,测了Gemini 2.5 Pro一个我一直在用的政敏解读题,之前所有模型在这个测试用例上的表现都完全牛头不对马嘴。2.5 Pro是第一个找对方向的模型!硬智力确实牛逼!估计得o3 正式版才能比下去了

sc163 LV

发表于 2025-3-28 15:46:16

目前最强推理模型,1m超大token输入在实际项目中使用相比3.7thinking和o3-mini-high的200k是巨大优势。本身推理能力也足够强,自己写了个GNN新架构(拼接类)的模型,中间使用一个torch.geometric.nn的模型会导致cuda out of memory,o3-mini-high,3.7sonnet, o1都是无法正确找出错误的。Gemini首先是大致找到了错误位置,然后凭借超长上下文一轮一轮的改变变量调试,最终成功推理出并解决问题。别家的到中后期早就忘了前面的原始输入与对话,即使在200k范围内也衰减严重。
3.27更新:
Gemini2.5pro给我写综述写爽了,这东西你可以把它当作一个同时兼顾GPT4.5和3.7sonnet这类非思考模型的强大指令遵循(比如改某一处的citation,直接讲就行,不像其他思考模型会把除此之外的东西压成一坨损坏你的文件)和不错的科学写作文笔,以及传统reasoning模型的逻辑能力(不会像非思考类模型被各种文献内容带偏,前后文细节经不起推敲属于典型的缺乏逻辑能力)的超级结合体。同时和open AI的deep research相比,你可以自己把下载好的文件喂给他,不怕去网上乱找垃圾论文污染文章(openai我即使手动喂给他,他也经常跑出去乱搜)。Gemini2.5这种非agent模式的延迟和相应也会更好,更灵活。另一方面,又内嵌了联网能力,引用的近百篇论文一条指令全部联网检查完毕附上doi,效率起飞
关键是,全程花费为0,google AI studio和open router里免费额度一天加起来轻松过100条,根本用不完。ChatGPT一个月20刀plus+双ISP节点防止减配,下来要30刀一个月。3.7sonnet 更是重量级,API贵死,高强度一天就能烧掉8刀,真用不起,再见

李白 LV

发表于 2025-3-28 15:54:12

卧槽,我大概知道为什么 Gemini-2.5-Pro-Experimental-03-25 要在今天发了,因为的确很猛!完全不是赶鸭子上架!甚至有要变天的感觉!

KCORES 大模型竞技场评测结果:

总体得分 370.6分,真的霸榜了,而且超越了 Claude-3.7-Sonnet-Thinking 不少!(图1)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-1.jpg

20小球测试:仅仅因为旋转过快扣了2分,与 Claude-3.7, DeepSeek-R1 并列第二 (图2,图3)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-2.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-3.jpg

mandelbrot-set-meet-libai 测试:仅因左上角文本展示不正确扣了2分,总体得分第二 (图4,图5)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-4.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-5.jpg

火星任务测试:这个最可怕,它是第一个计算对发射窗口和返回窗口的大模型。真正还原了Grok-3发布会上的那个演示。仅因为轨道没有倾角扣了5分,总体得分第一名,需要注意的是,有意其他模型都没有算对飞行器窗口,因此这个测试直接拉高了总体得分,产生了断档。(图6,图7)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-6.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-7.jpg

太阳系模拟测试:第二个渲染了土星环的模型,仅因渲染超过了屏幕扣了2分,总体得分与Claude-3.5-Sonnet和Qwen-2.5-max 并列第二名。(图8,图9)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-8.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-9.jpg

由于几乎没有犯致命错误,外加火星测试的良好表现,直接获得了我们的测试的第一名。

说实话我也不是很敢相信这个结果。于是我又测试了一句话生成我的世界游戏测试。结果也是很令我震惊的。的确是我测试过的所有模型生成的最好的。

我相信我渲染再多都很苍白,不过建议先看过这个我的世界的结果再说 (图10)。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-10.jpg

我直接把它生成的游戏放在了vercel上,大家可以用这个链接直接访问(记得科学上网):gemini-2-5-pro-gen-git-c6b664-workkarminskioutlookcoms-projects.vercel.app

另外鉴于这个模型几乎每项测试都拿到了满分, 所以接下来我会增加更多高难度的,贴近现实世界工程场景的测试。敬请期待。

测试地址:GitHub - KCORES/kcores-llm-arena: LLM Arena by KCORES team
Gemini-2.5-Pro 生成的我的世界游戏源代码和上下文:GitHub - karminski/gemini-2.5-pro-generated-minecraft-demo: gemini-2.5-pro-generated-minecraft-demo

顺便, Aider Leaderboard 得出了跟我一样的结论.......... 即,Gemini-2.5-Pro-Experimental-03-25 就是今天起写代码最强模型了...



如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-11.jpg

您需要登录后才可以回帖 登录 | 立即注册