attribt LV
发表于 2025-3-28 15:43:02
关于文笔
来来回回换了好多库存prompt测了(不过暂时还没试英文,以下观点默认中文),Gemini 2.5 Pro的优点很明显,硬智力带来的逻辑框架(诸如设定能力、事件发展、人物一致性)+高知识量带来的真实发散思维(这应该是一个超大规模的模型,Google喂了太多语料进去了,边缘知识非常丰富,体现在文笔上就是它能写出新鲜东西,不那么陈词滥调)
Gemini 2.5 Pro可能是目前最像真人的模型了,这种像不是风格对齐带来的,是模型质感带来的。
它的问题是写得太直白,平铺直叙,缺乏变化。这甚至可能是Google故意的,不排除是对齐税。
但是,Gemini给我的感觉是很明显,它有能力可以写得更好。前面说了Gemini 2.5 Pro可能是目前最像真人的模型,所以像指导一个小朋友一样,引导它迭代改进是有效果的。
我发现有一个示例比较有效果
写得太直白口水了,一直在平铺直叙。写故事不是这么写的,你想想平时听人说什么事的时候,那些擅长讲故事的人,他们怎么叙述一件事的? <hr/>更新测试:
首先是经典的画小卡片环节:
从结果质量来看Claude 3.7 Sonnet>Deepseek V3-0324>Gemini 2.5 Pro
Gemini的token消耗量很大,不过还好现在是免费白嫖期
Gemini在过程中依然存在2.0时期thinking模型语言不稳定的问题,中途输出过一版英文小卡片,但是我给的提示词和文章都是中文的,上一版也是中文的。
Gemini 2.5 Pro, 温度1.0
Gemini 2.5 Pro, 温度0.1(一次迭代,第一次默认做成英文了)
DeepSeek V3-0324, 温度0.6
DeepSeek V3-0324, 温度0.1
Claude 3.7 Sonnet
文笔测试:
Gemini给人的感觉是硬智力顶级,擅长搭建框架,一口气输出长文且保持逻辑的能力更是恐怖。但是不善于表达,文笔直白稚嫩且生硬了些,这方面是不如DeepSeek V3-0324的。新V3在上下文不长的情况下可操控性比R1要好一些,可以规避掉R1浮夸发癫的文风问题,我认为比R1要好用。
Gemini 2.5 Pro, 温度1.0 一次迭代
《春眸》
那一天,世界很安静。或者说,是某种寂静在缓慢解冻。河岸线上,残雪顽固地紧靠在阴影之处,一种顽强的白色对抗着融化的大地。空气里有水的气味,一种几乎可以尝到的、冰凉的锋利。
然后,并非一声巨响,而是某种极细微的断裂——譬如说,视线尽头,那仿佛承载了整个冬季寒意的睫毛,极其轻微地,颤了一下。像冰层下第一尾苏醒的鱼,摆动了尾鳍。
就是那一颤。没有预兆。
整个世界的流向似乎就此偏转。我感到脚下的大地,或者说是我所感知的大地脉络,发生了某种无声的、巨大的扭动。那条亘古流淌的河,不再是平铺直叙的向前,它仿佛有了自觉,一个缓慢而坚决的侧身,河底沉积了千年的秘密——淤泥、沉船、失落的星光——都被这不情愿的翻转所惊动。
是谁的目光,像初生的柳条那样垂落?如此柔软,却带着不容置疑的引力,探入意识的深水区。它没有形状,却能精准地“钓”起那些沉淀的、被遗忘的云影。它们在目光的牵引下,从意识的底层浮上来,苍白,透明,带着水底的寒气和天光破碎的倒影。
于是,某种进程被打断了。春天——那个被允诺的、盛大的、不可阻挡的季节——它来了吗?似乎来了,带着融雪的气息,带着柳枝的鹅黄。但它又没有完全抵达。它被卡住了。卡在一个极其微妙的节点,像一颗悬而未决的心。整个季节的能量,它的光、它的风、它的所有萌发的绿意,都被压缩、凝聚,悬浮在……也许是一个眼神的流转里,也许是此刻我绷紧的神经末梢。
对,就像一片新叶。不是落叶,是新生的、汁液饱满的叶子,却在萌发的那一刻就被无形的力量定住,悬在空中,离枝头只有毫厘之遥。它充满了向下的坠落的渴望,又被向上的生命力所牵引。所有的可能都凝聚在那一点上。
我的世界缩小了,或者说,是无限放大了这一个瞬间。所有的感知都聚焦,锐利得近乎疼痛。视网膜。我感到它在微微震颤,像被强光照射后留下的残影,又像绷到极致的蛛网,承接着整个春天悬而未决的重量。一切都停留在那里,颤抖着,等待着——下一个瞬间的降临,或是永恒的凝固。 DeepSeek V3-0324, APP端,一次迭代
《遇春》
清晨的河边还带着寒意。画家支起画架时,注意到最后一片积雪正从槐树枝头滑落。就在雪块触及水面的刹那,整条河流突然改变了流向,像被谁轻轻推了一把似的,水流全都转向东岸涌去。
他放下调色板,看见对岸的柳树全都垂向水面。那些柔软的枝条并非随风摆动,而是笔直地探入河中,仿佛要打捞什么。河水清澈见底,里面沉着冬天积攒的云朵,此刻正被柳枝缓缓搅动。
穿浅绿色外套的女子就是这时出现的。她站在下游的石滩上,弯腰掬水洗脸。当抬头与他四目相对时,画家发现她的眼睛特别亮——不是反光的那种亮,而是瞳孔里真的藏着东西:柳芽的淡绿、桃花的粉白、新草的青黄,这些颜色在她眼里轻轻晃动,像被春风拂过的水面。
画家向前走了几步。女子直起身,睫毛上还挂着水珠。她转头望向别处时,那些眼里的春色突然凝固了,变成画室里常见的那种干涸的颜料裂纹。等他再走近些,石滩上只留下几个潮湿的脚印。
回到画架前,调色盘上的绿色颜料不知何时多了一小块。画布角落的枯树枝头,分明多出了两片他没画过的嫩叶。 <hr/>自从Deepseek放了R1的重磅炸弹,现在AI大模型六强们出货节奏都加快了ψ(`∇´)ψ!(六强是我自己定的一个门槛,目前是OpenAI Anthropic Google Grok Qwen Deepseek六家)其他玩家想冲击这个集团有点难哦
更多测试后面有空再测
简单试了一下,先聊聊第一观感吧
Gemini 2.0系列的正式版都没发完,现在就直接跳到2.5了
2.5看样子是要全系标配推模了
Google家一直都是速度极快,价格便宜,还有超长上下文的特色。确实推理模型的方式很利好Google
Gemini一直在技术路径上是比较前卫的,之前也是第一个原生多模态模型,多模态这块儿Gemini一直处在第一的领先地位
Gemini唯一的缺点就是文字水平差了,对齐做得太死板,vibe感差,之前1206版的时候变好了,可惜后面2月版又退化了
简单测试了一下2.5Pro的文字水平,和老版本似乎没什么区别
<hr/>更新: @数灵 同学提供了一个测试prompt,Gemini 2.5Pro oneshot 即可完成质量客观的长文输出。整体观感上,2.5Pro是个搭框架的好手,但是笔力有所不足(至少中文上不足)。一次性输出这么长的长文不崩坏,可见其硬智力惊人。(输出见链接评论区)
Gemini 2.0系列的正式版都没发完,现在就…
<hr/>硬智力上,测了Gemini 2.5 Pro一个我一直在用的政敏解读题,之前所有模型在这个测试用例上的表现都完全牛头不对马嘴。2.5 Pro是第一个找对方向的模型!硬智力确实牛逼!估计得o3 正式版才能比下去了 |
|