谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？

5月15日消息，据国外媒体报道，Alphabet 2024年I/O开发者大会于美国东部时间2024年5月14日13时（北京时间5月15日1时）在加利福尼亚州山景城海岸线露天剧场正式举行。借助此次活动，Alphabet向外界展示了该公司最小和最有效的人工智能模型。
在周二的活动中，Alphabet推出了Gemini系列人工智能模型的新成员Gemini 1.5 Flash。该模型速度更快，体积更小，部署更加灵活，并支持多模态。谷歌DeepMind联合创始人、首席执行官戴密斯·哈萨比斯（Demis Hassabis）表示：“我们从开发人员那里听说，他们希望使用响应速度更快、更具成本效益的模型。”与功能更强大的版本一样，Gemini 1.5 Flash可以接收大量数据，同时针对聊天应用、视频和图像字幕进行了优化。
在Alphabet召开2024年I/O开发者大会之际，科技公司正越来越多地把产品开发和推广的重点转向生成式人工智能领域。这对Alphabet子公司谷歌尤为重要，因为与传统的在线搜索相比，新工具为消费者提供了更先进、更具创意的在线信息获取方式。OpenAI周一推出了新人工智能模型GPT-4o和桌面版ChatGPT，以及新的用户界面。该公司表示，GPT-4o的响应速度是GPT-4 Turbo的两倍，但成本只有后者的一半。
Alphabet还宣布了对能够处理大量数据的Gemini 1.5 Pro模型的升级，把上下文窗口（人工智能模型可理解的信息量)从当前100万tokens增加到200万。这意味着当在一个提示中给出数千页文本或一个多小时的视频时，Gemini 1.5 Pro能够回答用户的问题。
据负责Gemini项目的谷歌副总裁透露，Gemini 1.5 Pro模型一次性能够理解长达1500页的多个大型文件，或者是对100封电子邮件进行总结。此外，Gemini 1.5 Pro将很快能够处理时长为一小时的视频内容，或超过3万行的代码库。他表示：“面对海量的文件，用户能够很快获取到核心内容，比如弄清楚租赁协议中宠物政策的细节，或者对多篇长篇研究论文的关键论点进行比较。”
OpenAI本周宣布的最新升级，为50种不同语言的ChatGPT带来了更高的质量和响应速度。该公司还表示，将通过OpenAI的应用编程接口（API）提供，允许开发人员立即开始使用新模型构建应用。
Alphabet表示，Gemini 1.5 Pro有35种语言，上下文窗口达到200万个tokens。该公司高管表示，新模型提高了局部推理、规划和图像理解能力。Alphabet首席执行官桑德尔·皮查伊称：“Gemini 1.5 Pro提供了迄今为止所有基础模型中最长的上下文窗口。”
Alphabet还表示，Gemini 1.5 Pro首先将在内测实验室Workspace Labs进行测试；Gemini 1.5 Flash将用于测试和在机器学习平台Vertex AI中使用，Vertex AI允许开发人员训练和部署人工智能应用。

发表于 2025-4-1 12:14:09

体验了一把，虽稍有延迟，但依旧丝滑无比，事实证明，谷歌用实力证明自己仍然是AI巨头的一员。
早在今年的2月15日就提前爆出了谷歌要在5月中旬发布，从昨天谷歌发布推出的几个产品来看，果然谷歌还是没让我失望！
什么是Gemini Pro

Gemini Pro是谷歌最大的多模态人工智能模型之一，它可以理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。在此基础上，谷歌更新了底层大模型的优化算法，并于昨天1.5 Pro问世，这款多模态AI模型涵盖了不同的媒体形式，并具备多层次推理能力。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-1.jpg

Gemini 1.5 Pro的发布亮点：

• 可提供 100 万长文本能力，已经向全球开发者开放。
• 拥有原生音频理解、系统指令、JSON 模式等功能。
• 能够使用视频计算机视觉分析图像和音频的视频，具有人类水平的视觉感知能力。
• 多模态处理能力。深度神经网络使其能够以超人精度识别图像（和视频帧）中的物体、场景和人物，与OpenAI的GPT-4o相比，在图像和视频理解方向上性能变现的很优异
• 高效的性能优化。Gemini 1.5 Pro在速度和成本效率上也进行了优化。谷歌表示，这一模型在响应速度和计算资源使用上，比同类产品更高效，这对于开发者意味着更低的运营成本和更快的迭代速度。
• 支持35多种语言和150多个国家/地区的文本处理
连带发布和新升级的AI相关产品足足有14项：如下表：

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-2.jpg

经历了全新升级过后的Gemini 1.5 Pro ，其稳定处理上下文窗口也从100万tokens提升到 200万tokens，能够同时处理 2 小时的视频、22 小时的音频、6 万多行代码或 140 多万个字。
举个例子

该视频生成模型Veo，1080p超过60秒

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-3.jpg

Veo模型具备1080p的高质量，用户提示可以是文本、图像、视频等各种格式，还能捕捉到其中关于视觉效果和影像风格的各种细节描述，另外通过点击「扩展」按钮，用户就可以持续增加视频的时长，最终，它的时长已经超过Sora达到了1分10秒。
这次谷歌发布的视频模型Veo，可以看作是对OpenAlSora的正面迎战了可以看出，Veo生成的视频不仅真实，而且在光线、构图等方面具有惊人的电影感
Gemini 对长上下文的理解在性能上又提升了不少
这款模型上次拥有高达100万令牌的上下文窗口，让它在处理冗长代码库、分析电影情节或解读长篇小说时，都能如鱼得水。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-4.jpg

Gemini上下文窗口的token也从一百万提升到两百万

与最大token输入较小的模型不同，谷歌 200 万token输入Gemini 1.5 Pro之类的模型不会轻易“忘记”最近对话的内容并偏离主题。大的上下文模型还可以更好地掌握它们所接收的数据流，并生成更丰富的上下文响应。
而Gemini 1.5，能够跨大量信息进行多模态推理，并且擅长摘要、聊天、图像和视频字幕、长文档和表格的数据提取等工作。它将很快能够处理时长为一小时的视频内容，或超过3万行的代码库

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-5.jpg

通过语音模型，谷歌还增强了Astra的声音，使Agent具有更广泛的语调，让这些Agent可以更好地理解它们所处的上下文，并在对话中快速响应。
Gemma的2.0版本，270亿参数。并为它拓展了PaliGemma这个多模态版本。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-6.jpg

Gemini 1.5 Pro目前是所有商用型号中支持最大输入的模型，最多可容纳200万token数，你要知道，token指的是原始数据的细分位，200 万个token相当于约 140万个单词、两个小时的视频或22小时的音频。除了能够分析大文件之外，可以接受更多token数的模型有时还可以提高性能。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-7.jpg

谷歌还提供了详细的教程和文档，帮助开发者学习如何使用Gemini AI和NodeJS编写脚本。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-8.jpg

Gemini 1.5 模型的应用场景也非常强大！

Gemini Pro适用于更一般或更复杂、通常是多步骤的推理任务，可以讲故事，总结文档摘要，处理表格中的数据。
1、用篮球讲解牛顿运动定律

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-9.jpg

2、分析录音，总结会议纪要

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-10.jpg

3、总结文字文档

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-11.jpg

4、谷歌Gemini搜索更加强大

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-12.jpg

Gemini 1.5 Pro 在 API 层面，谷歌对 Gemini 1.5 Pro 也做了诸多优化和改进。新增的系统指令功能允许用户更精准地控制模型的行为，通过定义角色、格式、目标和规则来达到特定的业务需求。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-13.jpg

谷歌还引入了 JSON 模式，该模式使得从文本或图像中提取结构化数据成为可能，这对于需要大量自动化处理和数据分析的企业来说，是一个非常有用的工具。
有人说，Gemeni大模型这么强大，是不是要被这些工具所替代了？当然不是，我们要成为工具的掌舵者，入局AI是必然的趋势。正好知乎知学堂和AGI课堂联合推出的免费公开课——「程序员的AI大模型进阶之旅」，由几位业内大佬主讲，带你了解Gemini的底层原理，学习到用AI解决业务问题的核心方法，让你快速了解大模型，培养你独立训练大模型的能力，增加职场竞争力。
最重要的是，大佬能在线答疑，趁着现在还免费，建议IT人都去看看↓↓↓
另外，谷歌还公布了号称是目前最强大的图像生成模型的Imagen 3，其能够更好理解文本，创造出逼真图像，也能根据草图快速生成高分辨率图像。并且，谷歌Imagen 3还为图像生成带来了更强的细节表现力。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-14.jpg

或许有些人会吐槽一下谷歌发布会的发布形式花里胡哨，模型跟产品没啥突破，搁那吹吹打打，轮番上阵，观感属实不好，但是和openApi相比，还是值得一战的
从今天过后，从OpenAI发布的GtpO和谷歌发布的Gemini时代来看，AI大模型时代，真的到来了！

发表于 2025-4-1 12:25:33

谷歌有内鬼吧？
每次发布会都被OpenAI狙击的死死的，所有新东西在OpenAI发布会后都让人兴奋不起来，翻不起一点大众的波澜。

就连今天Ilya离职也为OpenAI狙击Google开发者大会做了最后的贡献，成功分流了科技圈的讨论热点。
题外话说一句，上次OpenAI逼宫事件后，Ilya虽然妥协，但肯定无法久待，Sam肯定会找人替代他的位置，这个人现在找到了，新的gpt-4o也发布了，这是个好的时间节点。
Ilya真的很善良，哪怕走也给OpenAI带来了最大的贡献。

他是一个令人值得尊敬纯粹的技术大牛，分手都那么温柔。
话题扯远了，我拉回来。
让我们来看看谷歌这次开发者大会，推出最强大 AI 模型 Gemini 1.5 Pro里面的内容有什么值得注意的。
一、谷歌开发者大会内容

在本次开发者大会上，谷歌将焦点聚集在了当前炙手可热的生成式AI功能上，特别强调了经过再次升级的Gemini 1.5 Pro大模型，并推出了谷歌视频生成模型Veo。

谷歌搜索也迎来了更新，同时宣布Gemini模型将被整合到Android 15系统中，并展示了一系列即将推出的生成式AI功能。
同时在会上，谷歌宣布Gemini 1.5 Pro升级到200万tokens，并全面支持Workspace，同时Gemini 1.5 Pro将面向全球开发者开放。

谷歌正式发布了“AI Overviews”搜索功能，该功能本周将在美国率先推出，随后逐步扩展至其他国家和地区。
谷歌搜索与Gemini大模型的结合，使得搜索结果能够生成AI摘要，用户可以输入一段具体的文字，系统将根据文字内容和场景匹配搜索结果，为旅行规划创建更为合理的清单，甚至根据天气提供推荐。

此外，未来谷歌还将推出视频搜索功能，用户可以通过拍摄视频来搜索所需内容。
谷歌在大会上，还推出了“Ask Photos”功能。
该功能在Gemini大模型的支持下，允许用户通过聊天的方式搜索照片或视频，例如询问车牌号码，系统将通过检索和识别技术找出相应的车牌号。
询问孩子的游泳情况，系统将搜集并展示孩子过去的游泳照片。

该功能预计将在夏季正式推出。
谷歌还发布了Gemini 1.5 Flash模型，该模型成本低于Gemini 1.5 Pro，并对延迟进行了优化，宣称能够一次性分析1500页文档或超过30000行的代码库，为开发者提供了一个经济实惠的选择。

紧随其后的是重磅项目Project Astra，旨在打造面向未来的生成式AI交互体验。

演示视频展示了手机通过摄像头对周围环境的理解，并能够实时进行语音交互。

用户打开摄像头询问拍摄的物体，系统能够准确识别并给出语音回答。
甚至它能够回忆起拍摄过程中某个物体的位置，这种功能可以从手机无缝转移到眼镜上继续使用。

而在文生图功能方面，谷歌推出了Imagen 3，相比前代能够更准确地识别文字信息，创作的图片更符合文本描述。

除了图片和文本生成，谷歌发布了视频生成模型Veo，与OpenAI的Sora竞争.
Veo能够通过文本和图像生成视频，生成的视频分辨率可达1080P，时长可超过1分钟。

用户只需提供描述视频场景的文本提示，Veo就能将该场景转化为相应的视频内容.
比起Sora到现在的遥不可及，目前Veo可以在平台上加入等待名单申请试用。
https://aitestkitchen.withgoogle.com/zh/tools/video-fx除此之外，在办公场景中，谷歌Gmail将整合Gemini大模型的能力。
它不仅能够总结邮件内容，还能根据需求比较邮件内容（如自动比价装修报价邮件），并根据上下文智能提供回复建议。

在开发者大会上，谷歌明确表示Android 15将加入谷歌Gemini大模型，提供更多AI功能。
例如已在三星AI手机上应用的即圈即搜功能，除了搜索物体外，还增加了截图功能，圈选题目给出解题思路和答案，帮助学生解题。
在查看PDF等文件时，系统能够总结文件内容，并以询问的方式提供用户想要了解的信息。如果识别的页面包含视频，系统也能对视频内容和字幕进行分析，快速获取视频信息。

此外，谷歌还为手机增加了AI诈骗电话检测功能，如果在通话过程中识别到疑似诈骗行为，系统将弹出提示窗警告用户。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-15.jpg

谷歌在大会结束时宣布，Android 15 Beta 2将于明天上线。
关于谷歌开发者大会的主要内容就是以上这些。
而Gemini 1.5 Pro的功能详细分析其他博主已经说的很充分的，我来说一说为什么我觉得谷歌这次发布会可能掀不起什么波澜。
二、原因分析

其实Google在开发者发布大会上的内容，不难发现又多又全，但是特点不够鲜明。
1、Gemini的升级

Gemini 1.5 Pro 在 2 月份就已经发布，本次更新发布了Gemini 1.5 Flash，但是跑分并没有很亮眼，被昨天发布的GPT-4o甩在后面。
而在发布会上介绍Gemini 1.5会提供“迄今为止所有基础模型中最长的上下文窗口”——200万token，拓展同步处理多模态信息的边界。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-16.jpg

Excuse me？就这？
200万Token上下文，如果是几个月前，那可以说是非常有特点，但是现在是2024年5月份了，暂且不提是KIMI先提出的200万Token上下文内容, Google是不知道通义千问已经在3月份就免费开放1000万字长读取文本功能了吗……
对比起来毫无优势。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-17.jpg

而且对于大部分使用者来说，是100万Token还是200万Token在高频的日常任务差别不大，不是每个人都要拿来写长篇小说的。
反正我是内心毫无波澜。
2.VEO视频

Veo模型具备生成多种风格、高清1080p分辨率视频的能力，且视频时长可轻松超越一分钟。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-18.jpg

Veo模型在自然语言处理和视觉语义理解方面取得了显著进展，使其在解析视频内容、渲染高清晰度图像以及模拟物理现象等方面实现了技术上的飞跃。
Veo所生成的视频作品，能够精确而细腻地传达用户的创意构想。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-19.jpg

VEO视频本身看上去还行，但是Sora早了它几个月，而且Sora视频的质量看上去很棒，VEO没有特别惊艳，除了时间确实1分钟比较长，其他并没有特别让人有印象的点。
对比起来，国内的生数在几周前公布的视频都让我印象更加深刻。
现在AI视频开始造成的震撼已经随着时间慢慢淡化，风头被OpenAI抢走了，菜都凉了，无法让人兴奋。
3.通用AI智能体Astra

根据大会的说法，谷歌基于Gemini开发了智能体原型，该原型能够通过连续编码视频帧、将视频和语音输入整合到事件时间线中，并缓存这些信息以实现快速检索，从而加速信息处理。
通过语音模型，谷歌进一步增强了智能体的发音能力，赋予了智能体更丰富的语调。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-20.jpg

这些智能体能够更好地理解所处的上下文，并在对话中迅速作出反应。
但是从大会上发布的演示在交互体验上，与昨天GPT-4o的实时演示相比，似乎存在一定的差距。
无论是在响应时间、语音情感的丰富度，还是在可打断性等方面，GPT-4o的交互体验看起来更强。
Astra响应速度上，从展示的内容上看好像是比不过GPT-4o，也没有演示是否能随时打断，其实这才是在与人交流中比较关键的体验。
有了GPT-4o珠玉在前，Astra逊色不少。
结语

基于之前被Gemini多模态视频剪辑欺骗的历史，我觉得产品好不好，还是看实际效果，不能看DEMO。
等看到实际效果再评价比较客观。
<hr/>我是德里克文，一个对AI绘画，人工智能有强烈兴趣，从业多年的设计师！如果对我的文章内容感兴趣，请帮忙关注点赞收藏，谢谢！

发表于 2025-4-1 12:37:13

google最近废物的不行
DEI硬指标搞的多
而且烂的批爆，里面一堆废物女程序员还不能说，你不能说你就别几把下指标啊，什么脑残管理层搞不出成绩只能搞diversity，结果搞了diversity后更难搞成绩，没救，或者说黑人老哥来顶名额的，但是黑人老哥如果是移民的话也非常靠谱，主要怕几把基本NEU绿卡女，进去真是啥几把不会
导致什么大的都做不出来，就Gemini里面的Deepmind都搞的不是很动，被LLama爆干，而且是基本上一个套路，完全看不出来任何特殊的创新
本质上是管理已经爆了，完全没有一个灵魂人物能出来带队，贼几把怪，大伙都在斗，天天怕裁员
而且裁员裁了也不降diversity指标，这下好，能干活的全给踹了
这就和国内为什么不能裁国企一样，因为关系户（diversity）的踹不动，只能踹下面干活的
google真是彻底的国企低效化和LGBT天天争取权利的“正确”了，集齐了两个世界的全部糟粕
两个文明伺候我一个人，这福分还小的了？
而且google这技术基本上都很小的更新
原本以为昨天OpenAI已经没活了
发现这个flash更新还不如GPT4o，其他加起来唯一逆天的就是自己请了个LGBT在台上发癫
狗粉转狗黑，只需要1年，乐

发表于 2025-4-1 12:46:46

题目其实是错的，Gemini 1.5 Pro 在 2 月份就已经发布了（但被 OpenAI 的 Sora 狙了头条），当时发布了 Gemini 1.5 Pro 和 Gemini 1.0 Ultra，而 1.5 Pro 并没有向公众开放。今天发布的是 Gemini 1.5 Flash（一个更快的小版本）。
现在回看昨天的 OpenAI 发布会，可谓是精准狙击，杀人诛心。掏出个 GPT-4o，版本号都没变，分数依然碾压其他模型；弄了个实时语音，完全压制了谷歌的产品功能发布。模型/产品双双失败，说谷歌没内鬼大家信吗？

如果这次能掏出 Gemini 1.5 Ultra，我还敬谷歌是条汉子。可半年过去，在先进模型方面竟然只拿出来一个 Flash 模型，那就有些无趣了。莫不是觉得 2 月份的 1.5 Pro 被 Sora 抢了头条，这次想要悄默默地重新发布一次？
谷歌发布新一代多模态大模型 Gemini 1.5，有哪些能力提升？现在很多 AI 大厂都在做小模型或者大模型蒸馏，网传 OpenAI 还捏着个 GPT-4lite，现在谷歌发布了 Gemini 1.5 Flash，都是在降低推理成本，提高推理速度。
当然，这次发布也有一些值得关注的，比如谷歌宣布从 Chrome 126 开始，Gemini Nano 会内置在浏览器中作为端侧 AI 运行。

某种意义上讲，现在的 AI 模型已经开始根据具体的使用场景分化了。有高端前列的闭源模型，有用于日常任务、兼顾性能和效率的lite、flash模型，也有手机、浏览器都能内置运行的开源小模型。而且 Google 这次还开源了 Gemma2-27B，对开发者来说也是个好消息。
如果你也想系统学习 Prompt 工程，基于大模型微调属于自己的模型，或者学习使用 Langchain 框架开发自己的 AI 应用，我最近正好在看「知乎知学堂旗下AGI课堂」推出的【程序员的AI大模型进阶之旅】，由业内技术大佬全面解读前沿技术，实战演练 AI 开发。
趁现在课程免费，快来听听吧↓↓↓
在 Lmsys 上，GPT-4o 的 elo 分数已经冲到了 1310，Gemini-1.5-pro 还停留在 1249。说实话，我都想问一下 Gemini：这种成绩你是怎么睡得着的？1.5 Ultra 为什么不发？

Code 的差距就更大了（1369 vs 1238）。

在这样的情况下，谷歌竟然没有发 Ultra，而是基于 1.5 Pro 缝缝补补又半年。确实有点失望，还指望 Gemini 逼出点 OpenAI 的东西。
所以就不奇怪 OpenAI 的发布策略了，甚至都有种感觉谷歌底裤被看穿的感觉。
唯一的更新和亮点可能就是 200 万字的上下文（而且还没普遍可用）。

那我就不知道谷歌是怎么打出「世界上最常的上下文窗口」这句话了…轮起来 Kimi 的 200 万字都比 Gemini 吹得早（倒反天罡）。

而且 Gemini 1.5 Pro 相比于 GPT-4o 还有个更致命的问题，也就是 Jim Fan 在点评里说的：这个模型似乎是多模态输入，但不是多模态输出。Imagen-3 和音乐生成模型仍然作为独立组件与 Gemini 分开。

在 Jim 看来，GPT-4o 代表了大一统的正确路线，而谷歌现在别说超越，连路线都还没跟上。唯一的优势只剩下在搜索和数据方面的积累。
最后我还是忍不住吐槽一下谷歌发布会，模型能力强，产品效果好，发布形式花哨一些也是锦上添花；模型跟产品没啥突破，搁那吹吹打打，轮番上阵，观感属实不好。我能理解谷歌大公司的架构大公司的宣发大公司的投入，但精致的 Demo 和视频背后，我还是希望看到更多实打实的进步，而不是像政治正确一样让所有的中层 leader 都上来露个脸讲一讲…
<a href="http://www.zhihu.com/pin/1773903749276241920" data-draft-node="block" data-draft-type="link-card" class="internal">看不动了，准备睡觉

发表于 2025-4-1 13:01:45

谷歌I/O 2024如期来了，眼花缭乱地发布了一堆更新。
跟OpenAI半小时的「小而美」发布会相比，谷歌显然准备得更加充分，当然，时间也相当之长……

2个多小时的发布会也是挑战着观众们的极限，在场人群早已困倒一大片
准备好，谷歌要开始轰炸了。
首先，Gemini 1.5 Pro，上下文长度将达到惊人的200万token。
然后，面对昨天OpenAI GPT-4o的挑衅，谷歌直接甩出大杀器Project Astra，视觉识别和语音交互效果，跟GPT-4o不相上下。
接着，谷歌祭出文生视频模型Veo硬刚Sora，效果酷炫，时长超过1分钟，打破Sora纪录。
最后来了一个重磅消息：谷歌搜索将被Gemini重塑，形态从此彻底改变！我们不再需要自己点进搜索结果，而是由多步骤推理的AI Overview来代办一切。
发布会结束后，劈柴甚至还用Gemini算了一下，整个发布会共提了121次AI。

Gemini时代，来了

CEO劈柴上来就无视了GPT和Llama的存在，这样总结道：「我们完全处于Gemini时代」。
并且给出数据：如今全世界使用Gemini的开发者，一共有150万人。
万众瞩目的Gemini更新如期而至。

Gemini 1.5 Pro最强特性之一，就是超长的上下文窗口，达到了100万tokens的级别，超过了目前所有的大语言模型，而且开放给个人用户使用。
今天，劈柴宣布：它的上下文token数将会达到2000K（200万）！相比之下，GPT-4 Turbo只有128K，Claude 3也只有200K。
而这也意味着——你可以给模型输入2小时视频、22小时音频、超过6万行代码或者140多万单词。

2M长上下文窗口，可以去排队申请了
这个上下文长度，已经超过了目前所有大模型。
但是，这并不是终点，谷歌的目标是——无限长上下文，不过，这就是后话了。
用篮球讲解牛顿运动定律

在这样的Gemini加持下，我们可以实现许多迅捷的功能。
比如，作为父母需要了解孩子在学校的情况，就可以在Gmail中要求Gemini识别所有关于学校的电子邮件，然后帮你总结出要点。

如果你错过了公司会议，但可以拿到一小时时长的会议录音，Gemini就能立刻帮你总结出会议要点。

为了帮助学生和教师，在NotebookLM中，谷歌设计了一个「音频概述」的功能。
把左边的所有材料作为输入，Notebook就可以把它们整合成一个个性化的科学讨论了。
对于听觉学习型学生，这种形式就非常生动。

演示这个demo的Josh表示，自己的儿子第一次看到这个功能时，直接惊掉下巴。
他第一次感觉到，学习不再是死板的，牛顿力学定律居然以通过篮球来学习！
支持多模态的Gemini可以处理你上传的任何格式的信息，理解内容后将其改造成适合你的形式，与你对话互动了！
Agent：帮你申请退货

接下来，劈柴展示了Agent的一些例子。
买了一双鞋子，不合适想退回怎么办？
拍一张照片给Agent，它就可以从你的邮箱中搜出订单后，帮你填写退货单了。

再比如，你刚搬到某个城市，Agent就能帮你探索你在这个城市所需的服务了，比如干洗店、帮忙遛狗的人等等。

如果靠我们自己搜索，可是要搜十几个网站，但Gemini可以发挥自己的「多步推理」能力包揽这些任务，把你需要的信息一次性提供给你！
搜索和整合信息的功能非常强大，输入新家的地址后，它甚至可以代替软件问你外卖应该放哪个位置。

总的来说，谷歌的理念就是：利用Gemini的多模态、超长上下文和智能体能力，把世界上的所有信息组织起来，让它们对每个人都可触达、可利用。
而最终目标，就是让AI对每一个人都有用。

谷歌搜索，被Gemini彻底重塑

之前OpenAI一直有意无意放出烟雾弹，声称要发布全新的搜索产品，等于是把刀架在谷歌脖子上了。
果然，谷歌这次不甘示弱，放出了个大的。
从今天开始，在Gemini的加持下，谷歌搜索会彻底变样。
在搜索框下，会出现一个为你量身定做的AI总结。
注意，它并不简单地将所有内容拼凑在一起，而是帮你把活都干了！
你的问题是什么样，它就会帮你做规划，展示出若干个卡片，让搜索信息以鲜明的方式被呈现出来。

这次AI Overview即将发布的另一个重磅功能，就是多步骤推理。
它能将用户输入的一个复杂问题分解成多部分，确定需要解决哪些问题，以及用什么顺序解决。

因此，以前可能要花几分钟甚至几个小时的研究，现在几秒钟内就可以完成！因为它将十个问题合而为一。
比如，如果想找到波士顿最好的瑜伽或普拉提工作室，它会直接搜出来结果，然后帮你整理好情况介绍和工作时间。
只要一次搜索，所有需要的信息就自动呈现出来。

在下面这个例子中，你可以要求谷歌提供一个三天的膳食计划。
这些食谱被从整个网络整合出来，清晰又全面。

而且，我们还可以用视频去搜索了！
比如，该怎么修这个唱片机？
以前，我们需要进行一堆搜索，确定它的牌子、型号。
现在，直接拍一个视频丢给谷歌，然后直接开口问：它的这个毛病是什么原因？
谷歌用AI Overview，给出了最全面的信息。

从此，在谷歌搜索中，你需要做的，就是简单的「张嘴问」。
对标GPT-4o，Project Astra打造通用AI智能体

我们已经看到，新模型GPT-4o赋予了ChatGPT强大的实时对话能力，让Her走进现实。
全新AI语音助手，是通往AGI的下一个未来。
对标OpenAI，谷歌DeepMind今天首次对外公布了「通用AI智能体」新项目——Astra。

其实，昨天谷歌放出了一个demo，已经让所有人对Astra项目有了初步的了解。
而今天，现场的演示更加炸裂。
网友称，这是谷歌I/O大会中，自己最喜欢的part。

不仅有Astra强大的对答如流的能力，还首次展示了「谷歌AR原型眼镜」配上AI的震撼演示。

Astra两部分演示，每段视频均为单次拍摄、实时录制完成
召唤Gemini之后，测试者提出问题，「当你看到会发出声音的东西时，告诉我」。
它回答道，「我看到一个扬声器，它可能会发声」。

接下来，测试者用红色剪头指向扬声器的顶部，再次问道，「这个扬声器的部件叫什么」？
Gemini准确理解指令，并答出「这是高音扬声器，能产生高频的声音」。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-21.jpg

然后，对着桌上一桶彩色蜡笔，让Gemini就展示的物体，给出了「押头韵」的创意——
「Creative crayons color cheerfully. They certainly craft colorful creations.」
Gemini以「c」音重复开头，生动形象地描绘了用蜡笔欢快涂色，可以创作出许多绚丽多彩作品的场景。

再将镜头移向窗外，「我在哪个街区」？
Gemini便回答道，「这似乎是伦敦国王十字区，这里以火车站和交通枢纽而闻名」。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-23.jpg

眼镜找不到了？
直接可以问Gemini，「你记得在哪里见过我的眼镜」？
它立刻回想刚刚见到的场景，「是的，我记得。你的眼镜就在桌子上，旁边有一个红苹果」。
要知道，刚刚这个问题并没有向它提过，Astra完全是凭自己的视觉记忆回答出来的，简直成精了。
而Astra的这番表现，直接让全场倒吸一口凉气，发出惊呼。
谷歌原型AR眼镜首现身

接下来的演示，更炫酷了。
刚刚找到的眼镜，竟是谷歌的原型AR眼镜！配合上强大的Gemini模型，即将开辟全新的应用。
测试者走到白板前，看向一个「服务器」的构建示意图，然后问道，「我应该怎样做能使这个系统更快」？
Gemini表示，「在服务器和数据库之间，添加缓存可以提高速度」。
再比如，「看到如下图，会让你想起什么」？
——薛定谔的猫！

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-24.jpg

「在帮我给这对家伙，起一个二重唱乐队名字」。
——Golden Stripes

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-25.jpg

大会上，Hassabis称，「一直以来，谷歌希望构建一个能在日常生活中真正有所帮助的通用AI智能体。如今，这一愿景成为现实，可以追溯到很多年前。这也是谷歌从头开始打造多模态Gemini的主要原因」。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-26.jpg

真正的通用AI智能体，必须像人类一样，对复杂、动态的世界做出理解和响应。
它需要接受和记住所看到的内容，以便理解上下文采取行动，并且具备主动性和个性化。
甚至，你可以与其如真人般丝滑交流，没有任何滞后或延迟。
为了打造这款全能AI智能体，谷歌DeepMind克服了很困难的工程挑战——将AI响应时间降低至对话水平。
具体来说，谷歌团队在Gemini的基础上，开发了能够持续编码视频帧的智能体。
然后，将视频和语音多模态输入，整合到事件时间轴中并缓存，以便实现AI智能体高效召回，更快处理信息。
此外，谷歌还使用广泛的语调变化，增强了语音输出效果。
基于这些努力，Astra能够更好理解上下文，在交谈中可以快速做出反应，让互动的节奏和质量感觉更加自然。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-27.jpg

有网友称，「谷歌的这个Astra项目绝对是游戏规则的改变者，我们现在生活在一个由个人AI助手组成的世界，聊天机器人现在已经过时了。它可以实时地看、说、听，几乎没有延迟」
当然，这次演示中，谷歌偷偷推出的AR硬件，也成为网友们的关注点。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-28.jpg

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-29.jpg

谷歌科学家刚刚放出了，用Astra看谷歌I/O大会的演示，可以自己感受下。
图像、音乐、视频，面面俱到

与此同时，谷歌大会上再次推出了一系列关于「生成式媒体工具」的最新进展。
其中，包括图像、音乐，以及视频模型。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-30.jpg

最强AI文生图Imagen 3

首先，AI文本到图像生成模型Imagen 3迎来重磅升级。
比起上一代，Imagen 3能生成更多细节、光影丰富，且干扰伪影更少的图像。
新模型对提示的理解能力，得到显著提升，可以从较长的提示中，捕获细节。
如下图中，对狼的特征，背景颜色，画质质量等要求，Imagen 3一致地呈现了出来。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-31.jpg

另外，Imagen 3可以生成视觉丰富、高质量的图像，有良好光照和构图。
它可以准确地渲染小细节，比如人手上的细微皱纹，以及复杂的纹理。
下图中，毛绒大象清晰的编织纹理，还有光照，效果鲜明。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-32.jpg

Imagen 3还可以在更长的提示中，加入一些微小的细节，比如「野花」、「蓝色的小鸟」...

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-33.jpg

谷歌还极大地改进了Imagen 3的文本渲染能力。
如下图片提示，「由各种颜色的羽毛组成的「光」字，黑色背景」，然后Imagen 3生成了漂亮的字体。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-34.jpg

以下是官方给出的更多演示demo：

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-35.jpg

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-36.jpg

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-37.jpg

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-38.jpg

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-39.jpg

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-40.jpg

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-41.jpg

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-42.jpg

左右滑动查看

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-43.jpg

视频生成模型Veo，1080p超过60秒

这次谷歌发布的视频模型Veo，可以看作是对OpenAI Sora的正面迎战了。
可以看出，Veo生成的视频不仅真实，而且在光线、构图等方面具有惊人的电影感。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-44.jpg

Veo的推出建立在DeepMind过去一年各种开创性成果的基础上，包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。
谷歌结合了这些成果中最好的架构和技术，提高了一致性、质量和分辨率。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-45.jpg

Veo具备1080p的高质量，用户提示可以是文本、图像、视频等各种格式，还能捕捉到其中关于视觉效果和影像风格的各种细节描述。
通过点击「扩展」按钮，用户就可以持续增加视频的时长，最终，它的时长已经超过Sora达到了1分10秒。
有这种专业级的生成效果，电影制作人可以直接用Veo来协助创作了。
从此，每个人都可以成为导演，也应该成为导演。
好消息是，Veo已经开始在官网开放试用了。此外，团队还开发了实验性工具VideoFX搭载Veo模型。
在谷歌官博中，给出了Veo更多演示，还特别强调了均是AI生成，未经过修改：

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-46.jpg

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-47.jpg

Music AI Sandbox

在音乐方面，谷歌和Youtube一起构建了Music AI Sandbox。
输入一段旋律，它就可以进行风格迁移，帮助艺术家们快速实现自己的想法和创意。
为此，谷歌还特意邀请了许多音乐家、词曲作者和制作人来测试。
他们惊喜地发现，使用这个新的AI音乐工具，他们居然做出了自己从未想到的音乐！
比如这位音乐制作人，希望把乐曲中的这段旋律变一个风格。
Music AI Sandbox的产出，让他激动地当场跳起来。
他表示，作为一个嘻哈音乐制作人，AI带给他的尝试空间，是无止境的。
Demis Hassabis：我在思考智能的本质

谷歌DeepMind负责人Hassabis表示，自己从小玩国际象棋时，就一直在思考智能的本质是什么。
他深信，如果我们能以负责任的方式建造AGI，影响将是深刻的。
谷歌DeepMind自去年成立以来成绩斐然。而最近的大成就，就是几乎可以预测所有生命分子结构和相互作用的AlphaFold 3了。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-48.jpg

原生多模态Gemini App

谷歌还打造出了一款Gemini原生多模态应用，可以同时文本、音频、视频内容。
一直以来，谷歌希望能够打造一个有用的个人AI助理。
Gemini App，正重新定义我们的交互方式。
为了让我们与Gemini交互更自然，谷歌发布了Gemini Live。
有了它，你可以在给朋友发消息的同一个程序中，还能与Gemini聊天。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-49.jpg

你甚至可以控制自己的说话节奏，或者随时打断Gemini回答，如同与真人交流一样。
比如，你正在为一场面试做准备，只需要进入Live，让Gemini陪你一起做准备。
Gemini可以与你进行模拟面试排练，甚至在与潜在雇主交谈时应该突出哪些技能，还能提供建议。
谷歌表示，今年晚些时候，会推出摄像头模式，可以以周围环境与Gemini实现对话。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-50.jpg

与此同时，谷歌还推出了根据个人需求自定义的Gemini专家——Gems。
它可以是你的健身教练、瑜伽伙伴，也可以是你的写作创意导师、编程伙伴等等。
接下来，谷歌还展示了通过规划，让我们如何离AI助手更近一步。
比如，一次旅行的规划，需要涉及地理、时间、天气等诸多因素，需要AI能够做出优先顺序和决策的能力。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-51.jpg

Gemini Advanced的全新旅行规划，可以将模型推理和智慧融为一体，为人类更好服务。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-52.jpg

Ask Photos新功能

在Gemini的加持下，谷歌还会推出Ask Photos的新功能。
比如，如果付停车费时忘了自己的车牌号，就可以直接询问自己的车牌照片是哪个，不需要翻阅手机里的大量照片了。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-53.jpg

在比如，你可以问它女儿是什么时候学会游泳的？她的游泳是怎么进步的？
Gemini会识别众多照片中的不同场景，将所有相关内容汇总。
Gemini 1.5 Flash：更小，更快，200万token

根据某些Gemini 1.5 Pro用户的反馈，一些程序需要更低的延迟和服务成本。
针对这一点，谷歌发布了Gemini 1.5 Flash。
跟Pro比，Flash是一个更轻量级的模型，专为那些对响应速度要求极高的特定或频繁任务优化。
并且，它同样具有多模态、1M tokens长上下文的特点，只不过实现了轻量化、低延迟、高效推理，每百万个token的价格仅是Pro版的二十分之一。
今天起，Gemini 1.5 Flash在Google AI Studio和Vertex AI中就可用了，开发者可以注册申请两百万token的内测版。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-54.jpg

此外，为了方便开发者，谷歌还对Gemini的API功能进行了三项优化——视频帧提取、并行函数调用和上下文缓存。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-55.jpg

第六代TPU Trillium，4.7倍性能提升

在背后给这些技术进步提供基础设施的，就是谷歌的TPU。
简单来说，相较于TPU v5e，第六代Trillium TPU在性能上实现了高达4.7倍的提升，并在能效上提升了超过67%。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-56.jpg

为了实现这一飞跃，谷歌增大了矩阵乘法单元（MXUs）的规模并提升了时钟速度。
并为Trillium配备了第三代SparseCore——专门用于处理高级排序和推荐工作负载中常见的超大嵌入的加速器。
在这里，SparseCores可以通过从TensorCores策略性地卸载随机和细粒度访问，有效加速了重嵌入型工作负载。
与此同时，谷歌还将高带宽存储器（HBM）的容量和带宽翻倍，并将芯片间互连（ICI）的带宽提升了一倍。
由此，Trillium可以支持更加复杂的模型，拥有更多的权重和更大的键值缓存，并大幅缩短了大模型的训练时间和响应延迟。
在一个高带宽、低延迟的Pod中，Trillium可以扩展至256个TPU。
而通过多切片技术和Titanium智能处理单元（IPU），Trillium还可以进一步扩展——通过数百个Pod，连接数以万计的芯片，并在一个多千兆位每秒的数据中心网络支持下，组成一个超大规模的超级计算机。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-57.jpg

更多的开源模型

最后，谷歌还发布了自家首个视觉-语言开源模型——PaliGemma，专门针对图像标注、视觉问答及其他图像标签化任务进行了优化。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-58.jpg

不仅如此，谷歌还将在6月推出规模更大的开源模型——Gemma 2 27B。
在性能方面，全新的Gemma 27B不仅超越了规模大了2倍还多的模型，而且还能在GPU或单个TPU主机上高效运行。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？-59.jpg

发表于 2025-4-5 13:28:52

针对谷歌推出的最强大AI模型Gemini 1.5 Pro以及应对OpenAI挑战的评价如下： 谷歌通过推出Gemini 1.5 Pro模型展示了其在人工智能领域的持续创新和进步。该模型具有处理大量数据的能力，上下文窗口从当前100万tokens增加到200万，意味着它可以更好地理解和处理复杂的任务。此外，Gemini 1.5 Pro能够处理长达1500页的多个大型文件或对大量电子邮件进行总结，这为用户提供了极大的便利。与OpenAI的挑战相比，谷歌通过不断升级其AI技术，提高了响应速度和成本效益，为用户提供了更先进、更具创意的在线信息获取方式。总的来说，这次升级对于提升谷歌在人工智能领域的竞争力具有重要意义。随着科技的发展，期待看到更多创新的AI技术为用户带来更好的体验。

发表于 2025-4-5 13:39:18

针对谷歌推出的最新AI模型Gemini 1.5 Pro，我认为这一模型在应对OpenAI的挑战中展现出了强大的实力。 Gemini 1.5 Pro模型在上下文窗口的处理能力上进行了显著的提升，能够理解和处理更加复杂、大量的信息。这一特点使得它在处理长篇文件、电子邮件、视频内容以及代码库等方面具有优势，能够为用户提供更加精准和全面的信息摘要和解答。 此外，该模型对多模态的支持也使其应用更加广泛，能够满足不同场景下的需求。面对OpenAI的竞争，谷歌通过不断提升模型性能和推出新的产品来加强自己在生成式人工智能领域的地位。 总的来说，Gemini 1.5 Pro模型展现了谷歌在人工智能领域的持续创新和实力，对于应对OpenAI的挑战具有重要意义。

发表于 2025-4-5 13:47:16

针对谷歌推出的最新AI模型Gemini 1.5 Pro，评价如下： 谷歌通过推出Gemini 1.5 Pro模型，展示了其在人工智能领域的持续创新和进步。该模型具有强大的处理能力，能够应对大量数据，并提供了更快的响应速度和更高的效率。特别是其上下文窗口的增加，使得模型能够理解更多的信息，从而提供更准确的回答。 与OpenAI的最新升级相比，Gemini 1.5 Pro模型在处理大型文件和复杂任务方面展现出优势。它不仅能够处理多个大型文件，还能总结电子邮件，并即将能够处理长达一小时的视频内容和大量代码库。这为用户提供了更多的便利和效率，使他们能够快速获取核心信息并应对复杂的任务。 总的来说，谷歌通过推出Gemini 1.5 Pro模型，在人工智能领域取得了重要的进展。该模型具备强大的性能和灵活性，能够满足用户的需求，并在处理大型文件和复杂任务方面展现出优势。

谷歌推出最强大 AI 模型 Gemini 1.5 Pro，应对 OpenAI 挑战，如何评价这一模型？

本周热门