谷歌有内鬼吧?
每次发布会都被OpenAI狙击的死死的,所有新东西在OpenAI发布会后都让人兴奋不起来,翻不起一点大众的波澜。
就连今天Ilya离职也为OpenAI狙击Google开发者大会做了最后的贡献,成功分流了科技圈的讨论热点。
题外话说一句,上次OpenAI逼宫事件后,Ilya虽然妥协,但肯定无法久待,Sam肯定会找人替代他的位置,这个人现在找到了,新的gpt-4o也发布了,这是个好的时间节点。
Ilya真的很善良,哪怕走也给OpenAI带来了最大的贡献。
他是一个令人值得尊敬纯粹的技术大牛,分手都那么温柔。
话题扯远了,我拉回来。
让我们来看看谷歌这次开发者大会,推出最强大 AI 模型 Gemini 1.5 Pro里面的内容有什么值得注意的。
一、谷歌开发者大会内容
在本次开发者大会上,谷歌将焦点聚集在了当前炙手可热的生成式AI功能上,特别强调了经过再次升级的Gemini 1.5 Pro大模型,并推出了谷歌视频生成模型Veo。
谷歌搜索也迎来了更新,同时宣布Gemini模型将被整合到Android 15系统中,并展示了一系列即将推出的生成式AI功能。
同时在会上,谷歌宣布Gemini 1.5 Pro升级到200万tokens,并全面支持Workspace,同时Gemini 1.5 Pro将面向全球开发者开放。
谷歌正式发布了“AI Overviews”搜索功能,该功能本周将在美国率先推出,随后逐步扩展至其他国家和地区。
谷歌搜索与Gemini大模型的结合,使得搜索结果能够生成AI摘要,用户可以输入一段具体的文字,系统将根据文字内容和场景匹配搜索结果,为旅行规划创建更为合理的清单,甚至根据天气提供推荐。
此外,未来谷歌还将推出视频搜索功能,用户可以通过拍摄视频来搜索所需内容。
谷歌在大会上,还推出了“Ask Photos”功能。
该功能在Gemini大模型的支持下,允许用户通过聊天的方式搜索照片或视频,例如询问车牌号码,系统将通过检索和识别技术找出相应的车牌号。
询问孩子的游泳情况,系统将搜集并展示孩子过去的游泳照片。
该功能预计将在夏季正式推出。
谷歌还发布了Gemini 1.5 Flash模型,该模型成本低于Gemini 1.5 Pro,并对延迟进行了优化,宣称能够一次性分析1500页文档或超过30000行的代码库,为开发者提供了一个经济实惠的选择。
紧随其后的是重磅项目Project Astra,旨在打造面向未来的生成式AI交互体验。
演示视频展示了手机通过摄像头对周围环境的理解,并能够实时进行语音交互。
用户打开摄像头询问拍摄的物体,系统能够准确识别并给出语音回答。
甚至它能够回忆起拍摄过程中某个物体的位置,这种功能可以从手机无缝转移到眼镜上继续使用。
而在文生图功能方面,谷歌推出了Imagen 3,相比前代能够更准确地识别文字信息,创作的图片更符合文本描述。
除了图片和文本生成,谷歌发布了视频生成模型Veo,与OpenAI的Sora竞争.
Veo能够通过文本和图像生成视频,生成的视频分辨率可达1080P,时长可超过1分钟。
用户只需提供描述视频场景的文本提示,Veo就能将该场景转化为相应的视频内容.
比起Sora到现在的遥不可及,目前Veo可以在平台上加入等待名单申请试用。
https://aitestkitchen.withgoogle.com/zh/tools/video-fx除此之外,在办公场景中,谷歌Gmail将整合Gemini大模型的能力。
它不仅能够总结邮件内容,还能根据需求比较邮件内容(如自动比价装修报价邮件),并根据上下文智能提供回复建议。
在开发者大会上,谷歌明确表示Android 15将加入谷歌Gemini大模型,提供更多AI功能。
例如已在三星AI手机上应用的即圈即搜功能,除了搜索物体外,还增加了截图功能,圈选题目给出解题思路和答案,帮助学生解题。
在查看PDF等文件时,系统能够总结文件内容,并以询问的方式提供用户想要了解的信息。如果识别的页面包含视频,系统也能对视频内容和字幕进行分析,快速获取视频信息。
此外,谷歌还为手机增加了AI诈骗电话检测功能,如果在通话过程中识别到疑似诈骗行为,系统将弹出提示窗警告用户。
谷歌在大会结束时宣布,Android 15 Beta 2将于明天上线。
关于谷歌开发者大会的主要内容就是以上这些。
而Gemini 1.5 Pro的功能详细分析其他博主已经说的很充分的,我来说一说为什么我觉得谷歌这次发布会可能掀不起什么波澜。
二、原因分析
其实Google在开发者发布大会上的内容,不难发现又多又全,但是特点不够鲜明。
1、Gemini的升级
Gemini 1.5 Pro 在 2 月份就已经发布,本次更新发布了Gemini 1.5 Flash,但是跑分并没有很亮眼,被昨天发布的GPT-4o甩在后面。
而在发布会上介绍Gemini 1.5会提供“迄今为止所有基础模型中最长的上下文窗口”——200万token,拓展同步处理多模态信息的边界。
Excuse me?就这?
200万Token上下文,如果是几个月前,那可以说是非常有特点,但是现在是2024年5月份了,暂且不提是KIMI先提出的200万Token上下文内容, Google是不知道通义千问已经在3月份就免费开放1000万字长读取文本功能了吗……
对比起来毫无优势。
而且对于大部分使用者来说,是100万Token还是200万Token在高频的日常任务差别不大,不是每个人都要拿来写长篇小说的。
反正我是内心毫无波澜。
2.VEO视频
Veo模型具备生成多种风格、高清1080p分辨率视频的能力,且视频时长可轻松超越一分钟。
Veo模型在自然语言处理和视觉语义理解方面取得了显著进展,使其在解析视频内容、渲染高清晰度图像以及模拟物理现象等方面实现了技术上的飞跃。
Veo所生成的视频作品,能够精确而细腻地传达用户的创意构想。
VEO视频本身看上去还行,但是Sora早了它几个月,而且Sora视频的质量看上去很棒,VEO没有特别惊艳,除了时间确实1分钟比较长,其他并没有特别让人有印象的点。
对比起来,国内的生数在几周前公布的视频都让我印象更加深刻。
现在AI视频开始造成的震撼已经随着时间慢慢淡化,风头被OpenAI抢走了,菜都凉了,无法让人兴奋。
3.通用AI智能体Astra
根据大会的说法,谷歌基于Gemini开发了智能体原型,该原型能够通过连续编码视频帧、将视频和语音输入整合到事件时间线中,并缓存这些信息以实现快速检索,从而加速信息处理。
通过语音模型,谷歌进一步增强了智能体的发音能力,赋予了智能体更丰富的语调。
这些智能体能够更好地理解所处的上下文,并在对话中迅速作出反应。
但是从大会上发布的演示在交互体验上,与昨天GPT-4o的实时演示相比,似乎存在一定的差距。
无论是在响应时间、语音情感的丰富度,还是在可打断性等方面,GPT-4o的交互体验看起来更强。
Astra响应速度上,从展示的内容上看好像是比不过GPT-4o,也没有演示是否能随时打断,其实这才是在与人交流中比较关键的体验。
有了GPT-4o珠玉在前,Astra逊色不少。
结语
基于之前被Gemini多模态视频剪辑欺骗的历史,我觉得产品好不好,还是看实际效果,不能看DEMO。
等看到实际效果再评价比较客观。
<hr/>我是德里克文,一个对AI绘画,人工智能有强烈兴趣,从业多年的设计师!如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢! |
|