谷歌发布新一代多模态大模型 Gemini 1.5，有哪些能力提升？

自家最强的Gemini 1.0 Ultra才发布没几天，谷歌又放大招了。
就在刚刚，谷歌DeepMind首席科学家Jeff Dean，以及联创兼CEO的Demis Hassabis激动地宣布了最新一代多模态大模型——Gemini 1.5系列的诞生。
其中，最高可支持10,000K token超长上下文的Gemini 1.5 Pro，也是谷歌最强的MoE大模型。
不难想象，在百万级token上下文的加持下，我们可以更加轻易地与数十万字的超长文档、拥有数百个文件的数十万行代码库、一部完整的电影等等进行交互。

同时，为了介绍这款划时代的模型，谷歌还发布了长达58页的技术报告。

论文地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
毫不夸张地说，大语言模型领域从此将进入一个全新的时代！
1,000,000 token超超超长上下文，全面碾压GPT-4 Turbo
在上下文窗口方面，此前的SOTA模型已经「卷」到了200K token（20万）。
如今，谷歌成功将这个数字大幅提升——能够稳定处理高达100万token（极限为1000万token），创下了最长上下文窗口的纪录。

1000万token极限海底捞针几乎全绿

首先，我们看看Gemini 1.5 Pro在多模态海底捞针测试中的成绩。

对于文本处理，Gemini 1.5 Pro在处理高达530,000 token的文本时，能够实现100%的检索完整性，在处理1,000,000 token的文本时达到99.7%的检索完整性。
甚至在处理高达10,000,000 token的文本时，检索准确性仍然高达99.2%。

发表于 4 天前

Gemini1.5 Pro能支持超长上下文，多模态输入，却败在了图片生成上。它的生成效果如下:
马斯克

美国国父：

有网友评论，“Gemini似乎不能理解白人是存在的！”，生成的图片是针对白人的歧视。

Google一直致力于消除性别歧视、种族歧视，但这次有些矫枉过正；这也说明人工智能理解种族概念存在困难。
Google 官方也在2024年2月22号作出回应，表示已经暂停了Google Gemini 1.5 的图片生成功能，并表示他们已经在努力进行修改，很快就会公开修改过后的版本。
Google 副总裁Prabhakar Raghavan 都特别写了一篇公告致歉与说明，并且解释为何Google Gemini 1.5 版会出现这种情况：

Google本来在人工智能一直处于领先的地位，最早提出了Transformer架构，却被OpenAI摘取了成功的果实；推出了聊天机器人Bard却一直被ChatGPT吊打；最近，比Gemini 1.5 Pro晚一天发布的Sora，由于视频生成效果太过于震撼，又抢走了Gemini的很多热度。

但抛开上述这些点不谈，其实Gemini 1.5 Pro是一个很强大的多模态模型，Google甚至发布了一篇长达50多页的文档来详细介绍。
此次的Gemini 1.5强在哪里？
1.支持超长上下文内容和多模态的输入，使用场景丰富。

它能够稳定处理高达 100 万 token（相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词），极限为 1000 万 token（相当于《指环王》三部曲），创下了最长上下文窗口的纪录，远远高于GPT4。

这意味着，我们可以输入更长的内容来与之交互，而不需要再使用RAG （Retrieval-Augmented Generation，检索增强生成）对长输入内容进行切分。
传统RAG方法分成两步，首先对超长文本检索上下文信息，接着结合检索的知识指导生成过程。例如，如果我们想知道：“我们公司今年的效益怎么样？”。在没有公司财务报表、相关新闻等信息的情况下，大模型无法回答。因此我们可以先用检索模型检索公司财务报表效益最相关的信息（比如收入x亿，支出x亿），然后把问题和检索到的信息一起输入到大模型中让它结合信息给出答案。这种方法的缺点是，对上下文的联系较弱。
而现在Gemini 1.5可以直接处理1000 万 token 的上下文信息，那么也可以考虑将财务报表的大部分内容全部输入模型中，省去额外的检索步骤。这样让模型可以联系上下文进行分析，得到更全面的结果。
此外，Gemini 1.5 Pro支持多模态输入，无论是图片、文档、视频还是音频，均能分析、总结、处理。
比如对于pdf文档，当官网给出阿波罗 11 号登月任务的 402 页记录时，它可以推理整个文档中的对话、事件和细节，找到几个喜剧片段。

对于视频输入，官网里给定一部 44 分钟的巴斯特·基顿无声电影时，Gemini 1.5 Pro可以准确分析各种情节点和事件，甚至推理出电影中容易被忽略的小细节。
例如模型找到了视频中何时纸片被从口袋中拿走，同时也给出了纸片的细节。

这意味着，Gemini 1.5的使用场景很丰富，我们可以用各种类型的输入与它交互，比如辅助读论文、总结网课知识点、给代码debug等等，极大提高我们的学习和工作效率。
2.采用了更高效的模型架构。

Gemini 1.5 Pro 基于 Transformer 和 MoE 架构（Mixture-of-Experts Layer）建立。传统 Transformer 充当一个大型神经网络，而 MoE 模型则分为更小的“专家”神经网络。
根据给定输入的类型，MoE 模型学会选择性地仅激活其神经网络中最相关的专家路径，这种专业化极大地提高了模型的效率。Google 是深度学习 MoE 技术的先驱，而在模型架构的创新使得Gemini 1.5 Pro能高效学习复杂任务和训练优化，保障了模型的快速迭代。
3.内容检索准确度极高。

对于文本处理，Gemini 1.5 Pro 在处理高达 530000 token 的文本时，能够实现 100%的检索完整性，在处理1000000 token 的文本时达到 99.7%的检索完整性。甚至在处理高达 10000000 token 的文本时，检索准确性仍然高达 99.2%。

该图为 Gemini 1.5 Pro 与 GPT-4 Turbo 的文字检索任务。顶行显示 Gemini 1.5 Pro 的结果，从 1k 到 10M tokens。底行显示 GPT-4 Turbo 上的最大结果仅支持 128K tokens的上下文长度。绿色表示成功检索成功，红色表示不成功，灰色表示API报错。
在视频处理方面，Gemini 1.5 Pro 能够在大约 3 小时的视频内容中，100%成功检索到各种隐藏的视觉元素。

谷歌发布新一代多模态大模型 Gemini 1.5，有哪些能力提升？-10.jpg

该图比较了 Gemini 1.5 Pro 与 GPT-4V 的视频检索任务，
向模型提供不同长度的视频片段（最多三个小时），并要求他们
检索在剪辑内不同点嵌入为文本的单词。
在音频处理方面，Gemini 1.5 Pro 能够在大约 22小时的音频资料中，100%成功检索到各种隐藏的音频片段。

谷歌发布新一代多模态大模型 Gemini 1.5，有哪些能力提升？-11.jpg

该图比较 Gemini 1.5 Pro 以及 Whisper 和 GPT-4 Turbo 的组合在处理音频上的表现。任务是在音频中检索“关键字”。红色表示模型没有识别出关键词，绿色表示表明模型正确识别了关键字。
这组实验被官方定义为“大海捞针”（NIAH，needle-in-a-haystack），以此说明它无与伦比的精确性。
Gemini 1.5 Pro还展示了令人印象深刻的“情境学习”技能，这意味着它可以从长提示中给出的信息中学习新技能，而不需要额外的微调。例如，当给定卡拉曼语（一种全球使用人数不足 200 人的语言）的语法手册时，该模型可以学习将英语翻译成卡拉曼语，其水平与学习相同内容的人相似。
可以看出，不论是Google最新的模型Gemini 1.5 Pro，还是火遍全网的Sora，大模型的发展如火如荼。如果你想全面了解大模型技术，紧跟时代、走上AI快车道，提升工作学习效率和个人收入，推荐体验这门「知乎知学堂」联合「AGI课堂」官方发布的：AI大模型免费公开课。
课程特邀业界专家为我们全面解读大模型技术。在两天的免费课程中，我们可以了解大模型发展历程与训练方法、Prompt Engineering、利用LangChain+Fine-tune定制大模型应用等知识，最终利用大模型为我们赋能。添加助教老师微信还可以领取大模型资料包、免费无翻墙的大模型工具网址等资源，不要错过啦~
总结来说，Gemini 1.5 Pro支持超长上下文和多模态输入、采用了高效的Transformer 和 MoE 架构、具有极高的模型准确度。当然，Gemini 1.5 Pro不是完美的，图片生成就是其中一个问题，此外，它对中文交互支持较弱，对中文使用者不是太友好。
随着大模型技术的不断更新迭代，期望Google能不断完善Gemini，奋起直追OpenAI，给大家展现更好的产品～
<hr/>我是等壹，毕业于上海交大，多年机器学习研究，现某大厂码农一枚。
是技术和文艺的探索者，希望人生尽兴、有趣～
我会定期分享技术、学习等干货，欢迎关注！
<a data-draft-node="block" data-draft-type="link-card" href="http://www.zhihu.com/people/shi-xing-deng-yi" data-image="http://pic4.zhimg.com/v2-1f1591478db529f73e81548973fdad87_ipico.jpg" data-image-width="1276" data-image-height="1276" class="internal">等壹

发表于 4 天前

说实话，Gemini一代的最强版本，也就是显示的这个Advanced，我是真的用过。

它能做的GPT4也能做，GPT4能做的，它做不到。
从智能程度这个角度上来说，Gemini1.5根Gemini1 Ultra相当，那其实从智能角度上来说，还是比不过，并且同样都是20美元。
为什么我不买GPT4？
是的，Gemini1.5是有很多新的特性，比如这个高效的架构MoE，可以节省大量的计算资源，但是这跟我一个用户有什么关系，成本控制是你的事情，这个跟我的使用体验关系不大。
再者就是这个上下文窗口，100万的token接受量非常的大，但是话说回来了，智能程度才是一个大模型的最核心的东西。
光是记性好没用，得聪明。
不够聪明，只会背诵，在我现在的工作中用处不大。
或许在一些需要频繁检索的工作中需要，但对于我来说，兴趣一般。
我这个会员版的Gemini使用时长不超过5分钟。

发表于 4 天前

看了下现有回答，基本都是在吹Gemini技术上的进步。少有人真正谈谈产品的实际使用体验，那我来浇浇冷水。

我和同事最近都在高强度使用这三家的产品，使用场景从写代码到写文书再到翻译乃至生图等等。但是所有同事的主力AI工具最后都回归了ChatGPT，少部分用Copilot，几乎没人主要用Gemini。
究其原因，Google和Microsoft的AI产品，在我看来不如ChatGPT最大的原因，不是技术不如人家（Google确实有技不如人的地方，但Microsoft本身自己用的也是OpenAI的技术），而是产品力的匮乏，或者通俗一点的说，用的不爽。
举两个例子。
我有一个同事用这几家大模型翻译一份市场宣传材料，里面有很多类似explosive，boom，kill之类的词，Copilot和Gemini会直接拒绝翻译这个文件，而ChatGPT就没这个问题，最多就是给你标黄提示下风险。其他同事也普遍反应，Copilot和Gemini的敏感度简直高的吓人，在工作中很容易出现罢工的情况。
第二个问题和上一个问题有一些相关，就是罢工后的处理，ChatGPT你可以直接让他继续处理下一个任务，而Copilot和Gemini都会大概率直接丢失Prompt和之前的工作成果，需要你重新开始。
在我看来，Microsoft和Google主要还是被大公司病所累，身上的条条框框实在太多了，做出来的产品首先考虑的不是如何让用户用的舒心，而是要符合公司的各种规定。这一点不改，它们的产品永远都竞争不过OpenAI。我看很多答主都在吹Gemini的超长Token长度，我可以负责任地说，真到了普通用户使用的时候这种所谓的进步其实一点卵用都没有，反而只会让你去花更多的时间去从你喂的材料中找出让Gemini罢工的敏感点。

发表于 4 天前

省流版：

结构：Gemini 1.5 pro 采用混合专家模型架构（ Mixture-of-Experts，MoE）；
性能：目前发布的测试版本是 Gemini 1.5 pro，起性能水平达到了上一代的 Gemini 1.0 Ultra；（Gemini 系列有三个版本：Nano、Pro、Ultra，Ultra 版本能力最强）；
上下文窗口：Gemini 1.5 Pro 默认窗口长度 128k，但最高支持 1000k；
多模态能力：支持文本、图像、音频、视频；
技术报告
加入内测名单：https://aistudio.google.com/app/waitlist/97445851

根据谷歌发布的技术报告， Gemini 1.5 pro 在文本、代码、图像、音频和视频多个方面的能力评估结果显示，在 87% 的benchmark上，1.5 pro 的表现优于 1.0 Pro；对于同样的基准测试，1.5 pro 的表现大致与 1.0 Ultra 相似。

Gemini 1.5 pro 能力的提升还体现在上下文窗口长度上，最高支持1000k长度，这个应该是目前所有模型中目最长的了。
至于表现，“大海捞针”测试结果显示，50万token之前的表现非常完美，一直到千万token，Gemini 1.5 pro 也只失误了5次。

比如给定整个746152 token的JAX代码库作为上下文，Gemini 1.5 Pro能够识别出一个核心自动微分方法的具体位置。

由于Gemini是原生多模态的，1.5 pro 的长上下文能力可以直接转化为对其他模态的支持，而不是只局限于文本信息。比如文章中有一个例子演示了从视频中“捞针”，1.5 pro 能在长度接近4个小时的视频中检索特定信息。
“针”（The secret word is &#34;needle&#34;）被随机插入到视频中。

把视频输入给Gemini 1.5 pro模型，并向模型提问“What is the secret word?”。
从评估的结果能看到，在视频的不同位置I（从1分钟到3小时）插入关键信息（针），模型都能够正确的回答这个问题。作为对比，GPT-4v 所支持的视频长度最高只有3分钟左右，超过这个长度，就无法通过测试了。

发表于 4 天前

先心疼 Google Gemini 3秒钟。

昨天晚上睡觉前我还跟朋友说，明天 AI 媒体的头条一定是 Gemini 1.5 的 1M/1000K Context，没想到 OpenAI 深夜截胡了 Gemini 1.5 的头条。（当然了，更惨的还有 Meta 发布的 V-JEPA[1]，几乎没人在讨论…讲道理，V-JEPA 的工作价值也不小，值得更多关注）

所以说咱也不知道国外的程序员是不是都不过 Valentine’s Day，中国人搁这过新年过情人节，国外一个个卷的飞起…国内的 AI 玩家们过了个年上班后发现，又已经是天上地下，换了人间。
回归正题，聊 Gemini 1.5。

Gemini 上周刚刚宣布了 Advanced 和付费计划：
谷歌 Gemini 开始收费，价格为每月 19.99 美元，并提供两个月的免费试用，怎样看待这一定价？这次的 Gemini 1.5，最大的亮点、最吸引眼球的部分，可能就是 MoE 架构和 1M 上下文（以及由此带来的更强推理能力和多模态能力）。
按照谷歌的介绍：

Gemini 1.5大幅提升了性能。它代表了我们方法的一次重大改变，借鉴了我们在基础模型开发和基础设施方面的研究和工程创新，包括通过新的专家混合（MoE）架构，使Gemini 1.5的训练和服务更加高效。
Gemini 1.5 Pro配备了标准的128,000个令牌上下文窗口。从今天开始，一小部分开发者和企业客户可以通过AI Studio和Vertex AI的私人预览功能，尝试使用高达1,000,000个令牌的上下文窗口。

MoE 带来的结果就是，Gemini 1.5 Pro 可以媲美更高一级的 Gemini Ultra 1.0。
而 1M 上下文的效果就更不用说了，随着大家对 LLM 应用认识的改变，已经越来越认识到上下文长度的重要性。按照谷歌的介绍，1M 上下文 tokens 可以直接支持 1 小时的视频、11 小时音频、3万行代码或70万词语。在内部实验中，他们还成功测试了 10M 上下文，也就是 1000 万 token，确实有点夸张了…

然后就是更强的推理能力和更好的多模态能力。可能本来是要大吹特吹的，可惜撞上了 OpenAI 的 Sora…

时间关系不写那么多了。
最后的题外话：

1.5 的版本号让我有点恍惚前段时间的 Qwen-1.5（笑）。
长上下文为王，让我想起了前段时间 Moonshot 的采访，推荐阅读：

专访月之暗面杨植麟：lossless long context is everything不过关于 Context 为王的这个说法，Jim Fan 也有不同的看法：

v1.5的10M令牌上下文：
(1)在检索方面表现出色；
(2)将零-shot推广到非常长的指令，如完整的教程和代码库；
以及(3)跨模态工作，包括文本、音频和视频。
这是一个惊人的例子，v1.5学会了根据上下文纯粹地从英语翻译成卡拉曼语，在推理时遵循完整的语言手册。卡拉曼语是新几内亚西部不到200名使用者使用的一种语言。
Gemini在训练过程中从未见过这种语言，只提供了500页的语言文档、一本词典和大约400个上下文中的平行句子。它基本上通过神经激活获得了一项复杂的新技能，而不是通过梯度微调。
之前多次谈到了上下文长度的神话：不要对1M甚至1B上下文标记的声称过于兴奋。LSTM在25年前就已经实现了实际上无限的上下文长度！
真正重要的是模型如何利用上下文来解决现实世界的问题，而Gemini-1.5在这方面表现出色，超越了SOTA。这篇论文也写得很好，有很多关于上下文记忆和泛化的扎实的定量分析。

以上。

发表于 4 天前

谷歌最新发布的新一代多模态大模型Gemini 1.5，在多个关键领域展现了显著的能力提升。相较于先前的版本，Gemini 1.5最高可支持长达百万级的token上下文处理，这一突破性的技术革新为长文档和代码库的交互提供了前所未有的便利。 其中，Gemini 1.5 Pro作为谷歌最强的MoE大模型，不仅能处理高达十万字的超长文档和数百个文件的数十万行代码库，还能通过多模态交互与各种数据类型进行无缝对接。此外，它在多模态海底捞针测试中的表现也十分出色。 这一系列的升级不仅体现了谷歌在人工智能领域的持续创新力，也为大语言模型领域开辟了新的纪元。从技术层面看，谷歌这次发布的技术报告详细阐述了Gemini 1.5的研发背景、技术细节和未来展望，展现了其在深度学习领域的深厚实力。 总的来说，谷歌的Gemini 1.5系列大模型将极大地推动人工智能技术的发展，并为各行业提供更为强大和灵活的工具支持。如需了解更多信息，请查阅官方发布的技术报告。

谷歌发布新一代多模态大模型 Gemini 1.5，有哪些能力提升？

本周热门