去年 GPT API 刚出的时候,我手搓的第一个小项目就是 Bilibili Video Summary[1],不过当时有几个条件受限。最主要是当时的 context 长度不够,所以需要做一些 chunk 来分段摘要。后来有了 long context,有了更成熟的 RAG。另一个因素就是,当时的做法是直接抓取 CC 字幕,或者语音转文字,会涉及到 STT 的准确率。
现在有了 GPT-4o,玩法就发生变化了…在 OpenAI 官方最新的 Cookbook 里[2],就以 Video Summary 这个场景做了介绍,而且玩法完全不同。我们都知道,GPT-4o 是全模态模型,是支持图片、音频和文字的,虽然还不直接支持视频,但已经足以通过其他方式处理视频了。
简单来说,OpenAI 选取了一段 3 分多的发布会视频,然后以三种不同的方式进行了摘要并比较结果:
通过视频图像摘要
每秒截取一帧视频,向 GPT-4o 提供 218 张图片,得到了如下摘要:- ## 视频摘要:OpenAI DevDay主题演讲回顾
- 这段视频似乎是OpenAI DevDay活动的主题演讲回顾。以下是视频中涵盖的主要内容:
- 1. **介绍和活动概述**:
- - 视频以“OpenAI DevDay”的标题开始,随后过渡到“主题演讲回顾”。
- - 展示了活动场地,参会者聚集和舞台布置的场景。
- 2. **主题演讲**:
- - 一位演讲者(大概来自OpenAI)上台进行演讲。
- - 演讲涵盖了与OpenAI最新进展和公告相关的各个主题。
- 3. **公告**:
- - **GPT-4 Turbo**:介绍了GPT-4 Turbo,突出了其增强的能力和性能。
- - **JSON模式**:一种允许以JSON格式输出结构化数据的新功能。
- - **函数调用**:展示了改进的函数调用能力,使交互更加高效。
- - **上下文长度和控制**:增强了上下文长度和用户对模型响应的控制。
- - **更好的知识整合**:改进了模型的知识库和检索能力。
- 4. **产品演示**:
- - **DALL-E 3**:介绍了用于高级图像生成的DALL-E 3。
- - **定制模型**:宣布了定制模型,允许用户根据特定需求定制模型。
- - **API增强**:对API的更新,包括线程处理、检索和代码解释功能。
- 5. **定价和Token效率**:
- - 讨论了GPT-4 Turbo的定价,强调通过减少输入和输出token实现的成本效率。
- 6. **新功能和工具**:
- - 为开发者介绍了新工具和功能,包括各种GPT驱动的应用。
- - 强调了用自然语言构建和创建定制应用的简易性。
- 7. **结束语**:
- - 演讲者结束了演讲,感谢观众并展望了OpenAI未来的发展。
- 视频以OpenAI标志和活动标题“OpenAI DevDay”结束。
复制代码 通过音频摘要
Whisper 音频转文字后进行摘要:- 欢迎来到OpenAI首次举办的开发者日。主要公告包括:
- - **GPT-4 Turbo**:一个新的模型,支持最多128,000个tokens的上下文,具有JSON模式用于生成有效的JSON响应,改进的指令遵循,以及更好的从外部文档或数据库中检索知识的能力。它的价格也比GPT-4显著降低。
- - **新功能**:
- - **Dolly 3**、**具备视觉功能的GPT-4 Turbo**和一个新的**文本到语音模型**现已在API中提供。
- - **定制模型**:一个项目,OpenAI研究人员帮助公司创建定制模型,满足其具体使用案例的需求。
- - **增加速率限制**:为已建立的GPT-4客户将每分钟的tokens数量翻倍,并允许请求进一步的速率限制更改。
- - **GPTs**:为特定目的定制的ChatGPT版本,通过对话进行编程,可选择私人或公开共享,并将推出GPT商店。
- - **Assistance API**:包括持久性线程、内置检索、代码解释器和改进的功能调用。
- OpenAI对AI集成的未来感到兴奋,并期待看到用户使用这些新工具创造出什么样的成果。活动以邀请大家明年回归以获取更多进展而结束。
复制代码 综合使用视频和音频完成摘要
将上面两种方式综合,将图片和转录文本同时提交给 GPT-4o 并进行摘要。- ## 视频概要:OpenAI 开发者日
- ### 简介
- - 视频以“OpenAI 开发者日”的标题开始,并过渡到主题演讲回顾。
- ### 活动概述
- - 活动在一个标有“OpenAI 开发者日”标志的场地举行。
- - 参会者进入并聚集在一个大礼堂中。
- ### 主题演讲
- - 主题演讲者介绍了活动并宣布了GPT-4 Turbo的发布。
- - **GPT-4 Turbo**:
- - 支持多达128,000个Token的上下文。
- - 引入了一种新的JSON模式,用于生成有效的JSON响应。
- - 改进了函数调用能力。
- - 增强了指令遵循和从外部文档或数据库检索知识的能力。
- - 知识更新至2023年4月。
- - 可在API中使用,包括DALL-E 3、带视觉的GPT-4 Turbo和一个新的文本到语音模型。
- ### 定制模型
- - 发布了一个名为定制模型的新计划。
- - 研究人员将与公司合作创建针对特定用例的定制模型。
- - 提供更高的速率限制,并可以直接在API设置中请求更改速率限制和配额。
- ### 定价和性能
- - **GPT-4 Turbo**:
- - 提示Token成本是GPT-4的三分之一,完成Token成本是GPT-4的二分之一。
- - 为现有GPT-4客户提供双倍的每分钟Token数。
- ### 引入GPTs
- - **GPTs**:
- - 针对特定用途的ChatGPT定制版本。
- - 结合指令、扩展知识和操作以实现更好的性能和控制。
- - 可以通过对话而无需编码来创建。
- - 可以选择将GPTs设为私有、公开分享或在ChatGPT企业版中为公司使用创建。
- - 宣布即将推出GPT Store。
- ### 助手API
- - **助手API**:
- - 包括处理长对话历史的持久线程。
- - 内置检索和代码解释器,在沙盒环境中具有工作中的Python解释器。
- - 改进的函数调用。
- ### 结论
- - 演讲者强调了将智能融入各处、提供“按需超能力”的潜力。
- - 鼓励与会者明年回归,暗示会有更先进的开发。
- - 活动以感谢与会者结束。
- ### 结束
- - 视频以OpenAI的标志和最后的感谢信息结束。
复制代码 综合来看,显然「图像+音频文本」的摘要结果会好于单独使用其中之一。具体的实现代码可以去 Cookbook 里看,OpenAI 还提供了一些基于视频进行问答的示例。
总之…模型的发展真的会改变很多具体应用的实现方式和效果。以上。 |
|