
梦晨 西风 发自凹非寺
原生多模态输入输出、智能体、联网搜索……谷歌的最新技术将所有这些前沿AI能力集成在一起,展现了终极AI助手的强大能力。
Gemini 2.5 Pro和Gemini 2.5 Flash的预览版已经领先竞技场。全新的视频生成模型Veo 3实现了视频与音频的原生集成,不仅能生成音乐和音效,还能生成角色间的对话语音,画面上同步口型。图像生成模型Imagen 4则更加丰富色彩、细腻细节和逼真效果。
在传统产品方面,谷歌搜索增加了端到端的AI搜索模式,整合推理和多模态分析能力,将问题分解为子问题,并同时发出多个查询,更深入地探索网络。视频会议Google Meet支持实时的双语翻译配音,并保留对话双方的音色。Chrome浏览器直接集成了Gemini模型,可快速总结内容,或根据当前网页上下文完成任务。
新产品方面,谷歌推出了原裸眼3D视频通话Project Starline的升级版,名为Google Beam。使用一系列摄像头从不同角度捕捉画面,然后借助AI将视频流合并,在3D光场显示屏上呈现画面。AI视频模型与光场显示技术的结合创造了维度感和深度感,使用户能够进行眼神交流,观察微妙的表情,建立理解和信任。
还有异步AI代码助手Jules、AI电影制作工具Flow、与墨镜品牌合作打造的AI眼镜等创新产品。
各部分详细情况如下:
一、Gemini 2.5系列模型全新升级
Gemini 2.5系列,包括2.5 Pro和Flash都进行了一波升级。首先来看Gemini 2.5 Pro,在学术基准测试中表现出色,现在以1415的ELO分数领先于热门编码排行榜WebDev Arena。据介绍,其凭借百万token上下文窗口,具有更强的长上下文和视频理解性能。更值得一提的是,2.5 Pro全新引入了Deep Think增强推理模式,允许模型在回应前同时考虑多种假设。
二、全新功能介绍
1. 原生音频输出功能&Live API改进:Live API推出了视听输入和原生音频对话的preview版本,用户可以直接构建更自然、更具表现力的Gemini对话体验。模型可根据用户要求调整语调、口音和说话风格。谷歌还为2.5 Pro和2.5 Flash推出了文本转语音(TTS)的新功能,支持多扬声器和不同的语言。
2. 电脑操作能力:谷歌将Project Mariner的电脑操作能力引入Gemini API和Vertex AI,支持多任务处理和“Learn and Repeat”功能,让AI学会自动完成重复性任务。
3. 为提升开发者体验,Gemini 2.5增加了三大实用功能:thought summaries、thinking budgets和Gemini SDK兼容MCP工具。
关于谷歌Gemini的下一步计划,DeepMind CEO哈萨比斯表示,他们正努力将其最优秀Gemini模型扩展为一个“世界模型”,能够像人类大脑一样通过理解和模拟世界来制定计划、想象新体验。
三、异步代码助手Jules
异步代码助手Jules正式进入公测阶段,全球开发者无需等待就能体验。Jules会把你的代码库克隆到安全的谷歌云虚拟机中,全面理解项目上下文,可以写测试、构建新功能、提供音频更新日志、修复bug以及更新依赖版本。它以异步方式工作,让你专注于其他任务。结合云VM系统,它能处理复杂的多文件变更和并发任务。在公测期间完全免费,但有使用限制。
四、谷歌搜索引入AI Mode
搜索方面,这次I/O宣布将AI Mode正式引入搜索引擎。AI Mode是以Gemini 2.5为核心重构的搜索引擎,集成了最前沿的能力,提供端到端的AI搜索。它采用query fan-out技术,自动将问题分解为多个子话题并同时搜索。谷歌还重点展示了AI Mode所带来的全新购物体验,集成了Gemini的智能与Shopping Graph,提供了虚拟试穿工具等功能。
五、多模态模型全线升级
在多模态方面,谷歌推出了最新视频生成模型Veo 3和图像生成模型Imagen 4。Veo 3首次实现原生音画同步生成,无论是城市街道的车流声、公园中的鸟鸣,还是角色对话,均可通过文本提示生成。Imagen 4则兼具速度与精度,生成的图像在精细细节上表现惊人。
谷歌还介绍了新一代AI电影制作工具Flow,它专为创意人士设计,集成了谷歌最强的视觉模型。Flow具备卓越的提示遵循能力,可输出震撼的电影级画面。
谷歌在这次I/O上展示了一系列令人兴奋的创新和升级,表明世界采用人工智能
