QQ空间头像旁边加V标识超简单，教你几招轻松实现！

梦晨西风发自凹非寺

原生多模态输入输出、智能体、联网搜索……谷歌的最新技术将所有这些前沿AI能力集成在一起，展现了终极AI助手的强大能力。

Gemini 2.5 Pro和Gemini 2.5 Flash的预览版已经领先竞技场。全新的视频生成模型Veo 3实现了视频与音频的原生集成，不仅能生成音乐和音效，还能生成角色间的对话语音，画面上同步口型。图像生成模型Imagen 4则更加丰富色彩、细腻细节和逼真效果。

在传统产品方面，谷歌搜索增加了端到端的AI搜索模式，整合推理和多模态分析能力，将问题分解为子问题，并同时发出多个查询，更深入地探索网络。视频会议Google Meet支持实时的双语翻译配音，并保留对话双方的音色。Chrome浏览器直接集成了Gemini模型，可快速总结内容，或根据当前网页上下文完成任务。

新产品方面，谷歌推出了原裸眼3D视频通话Project Starline的升级版，名为Google Beam。使用一系列摄像头从不同角度捕捉画面，然后借助AI将视频流合并，在3D光场显示屏上呈现画面。AI视频模型与光场显示技术的结合创造了维度感和深度感，使用户能够进行眼神交流，观察微妙的表情，建立理解和信任。

还有异步AI代码助手Jules、AI电影制作工具Flow、与墨镜品牌合作打造的AI眼镜等创新产品。

各部分详细情况如下：

一、Gemini 2.5系列模型全新升级

Gemini 2.5系列，包括2.5 Pro和Flash都进行了一波升级。首先来看Gemini 2.5 Pro，在学术基准测试中表现出色，现在以1415的ELO分数领先于热门编码排行榜WebDev Arena。据介绍，其凭借百万token上下文窗口，具有更强的长上下文和视频理解性能。更值得一提的是，2.5 Pro全新引入了Deep Think增强推理模式，允许模型在回应前同时考虑多种假设。

二、全新功能介绍

1. 原生音频输出功能&Live API改进：Live API推出了视听输入和原生音频对话的preview版本，用户可以直接构建更自然、更具表现力的Gemini对话体验。模型可根据用户要求调整语调、口音和说话风格。谷歌还为2.5 Pro和2.5 Flash推出了文本转语音（TTS）的新功能，支持多扬声器和不同的语言。

2. 电脑操作能力：谷歌将Project Mariner的电脑操作能力引入Gemini API和Vertex AI，支持多任务处理和“Learn and Repeat”功能，让AI学会自动完成重复性任务。

3. 为提升开发者体验，Gemini 2.5增加了三大实用功能：thought summaries、thinking budgets和Gemini SDK兼容MCP工具。

关于谷歌Gemini的下一步计划，DeepMind CEO哈萨比斯表示，他们正努力将其最优秀Gemini模型扩展为一个“世界模型”，能够像人类大脑一样通过理解和模拟世界来制定计划、想象新体验。

三、异步代码助手Jules

异步代码助手Jules正式进入公测阶段，全球开发者无需等待就能体验。Jules会把你的代码库克隆到安全的谷歌云虚拟机中，全面理解项目上下文，可以写测试、构建新功能、提供音频更新日志、修复bug以及更新依赖版本。它以异步方式工作，让你专注于其他任务。结合云VM系统，它能处理复杂的多文件变更和并发任务。在公测期间完全免费，但有使用限制。

四、谷歌搜索引入AI Mode

搜索方面，这次I/O宣布将AI Mode正式引入搜索引擎。AI Mode是以Gemini 2.5为核心重构的搜索引擎，集成了最前沿的能力，提供端到端的AI搜索。它采用query fan-out技术，自动将问题分解为多个子话题并同时搜索。谷歌还重点展示了AI Mode所带来的全新购物体验，集成了Gemini的智能与Shopping Graph，提供了虚拟试穿工具等功能。

五、多模态模型全线升级

在多模态方面，谷歌推出了最新视频生成模型Veo 3和图像生成模型Imagen 4。Veo 3首次实现原生音画同步生成，无论是城市街道的车流声、公园中的鸟鸣，还是角色对话，均可通过文本提示生成。Imagen 4则兼具速度与精度，生成的图像在精细细节上表现惊人。

谷歌还介绍了新一代AI电影制作工具Flow，它专为创意人士设计，集成了谷歌最强的视觉模型。Flow具备卓越的提示遵循能力，可输出震撼的电影级画面。

谷歌在这次I/O上展示了一系列令人兴奋的创新和升级，表明世界采用人工智能