炸裂！谷歌I/O大会王者归来：Gemini“世界模型”初现，搜索“换脑”，一句话制作原声电影_凤凰网科技

炸裂！谷歌I/O大会王者归来：Gemini“世界模型”初现，搜索“换脑”，一句话制作原声电影

刚刚！谷歌举行了I/O 2025 大会，最大的感受是谷歌重回AI领头羊位置，谷歌正在以Gemini为核心打造真正的AI操作系统，”世界模型“初现

本届谷歌I/O大会一口气更新和发布了巨量的技术

首先需要明确的是，备受期待的Gemini 2.5 Ultra模型并未如期而至。我们得到的是一个标价250美元的“Ultra会员套餐”（Ultra Tier），而非我们翘首以盼的Ultra模型本身。但是，随着Gemini 2.5 Pro “Deep Think”的推出，Pro模型迎来了一次重大革新，其实际能力已堪比Ultra级别

那么，具体有哪些新内容呢？（清单确实很长）：

模型与代理工具

Gemini 2.5 Pro “Deep Think”：具备并行思考能力，专为复杂数学和编码任务设计，并提供可配置的“思考预算”以增强控制力，把Gemini 2.5 Pro 推向极致，性能表现如下：

Gemini 2.5 Flash 5月20版：速度更快、更经济，并新增了“思考摘要”功能，以提高透明度，性能已经无限接近Gemini 2.5 pro

Gemini Diffusion：谷歌首次将扩散技术应用于文本生成，推出了实验性模型Gemini Diffusion，速度比肩此前顶级模型快5倍

Jules：对标OpenAI的Codex，异步编码代理，可在后台处理错误修复和功能原型开发，需要注册等待才能使用

多模态能力大爆发

Google Meet：新增实时翻译功能

Veo 3：视频生成能力大幅提升，生成具有4K逼真效果的视频，并支持原生音频、对话和噪声合成

Imagen 4：对标并超越OpenAI gpt-4o的图像生成能力，但是速度快了3倍，2K图像模型，在排版和文本图像生成方面更快、更准确

Flow：全新的电影制作工具，与好莱坞导演共创“Flow”结合了Veo 3和Gemini的能力，可根据文本提示构建完整的电影场景

Flow让创作者能更直观地“导演”AI：上传自己的角色和场景素材，或用Imagen即时生成；通过精确的镜头指令，描述想要的画面，Flow会自动生成剪辑片段并保持角色和场景的一致性。你可以无限迭代、调整镜头、延长或修剪片段，就像在传统剪辑软件中一样。Flow的目标是让电影制作进入一个全新的“流动”状态，让创意自然生长，将电影创作从“按部就班”变成“灵感迸发”

谷歌搜索彻底重塑：全新的“AI模式”（AI Mode）

更复杂的查询：用户现在可以提出比传统搜索长两到三倍的复杂问题，比如“我有一张浅灰色的沙发，想找一块能提亮房间的毛毯，家里有4个活跃的孩子，经常有朋友来玩。”AI模式会动态生成图文并茂的响应，包括链接、商家信息和评分

深度研究（Deep Search）：对于需要更详尽答案的问题，AI模式可以进行“深度搜索”。它能同时发出数十甚至数百个查询，整合来自全网、知识图谱、购物图谱和地图社区的数据，在几分钟内生成一份专家级的、带完整引用的报告，帮你省去大量研究时间

复杂分析与可视化：AI模式能帮你分析复杂数据并生成可视化图表。比如，你想了解使用“鱼雷球棒”的著名棒球运动员的本赛季和上赛季的击球率和上垒率，它能立刻生成表格，并根据后续问题生成图表，就像拥有一个专属的体育分析师！

搜索实时互动（Search Live）：Project Astra的实时能力也融入了搜索！通过手机摄像头，你可以和搜索进行“视频通话”，让它看到你所看到的，实时给出帮助。无论是DIY家居维修、难题作业，还是学习新技能，它都能成为你的“远程专家”。

代理购物（Agentic Checkout）：AI模式还能帮你完成购物任务！它会浏览多个网站，分析数百个选项，帮你完成筛选、比价甚至直接链接到结账页面，帮你秒杀门票。未来，它还将支持餐厅预订和本地服务预约

谷歌加入AI眼镜开发：AI不仅要改变数字世界，更要深刻影响物理世界

沉浸式头显：与三星合作的Project Moohan是首款Android XR设备。它能为你提供“无限屏幕”体验，在XR版谷歌地图中，你只需告诉Gemini想去哪里，就能“瞬移”到世界任何角落；你还能在MLB应用中，像坐在体育场前排一样观看比赛，同时与Gemini讨论球员数据，将于今年晚些时候上市

轻量级眼镜：谷歌展示了最新的Android XR眼镜原型，轻巧便携，可全天佩戴，集成了摄像头、麦克风和扬声器，可选的镜片内显示屏还能在你需要时私密地显示信息。这意味着你的AI助手将真正“看”和“听”到你所看到和听到的，提供实时的、上下文感知的帮助，就像戴上了“超能力眼镜”！现场演示中，它能识别咖啡杯上的咖啡店名字，帮你导航，预约咖啡，甚至进行实时跨语言翻译。谷歌宣布，Warby Parker和Gentle Monster将成为首批与Android XR合作的眼镜品牌，未来你将能戴上符合自己风格的时尚AI眼镜，开发者也将于今年晚些时候开始为眼镜平台开发

其他

Gemma 3n：一款超轻量级的多模态模型（支持文本、图像、音频、视频），专为智能手机和边缘设备打造

Lyria RealTime：交互式音乐大语言模型，支持现场表演，并可通过API进行微调

MedGemma & SignGemma：两款开放的专业模型，分别用于医学图像分析和手语翻译

Agentic Colab：一款能够自我修复代码并自动执行任务的笔记本环境

Gemini Code Assist 2.5：免费的编程助手和代码审查代理，现已支持200万token的上下文

Firebase Studio：AI工作空间，可将Figma设计稿转换为全栈应用程序，并自动设置后端

Stitch：可根据描述或图像生成UI设计和前端代码

Google AI Studio升级：在编辑器中直接集成了Gemini 2.5 Pro、Imagen 4和Veo 3，并提供了GenAI SDK

新的Gemini API功能：包括原生音频输出、实时API、异步函数调用、计算机使用API、URL上下文及MCP支持

Project Beam：Starline项目的继任者，与惠普合作开发3D视频通话硬件

Project Astra升级：一款能看、能听、能说的主动式多模态助手

以上就是谷歌本次大会发布内容简要总结

写在最后

首先，这清晰地表明了谷歌正如何倾尽全力发展其AI生态系统。如果说过去苹果公司以其卓越协调的设备生态系统著称，那么现在谷歌正通过AI将这一理念推向新的高度。具体而言：Gemini如今能在系统中主动工作

此外，得益于其跨所有产品协调的原生语言模块，Gemini已更深层次地融入几乎所有谷歌产品中。无论是谷歌手表、XR眼镜还是Pixel手机，Gemini都能完美适配，并根据设备特性提供相应的扩展功能（例如XR设备中的地图叠加功能，效果惊艳！）

因此，如果说苹果过去通过iCloud实现了所有设备的互联互通，那么现在的谷歌则更进一步

发布会中，谷歌DeepMind CEO 诺奖得住Demis Hassabis 提到正在努力将Gemini扩展成为“世界模型”。他将其定义为“一个能够通过模拟世界的各个方面来制定计划和想象新体验的模型，就像大脑一样，谷歌内部肯定已经在搞了，这是实现AGI的终极大招

谷歌，王者归来

打开APP阅读更多精彩内容