炸裂!谷歌I/O大会王者归来:Gemini“世界模型”初现,搜索“换脑”,一句话制作原声电影

刚刚!谷歌举行了I/O 2025 大会,最大的感受是谷歌重回AI领头羊位置,谷歌正在以Gemini为核心打造真正的AI操作系统,”世界模型“初现

本届谷歌I/O大会一口气更新和发布了巨量的技术

首先需要明确的是,备受期待的Gemini 2.5 Ultra模型并未如期而至。我们得到的是一个标价250美元的“Ultra会员套餐”(Ultra Tier),而非我们翘首以盼的Ultra模型本身。但是,随着Gemini 2.5 Pro “Deep Think”的推出,Pro模型迎来了一次重大革新,其实际能力已堪比Ultra级别

那么,具体有哪些新内容呢?(清单确实很长):

模型与代理工具

Gemini 2.5 Pro “Deep Think”:具备并行思考能力,专为复杂数学和编码任务设计,并提供可配置的“思考预算”以增强控制力,把Gemini 2.5 Pro 推向极致,性能表现如下:

Gemini 2.5 Flash 5月20版:速度更快、更经济,并新增了“思考摘要”功能,以提高透明度,性能已经无限接近Gemini 2.5 pro

Gemini Diffusion:谷歌首次将扩散技术应用于文本生成,推出了实验性模型Gemini Diffusion,速度比肩此前顶级模型快5倍

Jules:对标OpenAI的Codex,异步编码代理,可在后台处理错误修复和功能原型开发,需要注册等待才能使用

多模态能力大爆发

Google Meet:新增实时翻译功能

Veo 3:视频生成能力大幅提升,生成具有4K逼真效果的视频,并支持原生音频、对话和噪声合成

Imagen 4:对标并超越OpenAI gpt-4o的图像生成能力,但是速度快了3倍,2K图像模型,在排版和文本图像生成方面更快、更准确

Flow:全新的电影制作工具,与好莱坞导演共创“Flow”结合了Veo 3和Gemini的能力,可根据文本提示构建完整的电影场景

Flow让创作者能更直观地“导演”AI:上传自己的角色和场景素材,或用Imagen即时生成;通过精确的镜头指令,描述想要的画面,Flow会自动生成剪辑片段并保持角色和场景的一致性。你可以无限迭代、调整镜头、延长或修剪片段,就像在传统剪辑软件中一样。Flow的目标是让电影制作进入一个全新的“流动”状态,让创意自然生长,将电影创作从“按部就班”变成“灵感迸发”

谷歌搜索彻底重塑:全新的“AI模式”(AI Mode)

更复杂的查询:用户现在可以提出比传统搜索长两到三倍的复杂问题,比如“我有一张浅灰色的沙发,想找一块能提亮房间的毛毯,家里有4个活跃的孩子,经常有朋友来玩。”AI模式会动态生成图文并茂的响应,包括链接、商家信息和评分

深度研究(Deep Search):对于需要更详尽答案的问题,AI模式可以进行“深度搜索”。它能同时发出数十甚至数百个查询,整合来自全网、知识图谱、购物图谱和地图社区的数据,在几分钟内生成一份专家级的、带完整引用的报告,帮你省去大量研究时间

复杂分析与可视化:AI模式能帮你分析复杂数据并生成可视化图表。比如,你想了解使用“鱼雷球棒”的著名棒球运动员的本赛季和上赛季的击球率和上垒率,它能立刻生成表格,并根据后续问题生成图表,就像拥有一个专属的体育分析师!

搜索实时互动(Search Live):Project Astra的实时能力也融入了搜索!通过手机摄像头,你可以和搜索进行“视频通话”,让它看到你所看到的,实时给出帮助。无论是DIY家居维修、难题作业,还是学习新技能,它都能成为你的“远程专家”。

代理购物(Agentic Checkout):AI模式还能帮你完成购物任务!它会浏览多个网站,分析数百个选项,帮你完成筛选、比价甚至直接链接到结账页面,帮你秒杀门票。未来,它还将支持餐厅预订和本地服务预约

谷歌加入AI眼镜开发:AI不仅要改变数字世界,更要深刻影响物理世界

沉浸式头显:与三星合作的Project Moohan是首款Android XR设备。它能为你提供“无限屏幕”体验,在XR版谷歌地图中,你只需告诉Gemini想去哪里,就能“瞬移”到世界任何角落;你还能在MLB应用中,像坐在体育场前排一样观看比赛,同时与Gemini讨论球员数据,将于今年晚些时候上市

轻量级眼镜:谷歌展示了最新的Android XR眼镜原型,轻巧便携,可全天佩戴,集成了摄像头、麦克风和扬声器,可选的镜片内显示屏还能在你需要时私密地显示信息。这意味着你的AI助手将真正“看”和“听”到你所看到和听到的,提供实时的、上下文感知的帮助,就像戴上了“超能力眼镜”!现场演示中,它能识别咖啡杯上的咖啡店名字,帮你导航,预约咖啡,甚至进行实时跨语言翻译。谷歌宣布,Warby Parker和Gentle Monster将成为首批与Android XR合作的眼镜品牌,未来你将能戴上符合自己风格的时尚AI眼镜,开发者也将于今年晚些时候开始为眼镜平台开发

其他

Gemma 3n:一款超轻量级的多模态模型(支持文本、图像、音频、视频),专为智能手机和边缘设备打造

Lyria RealTime:交互式音乐大语言模型,支持现场表演,并可通过API进行微调

MedGemma & SignGemma:两款开放的专业模型,分别用于医学图像分析和手语翻译

Agentic Colab:一款能够自我修复代码并自动执行任务的笔记本环境

Gemini Code Assist 2.5:免费的编程助手和代码审查代理,现已支持200万token的上下文

Firebase Studio:AI工作空间,可将Figma设计稿转换为全栈应用程序,并自动设置后端

Stitch:可根据描述或图像生成UI设计和前端代码

Google AI Studio升级:在编辑器中直接集成了Gemini 2.5 Pro、Imagen 4和Veo 3,并提供了GenAI SDK

新的Gemini API功能:包括原生音频输出、实时API、异步函数调用、计算机使用API、URL上下文及MCP支持

Project Beam:Starline项目的继任者,与惠普合作开发3D视频通话硬件

Project Astra升级:一款能看、能听、能说的主动式多模态助手

以上就是谷歌本次大会发布内容简要总结

写在最后

首先,这清晰地表明了谷歌正如何倾尽全力发展其AI生态系统。如果说过去苹果公司以其卓越协调的设备生态系统著称,那么现在谷歌正通过AI将这一理念推向新的高度。具体而言:Gemini如今能在系统中主动工作

此外,得益于其跨所有产品协调的原生语言模块,Gemini已更深层次地融入几乎所有谷歌产品中。无论是谷歌手表、XR眼镜还是Pixel手机,Gemini都能完美适配,并根据设备特性提供相应的扩展功能(例如XR设备中的地图叠加功能,效果惊艳!)

因此,如果说苹果过去通过iCloud实现了所有设备的互联互通,那么现在的谷歌则更进一步

发布会中,谷歌DeepMind CEO 诺奖得住Demis Hassabis 提到正在努力将Gemini扩展成为“世界模型”。他将其定义为“一个能够通过模拟世界的各个方面来制定计划和想象新体验的模型,就像大脑一样,谷歌内部肯定已经在搞了,这是实现AGI的终极大招

谷歌,王者归来

打开APP阅读更多精彩内容