Google I/O 2025：AI深度赋能多领域_

Google I/O 2025：AI深度赋能多领域

当地时间5月20日，一年一度的Google I/O开发者大会在美国加州山景城的海岸线圆形剧场举办。会上，谷歌宣布了对Gemini 2.5 Pro和Flash模型的几项改进，Gemini 2.5 Pro新增了Deep Think支持，而Gemini 2.5 Flash得到了改进，从推理到多模态，从编码到响应效率，根据该公司的评估，所需的Token减少了20%至30%。

生成媒体模型的全新突破

值得一提的是，谷歌还推出了新版本的生成媒体模型，包括Veo3、Imagen4和Flow。Veo 3现在支持音频提示生成，例如繁忙街道中的交通噪音、公园中的鸟儿歌唱，甚至角色之间的对话。以前，AI视频生成器只能可视化提示，静音播放使内容与真实视频相比变得枯燥乏味。

为了进一步增强视频输出，谷歌推出了Flow，这是一款AI电影制作工具，允许创作者调整视频的制作方式，包括角度、动作、位置。

最后，Imagen 4在准确性和清晰度方面有所提高，特别是在织物纹理、水滴和动物毛发等更精细的细节方面。AI图像生成器还可以产生各种纵横比和高达2K分辨率的内容。

智能搜索助力轻松决策

今年3月，谷歌推出了“AI Mode”，旨在帮助用户更高效地解决复杂问题，使Google Search体验更加智能化和直观化。

在视觉辅助方面，Google Search体验也迎来了Project Astra的多模态功能升级。借助此功能，因此用户可以简单地将相机对准对象或设置，并像使用Google图像搜索一样询问它。

并且，还有一种新的AI Mode购物体验，不仅能为用户带来灵感启发，帮助用户缩小购买选择范围，还具备一项独特功能，即用户在上传自己的图像后，可以通过图像生成器看到自己穿上心仪衣服的效果，从而更便捷地作出购买决策。

Project Mariner的代理功能也将转移到AI Mode，允许用户提示Google查找最佳活动门票交易或预订餐厅约会。虽然AI不会直接完成购买流程，但它会基于查询需求，提供多个合适的选项供用户挑选。

办公软件遇见AI

不仅如此，谷歌还将AI技术深度融入到Gmail、Meet和Docs等多款常用办公软件。在Google Gmail上，谷歌推出了个性化智能回复，研究用户过去对联系人的回复，无论是正式的还是更随意和对话的，以生成与语气和上下文匹配的回复。并且，当Gemini检测到用户试图在Gmail线程中安排会议时，会主动建议一个合适的会议预订时间窗口，省去了用户再额外打开日历或专门进行会议预约的繁琐步骤。

Google Meet提供了实时语音翻译功能，将口语翻译作为听众的首选语言。测试版功能将首先向谷歌AI Pro和Ultra用户推出。

对于Google Docs，用户现在可以建立基于特定源代码的写作辅助功能，设置特定的源链接，以便Gemini只从他们那里获取信息和建议，而不是从其他渠道获取，这就确保了信息来源的可靠性和准确性。

几年前，Starline项目掀起了一股浪潮，它将视频通话转变为逼真的面对面模拟。本次大会上，它被正式命名为Google Beam。为了助力其在企业领域的广泛应用与拓展，谷歌正在积极与惠普展开合作，双方携手共同研发专门用于运行Google Beam的先进通信设备，旨在为企业用户提供更高效、更优质的沟通解决方案，推动企业在远程协作、客户沟通等多场景下的交流模式升级。

写在最后：

Google I/O 2025开发者大会可以说是一场技术革新的盛宴，从生成媒体模型的突破性升级，到搜索与AI Mode的深度融合，再到办公软件与通讯工具的全新智能化应用，谷歌正重塑着我们对人工智能的认知与期待。

打开APP阅读更多精彩内容