当地时间5月20日,一年一度的Google I/O开发者大会在美国加州山景城的海岸线圆形剧场举办。会上,谷歌宣布了对Gemini 2.5 Pro和Flash模型的几项改进,Gemini 2.5 Pro新增了Deep Think支持,而Gemini 2.5 Flash得到了改进,从推理到多模态,从编码到响应效率,根据该公司的评估,所需的Token减少了20%至30%。
生成媒体模型的全新突破
值得一提的是,谷歌还推出了新版本的生成媒体模型,包括Veo3、Imagen4和Flow。Veo 3现在支持音频提示生成,例如繁忙街道中的交通噪音、公园中的鸟儿歌唱,甚至角色之间的对话。以前,AI视频生成器只能可视化提示,静音播放使内容与真实视频相比变得枯燥乏味。
为了进一步增强视频输出,谷歌推出了Flow,这是一款AI电影制作工具,允许创作者调整视频的制作方式,包括角度、动作、位置。
最后,Imagen 4在准确性和清晰度方面有所提高,特别是在织物纹理、水滴和动物毛发等更精细的细节方面。AI图像生成器还可以产生各种纵横比和高达2K分辨率的内容。
智能搜索助力轻松决策
今年3月,谷歌推出了“AI Mode”,旨在帮助用户更高效地解决复杂问题,使Google Search体验更加智能化和直观化。
在视觉辅助方面,Google Search体验也迎来了Project Astra的多模态功能升级。借助此功能,因此用户可以简单地将相机对准对象或设置,并像使用Google图像搜索一样询问它。
并且,还有一种新的AI Mode购物体验,不仅能为用户带来灵感启发,帮助用户缩小购买选择范围,还具备一项独特功能,即用户在上传自己的图像后,可以通过图像生成器看到自己穿上心仪衣服的效果,从而更便捷地作出购买决策。
Project Mariner的代理功能也将转移到AI Mode,允许用户提示Google查找最佳活动门票交易或预订餐厅约会。虽然AI不会直接完成购买流程,但它会基于查询需求,提供多个合适的选项供用户挑选。
办公软件遇见AI
不仅如此,谷歌还将AI技术深度融入到Gmail、Meet和Docs等多款常用办公软件。在Google Gmail上,谷歌推出了个性化智能回复,研究用户过去对联系人的回复,无论是正式的还是更随意和对话的,以生成与语气和上下文匹配的回复。并且,当Gemini检测到用户试图在Gmail线程中安排会议时,会主动建议一个合适的会议预订时间窗口,省去了用户再额外打开日历或专门进行会议预约的繁琐步骤。
Google Meet提供了实时语音翻译功能,将口语翻译作为听众的首选语言。测试版功能将首先向谷歌AI Pro和Ultra用户推出。
对于Google Docs,用户现在可以建立基于特定源代码的写作辅助功能,设置特定的源链接,以便Gemini只从他们那里获取信息和建议,而不是从其他渠道获取,这就确保了信息来源的可靠性和准确性。
几年前,Starline项目掀起了一股浪潮,它将视频通话转变为逼真的面对面模拟。本次大会上,它被正式命名为Google Beam。为了助力其在企业领域的广泛应用与拓展,谷歌正在积极与惠普展开合作,双方携手共同研发专门用于运行Google Beam的先进通信设备,旨在为企业用户提供更高效、更优质的沟通解决方案,推动企业在远程协作、客户沟通等多场景下的交流模式升级。
写在最后:
Google I/O 2025开发者大会可以说是一场技术革新的盛宴,从生成媒体模型的突破性升级,到搜索与AI Mode的深度融合,再到办公软件与通讯工具的全新智能化应用,谷歌正重塑着我们对人工智能的认知与期待。