OpenAI的超长发布会还没结束,谷歌便火速推出Gemini 2.0系列的第一个版本——Gemini 2.0 Flash测试版。
在介绍中,Gemini 2.0 Flash的一些关键性能优于Gemini 1.5 Pro,同时,Gemini 2.0 Flash还加入多模态推理、原生调用Google搜索、复杂的指令跟踪和规划等功能。最令人期待的一定是Deep Research,它实现的功能就是作为“AI代理人”来做规划,重点在于,它将突破次元壁,向通用AI更近一步。
在谷歌介绍中,新发布的Gemini 2.0将首次涉足「AI代理时代」,换句话说,我们可以将一部分网络和现实的控制权移交给AI处理,它会代替我们处理许多“现实问题”。比如,你想买新手机,可能会进行很多对比,还需要考虑促销、是否缺货等因素,这些繁琐的步骤可以全部交由Gemini来处理。
结合前段时间泄露的消息,2025年谷歌可能发布的Jarvis AI能够访问网站,甚至可以在用户许可下完成在线购物,以及填写表格等操作。换句话说,如果得到用户允许,它甚至可以帮你下单,你在家等待新手机即可。
Gemini团队的高级产品经理解释说:“当Gemini Deep Research浏览网页时,它会对发现的内容进行推理,以弄清楚下一步要寻找什么。从本质上讲,这是一种通过内容进行探索和学习的全新方向。”
在功能上看,Gemini Deep Research是一个推理模型,最大的不同是,它可以跟互联网有完整交互。
在Deep Research上线后,Gemini可以像人类一样浏览网络,通过搜索、找到有趣的内容,然后根据它所学到的信息再进行新的搜索。它可以多次执行此操作,直到确定它有足够的信息来根据用户的提示生成最终结论。
谷歌把Gemini Deep Research描述成“代理人”,这会让AI助理突破次元壁,不免让人担心这将打开“潘多拉的魔盒”。
针对这些担忧,谷歌现阶段的限制原则是,它不适用于付费专区的研究论文或网站,也不适用于需要登录才能访问的网站,未来是否开放这些限制还不得而知。
现实是,谷歌的Gemini正在悄悄更新,AI代理的想法让人担忧。试想,当谷歌正式解禁Deep Research全部功能后,我们也许会看到“AI代理人”逐渐成为网络社会的主流,写代码、预订机票和酒店,甚至连玩游戏都不用亲力亲为。对人类来说,这样的未来是更封闭,还是更开放?