谷歌发布“AI超级全家桶”:AI私人助理将拥有“记忆”

来源:劳动观察 作者:陈宁 发布时间:2024-05-15 16:10

摘要: 5月15日凌晨,谷歌在其一年一度的I/O大会上“火力全开”。

昨天, OpenAI用一个“通人性”的AI智能助手GPT-4o震撼了世界,5月15日凌晨,谷歌在其一年一度的I/O大会上“火力全开”,发布了一系列基于Gemini的“AI全家桶”——包括升级200万tokens上下文的Gemini 1.5 Pro、新模型 Gemini 1.5 flash、类Sora的新视频大模型Veo,以及包括AI搜索、AI+Gmail在内的多个AI应用。


谷歌Project Astra PK OpenAI GPT-4o


具备“真实世界感知 +低延迟语音”的超级智能助手,已经成为下一阶段AI公司竞赛的关键。距离OpenAI发布智能助手GPT-4o仅一日之隔,谷歌在今年的大会上发布了万能助手项目Project Astra。与GPT-4o“通人性”的特点不同,谷歌这一项目的“卖点”在于其具备“记忆”。


在谷歌DeepMind负责人兼谷歌AI领导者Demis Hassabis口中,Project Astra是真正通向AGI的万能助手项目。大会上,谷歌发布了一段非常惊艳的AI助手演示视频。Demis Hassabis说,Project Astra是自己期待了几十年的AI助手的雏形,是AI助手的未来。


据介绍,它是一个实时、多模式的人工智能助手,通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互,它的语音交互比当前形式的Google Assistant更自然,没有延迟或延迟,可以回答问题或帮助你做几乎任何事情。


演示视频中,用户要求Project Astra在看到发出声音的东西时告诉她,助手回答说,它可以看到一个发出声音的扬声器。交互是实时语音进行的,且并没有“嘿,Google、Gemini”等唤起词,用户问Project Astra视频中显示器上的代码有什么作用,Project Astra没有一丝延迟地进行了解释。


最大的亮点是,Project Astra具有“记忆”。在展示案例中,当使用者通过摄像头环顾办公室一周并持续提问交互之后,忽然提问“对了,我刚刚把眼镜放哪里?”助理准确地回答“放在一个苹果旁边。”而这个画面是大约一分钟前从摄像头中一闪而过的。据悉,Project Astra 可以很快处理收到的信息,可以通过连续编码视频帧并将视频和语音组合成事件时间线来做到这一点,然后缓存信息以供回忆。谷歌表示,其中一些功能将在今年晚些时候添加到Gemini应用程序和其他产品中。


谷歌开启AI搜索时代


备受关注的是,在这次发布会上,谷歌正式宣布推出AI搜索功能,目前仅支持向美国地区开放。相比从前,AI搜索可以处理更复杂的问题。谷歌提供了一个例子,也许用户在寻找一个新的瑜伽工作室,要求这个工作室既要在当地很受欢迎,也要方便通勤,还要有折扣,只需一次搜索就能实现。


另外,用户还可以调整已经生成的AI摘要,或者选择简化版本,或者选择查看更多细节。这一切是谷歌通过定制的Gemini模型来实现的,其将多步推理、规划和多模态与搜索系统结合,总结网络内容并展示答案,据称还是 AI 来设计和填充结果页面。


除了提问,谷歌AI搜索还能制定计划,从饮食到旅行计划,比如搜索“创建一个容易准备的团体3天饮食计划”,AI就会定制计划,然后用户可以将某份晚餐调整成素食,随后导出到文档或者谷歌邮箱里。


搜索还不仅仅是文本框中的文字,谷歌的视觉搜索也进化了,可以用视频提问。比如,用户有台二手唱片机,上面带针的金属部件漂移了,不知道怎么回事,可以直接用视频搜索,即能得到有解决步骤的AI摘要和相关链接,省去描述问题所需要的正确术语的时间和麻烦。


有行业观察者指出,对比OpenAI和谷歌前后脚发布的内容来看,先不论项目的真实效果到底如何,从产品进展来看OpenAI已经领先一筹。然而,Google仍然做对了一件事,那就是终于在将人工智能整合到搜索框中做出了认真的努力。


头图来源:图虫

责任编辑:王卫朋
劳动观察新闻,未经授权不得转载
收藏

相关新闻

OpenAI推出检测工具:可识别...

全球首个通用智能人小女孩“通通”...

三大AI开发“神器”亮相,李彦宏...

首页

顶部