2025谷歌I/O大会:AI搜索模式、Veo 3、Imagen 4、Flow、Gemini Live等

2025谷歌I/O大会:AI搜索模型、Veo 3、Imagen 4、Flow、Gemini Live等

谷歌的年度盛会 I/O 在今年再度登场,将人工智能的边界推向了前所未有的高度。谷歌首席执行官桑达尔-皮查伊(Sundar Pichai)首先发表了主题演讲,重点介绍了这家科技巨头所取得的里程碑式成就。从谷歌搜索和 Gemini Live 的新人工智能模式,到 Veo 3、Imagen 4 和 Flow 的发布,再到 Android XR 和 Samsung Moohan 的亮相,谷歌从帽子里掏出了一只又一只人工智能兔子。在谷歌 I/O 2025 大会上,谷歌宣布了 8 项最大的人工智能突破和发布。

1. 谷歌会议中的谷歌Beam和实时翻译

谷歌通过 Google Beam 将视频通话提升到了一个全新的水平–Google Beam 是 Project Starline 的进化版,可提供身临其境的 3D 视频通信。这项新技术可从 6 个不同的摄像头角度捕捉说话者的视角,并以 60 fps 的速度捕捉他们的动作。然后将它们组合在一起,生成说话者的 3D 版本,让人感觉说话者就在眼前。为了让虚拟互动更逼真,Google Beam 将很快向美国的 Google Meet 用户开放,然后再向其他国家开放。

作为补充,Google Meet 现在具有实时语音翻译功能。在人工智能的支持下,这项翻译功能可以捕捉你的方言、语调和细微差别,从而实时提供准确的翻译。最初支持英语和西班牙语,谷歌计划不久将增加更多语言,从而促进视频通话中的无缝多语言对话。这项新功能已向美国用户推出,不久将在全球范围内推出。谷歌企业用户也将在今年年底获得这项功能。

2. 谷歌搜索的AI模式

在 2025 年谷歌 I/O 大会上,谷歌宣布的最重要的消息莫过于谷歌搜索中的全新 AI 模式。由于人工智能概述在谷歌搜索中被广泛接受,现在他们通过人工智能模式将人工智能的力量直接带到了搜索栏中。这项新功能让用户可以直接使用人工智能搜索结果,就像在 ChatGPT、Gemini 或其他人工智能聊天机器人上一样。

通过扩大搜索窗口,用户现在可以添加更多上下文,并在同一个搜索查询中提出多个问题。谷歌搜索会将用户的查询分成多个较小的查询和类别,并对所有查询和类别进行并行搜索。借助人工智能推理能力,它可以将所有信息整合在一起,生成全面的、符合上下文的回复。这将谷歌搜索转变为一种更具互动性的体验。

主要功能

谷歌搜索的新 AI 模式提供 7 项新功能:

  1. 个人语境:现在,您可以让谷歌通过整合您的搜索历史以及来自其他谷歌应用和工具(如 Gmail)的数据,为您提供个性化回复。这种整合可以让人工智能了解您的风格和选择,从而生成对您有独特帮助的更智能的回复。
  2. 深度研究:该功能可将 Google 的网络搜索能力倍增,同时进行几十次甚至上百次搜索,以收集更多信息,从而生成更详细、更有研究价值的回复。
  3. 多种回复格式:现在由人工智能驱动的谷歌搜索可根据查询为每个回复动态生成最佳布局。例如,它可以为体育和金融查询智能生成交互式列表和图表。
  4. 个性化购物建议:现在,Google 搜索不再简单地列出产品页面和购物链接,而是可以根据你的品味、以前的搜索和购买记录为你提供个性化的购物建议。您可以在搜索查询中添加更多的上下文和细节,谷歌还会推荐一些考虑要点,帮助您做出正确的选择。
  5. 虚拟试穿:人工智能模式的另一个亮点是由人工智能驱动的虚拟试衣购物。现在,您可以直接在谷歌搜索上虚拟试穿衣服,然后再购买。只需选择服装,上传图片,就能看到谷歌神奇地在屏幕上为你试穿。这项功能今天也已向美国用户推出。
  6. 搜索直播:你现在可以与谷歌搜索进行实时视频通话,获得实时视觉帮助,类似于聊天机器人上的 Gemini 实时功能。
  7. AI视觉搜索: Google Lens 以前会根据输入的图片查找相似的图片,现在它可以对你点击或上传的任何图片进行人工智能概述。它基本上可以解释你眼前的任何东西,是你的虚拟伴侣,尤其是对于视障人士来说。

谷歌搜索的人工智能模式目前正在向美国用户推广。谷歌计划很快在其他国家推出该功能。

3. Astra项目:Gemini Live

在今年的谷歌 I/O 开发者大会上,Gemini 聊天机器人宣布了一项重大更新,那就是 Gemini Live 功能。作为谷歌 Project Astra 的延伸,Gemini Live 旨在打造一款通用的人工智能助手。它允许用户与人工智能驱动的 Gemini 聊天机器人进行实时视频通话,为各种事务提供实时人工智能辅助。它允许用户进行摄像头互动对话,接收即时翻译,并分享屏幕或摄像头画面以寻求帮助。目前,该功能已支持超过 45 种语言,覆盖 150 多个国家的 Android 和 iOS 用户。

4. Mariner项目: Agent Mode

在 2025 年 Google I/O 开发者大会上,该公司演示了 Agent Mode——一款基于 Mariner 项目的人工智能代理,并具备计算机使用功能。这款超级代理能够同时执行多达 10 项任务,包括拨打电话、搜索网页、查找 YouTube 视频、提供建议、回答问题等等。它还具备足够的智能,能够学习一项任务的工作流程,并运用一项名为“教学与重复”的技术将其应用于其他任务。

Agent Mode 的设计理念是个性化、主动性和强大的。它可以访问您的日历、查看即将发生的事件、设置提醒或为您准备活动,甚至在您发出请求之前就完成。这种级别的自主性和智能在通用人工智能代理中前所未见。它有助于自动执行许多日常任务,例如安排日程、做笔记、准备面试等等。

Agent Mode的实际应用

谷歌更进一步,将其与谷歌搜索的人工智能模式集成,为用户带来了代理搜索功能。借助此功能,用户可以在后台运行多个网页搜索和基于网页搜索的任务,这些任务将由代理自动完成。

例如,您可以使用此功能设置电子购物的代理结账。找到想要购买的商品后,您可以使用代理搜索功能,在您的预算范围内帮您找到合适的商品。谷歌搜索会持续跟踪各个网站的价格,一旦价格降至您的承受范围,只需轻轻一按即可自动下单。您甚至可以使用 Google Pay 支付,同样只需轻轻一按即可。

现在,就像 Agent2Agent 协议和 Anthropic 的模型上下文协议一样,Gemini API 和 SDK 将能够使用 MCP 工具。谷歌即将通过 Gemini API 向开发者推出 Project Mariner 的计算机使用功能。同时,多任务代理模式的实验版本现已向美国的 Google AI Ultra 订阅用户开放。

5. Veo 3、Imagen 4、Flow、Genie 2、Lyria 2:谷歌最先进的生成式AI工具

谷歌在 2025 年谷歌 I/O 大会上发布了一些最新、最先进的生成式人工智能工具。其中包括

  1. Music AI Sandbox with Lyria 2:由 Lyria 2 支持的 Music AI Sandbox 可让用户使用 AI 生成音乐作品。它可以根据用户输入创建和声、节奏、背景乐谱,甚至是带有管弦乐队的完整乐曲。
  2. Genie 2:这款来自谷歌的先进工具只需两个步骤和一个提示,就能将二维图像转化为交互式三维环境。它在游戏、虚拟现实和数字内容创建方面有着广泛的应用。
  3. Imagen 4:Imagen 4 是谷歌最新的文本到图像生成模型,能够根据文字描述生成高质量、逼真的图像。它不仅能正确处理文字和拼写,还能根据查询智能选择正确的字体、字号等。此外,它的工作速度比以前的型号快 10 倍。
  4. Veo 3:谷歌在年度盛会上推出了最新版本的 Veo。升级后的 Veo 3 将人工智能驱动的视频生成技术提升到了一个全新的水平,可以根据文本提示创建超逼真的高质量视频。除了视频,它还能生成逼真的音频输出,包括对话和背景声音。
  5. Flow:谷歌推出的这款全新电影制作工具汇集了 Veo、Imagen 和 Gemini 的创意功能。它允许用户根据文字或图像提示生成短片,并整合声音、对话和视觉效果。它具有文本到图像、图像到视频和文本到视频功能,是将想象变为现实的一站式工具。此外,它还具有场景扩展和编辑功能。

Google AI Pro 和 Ultra 计划的用户现在可以使用这些高级工具,它们将慢慢集成到 Google Gemini 聊天机器人中。

6. Gemini应用程序与Imagen 4、Veo 3等的集成

2025 年谷歌 I/O 大会与其说是在讨论人工智能,不如说是在讨论 Gemini,首席执行官桑达尔-皮查伊(Sundar Pichai)的单词计数器就证明了这一点。会上发布了几项关于谷歌 Gemini 聊天机器人的公告,包括深度研究(Deep Research)和画布(Canvas)的更新,以及与谷歌最新生成式人工智能工具的集成。

在2025年谷歌I/O大会上发布的Gemini更新

Gemini更新

以下是今年谷歌 I/O 大会上发布的所有 Gemini 更新。

  1. Chrome 浏览器中的 Gemini:下一件大事是,谷歌即将在谷歌 Chrome 浏览器上推出 Gemini,作为网页浏览人工智能代理。这样,用户就可以直接向人工智能聊天机器人提出搜索查询和有关搜索结果的后续问题。
  2. Gemini Voice:谷歌在 Gemini 的语音模型中集成了原生音频输出,使其能够以更加个性化和细致入微的方式回应用户。在同一对话中,它可以切换语言、改变音调,甚至可以窃窃私语。你可以通过 Gemini API 测试这一更新版本。
  3. 深度研究:在使用 Google Gemini 进行深度研究时,你现在可以上传自己的文件来指导研究代理。您还可以将其连接到 Gmail 和 Google Drive,以获取更多数据或提供一些上下文。
  4. Canvas:Gemini 上的 Canvas 功能现在可以将深度研究报告转换成自定义播客、测验、信息图表等。
  5. Imagen 4:Google Gemini 的图像生成功能现在由 Imagen 4 提供支持,使图像更加逼真和细腻。
  6. Veo 3:由于新集成了 Veo 3,Gemini 现在可以生成具有准确音频、对话和背景声音的逼真视频。

这些更新将在未来几周内向用户推出。

7. 安卓XR和三星Moohan

Android XR 是谷歌首次涉足扩展现实领域的 Android 平台。这项技术由 Gemini 提供支持,通过超现实的实时视频为用户带来身临其境的体验。三星新设计的智能眼镜 Moohan 将是首款利用 Android XR 提供人工智能辅助的设备。这款眼镜提供实时导航、翻译和摄像头直播等功能,旨在增强用户与数字世界的互动。

有了这款眼镜,你可以在家里观看赛事直播,就像坐在体育场的前排一样。它还能以三维方式显示谷歌地图,可以实时直观地将你带到各个地方,给你带来逼真的体验。此外,它还自带记忆功能,可以回答问题。Samsung Moohan 的设计目的是像人类伴侣一样实时提供人工智能帮助,它可以点击图片、进行预订,甚至可以将音频翻译成文字。与其他大多数智能眼镜单一的科幻风格设计不同,这款眼镜将由 Gentle Monster 和 Warby Parker 设计成各种风格。

8. 新的谷歌AI订阅模式

除了所有这些发布和更新之外,谷歌还在其年度盛会上推出了两个新的订阅计划:

  • AI Pro:该计划售价 19.99 美元/月,为用户提供所有高级 AI 功能和高限额。适合全球普通用户。
  • AI Ultra:该计划售价为 249 美元/月,用户可使用最先进的人工智能工具和模型,包括实验功能,并有更高的费率限制。该计划仅面向美国的专业人士和企业。

新的谷歌AI订阅模式

小结

2025 年谷歌 I/O 大会的盛况空前,让我们看到了谷歌雄心勃勃的人工智能计划。从增强谷歌搜索和谷歌会议等日常工具,到开发 Flow 和 Genie 2 等高级创意工具,谷歌的创新旨在重新定义人工智能的边界。随着这些更新和模型的推出,我相信人工智能将成为普通人日常生活中不可或缺的一部分。无论是 Project Astra、Project Mariner 还是 Android XR,这些发展都标志着谷歌在人工智能的驱动下,向更直观、更身临其境的数字未来迈出了重要一步。

评论留言