谷歌的年度盛會 I/O 在今年再度登場,將人工智慧的邊界推向了前所未有的高度。谷歌執行長桑達爾-皮查伊(Sundar Pichai)首先發表了主題演講,重點介紹了這家科技巨頭所取得的里程碑式成就。從谷歌搜尋和 Gemini Live 的新人工智慧模式,到 Veo 3、Imagen 4 和 Flow 的釋出,再到 Android XR 和 Samsung Moohan 的亮相,谷歌從帽子裡掏出了一隻又一隻人工智慧兔子。在谷歌 I/O 2025 大會上,谷歌宣佈了 8 項最大的人工智慧突破和釋出。
1. 谷歌會議中的谷歌Beam和即時翻譯
谷歌透過 Google Beam 將視訊通話提升到了一個全新的水平–Google Beam 是 Project Starline 的進化版,可提供身臨其境的 3D 影片通訊。這項新技術可從 6 個不同的攝像頭角度捕捉說話者的視角,並以 60 fps 的速度捕捉他們的動作。然後將它們組合在一起,生成說話者的 3D 版本,讓人感覺說話者就在眼前。為了讓虛擬互動更逼真,Google Beam 將很快向美國的 Google Meet 使用者開放,然後再向其他國家開放。
作為補充,Google Meet 現在具有即時語音翻譯功能。在人工智慧的支援下,這項翻譯功能可以捕捉你的方言、語調和細微差別,從而即時提供準確的翻譯。最初支援英語和西班牙語,谷歌計劃不久將增加更多語言,從而促進視訊通話中的無縫多語言對話。這項新功能已向美國使用者推出,不久將在全球範圍內推出。谷歌企業使用者也將在今年年底獲得這項功能。
2. 谷歌搜尋的AI模式
在 2025 年穀歌 I/O 大會上,谷歌宣佈的最重要的訊息莫過於谷歌搜尋中的全新 AI 模式。由於人工智慧概述在谷歌搜尋中被廣泛接受,現在他們透過人工智慧模式將人工智慧的力量直接帶到了搜尋欄中。這項新功能讓使用者可以直接使用人工智慧搜尋結果,就像在 ChatGPT、Gemini 或其他人工智慧聊天機器人上一樣。
透過擴大搜尋視窗,使用者現在可以新增更多上下文,並在同一個搜尋查詢中提出多個問題。谷歌搜尋會將使用者的查詢分成多個較小的查詢和類別,並對所有查詢和類別進行並行搜尋。藉助人工智慧推理能力,它可以將所有資訊整合在一起,生成全面的、符合上下文的回覆。這將谷歌搜尋轉變為一種更具互動性的體驗。
主要功能
谷歌搜尋的新 AI 模式提供 7 項新功能:
- 個人語境:現在,您可以讓谷歌透過整合您的搜尋歷史以及來自其他谷歌應用和工具(如 Gmail)的資料,為您提供個性化回覆。這種整合可以讓人工智慧瞭解您的風格和選擇,從而生成對您有獨特幫助的更智慧的回覆。
- 深度研究:該功能可將 Google 的網路搜尋能力倍增,同時進行幾十次甚至上百次搜尋,以收集更多資訊,從而生成更詳細、更有研究價值的回覆。
- 多種回覆格式:現在由人工智慧驅動的谷歌搜尋可根據查詢為每個回覆動態生成最佳佈局。例如,它可以為體育和金融查詢智慧生成互動式列表和圖表。
- 個性化購物建議:現在,Google 搜尋不再簡單地列出產品頁面和購物連結,而是可以根據你的品味、以前的搜尋和購買記錄為你提供個性化的購物建議。您可以在搜尋查詢中新增更多的上下文和細節,谷歌還會推薦一些考慮要點,幫助您做出正確的選擇。
- 虛擬試穿:人工智慧模式的另一個亮點是由人工智慧驅動的虛擬試衣購物。現在,您可以直接在谷歌搜尋上虛擬試穿衣服,然後再購買。只需選擇服裝,上傳圖片,就能看到谷歌神奇地在螢幕上為你試穿。這項功能今天也已向美國使用者推出。
- 搜尋直播:你現在可以與谷歌搜尋進行即時視訊通話,獲得即時視覺幫助,類似於聊天機器人上的 Gemini 即時功能。
- AI視覺搜尋: Google Lens 以前會根據輸入的圖片查詢相似的圖片,現在它可以對你點選或上傳的任何圖片進行人工智慧概述。它基本上可以解釋你眼前的任何東西,是你的虛擬伴侶,尤其是對於視障人士來說。
谷歌搜尋的人工智慧模式目前正在向美國使用者推廣。谷歌計劃很快在其他國家推出該功能。
3. Astra專案:Gemini Live
在今年的谷歌 I/O 開發者大會上,Gemini 聊天機器人宣佈了一項重大更新,那就是 Gemini Live 功能。作為谷歌 Project Astra 的延伸,Gemini Live 旨在打造一款通用的人工智慧助手。它允許使用者與人工智慧驅動的 Gemini 聊天機器人進行即時視訊通話,為各種事務提供即時人工智慧輔助。它允許使用者進行攝像頭互動對話,接收即時翻譯,並分享螢幕或攝像頭畫面以尋求幫助。目前,該功能已支援超過 45 種語言,覆蓋 150 多個國家的 Android 和 iOS 使用者。
4. Mariner專案: Agent Mode
在 2025 年 Google I/O 開發者大會上,該公司演示了 Agent Mode——一款基於 Mariner 專案的人工智慧代理,並具備計算機使用功能。這款超級代理能夠同時執行多達 10 項任務,包括撥打電話、搜尋網頁、查詢 YouTube 影片、提供建議、回答問題等等。它還具備足夠的智慧,能夠學習一項任務的工作流程,並運用一項名為“教學與重複”的技術將其應用於其他任務。
Agent Mode 的設計理念是個性化、主動性和強大的。它可以訪問您的日曆、檢視即將發生的事件、設定提醒或為您準備活動,甚至在您發出請求之前就完成。這種級別的自主性和智慧在通用人工智慧代理中前所未見。它有助於自動執行許多日常任務,例如安排日程、做筆記、準備面試等等。
Agent Mode的實際應用
谷歌更進一步,將其與谷歌搜尋的人工智慧模式整合,為使用者帶來了代理搜尋功能。藉助此功能,使用者可以在後臺執行多個網頁搜尋和基於網頁搜尋的任務,這些任務將由代理自動完成。
例如,您可以使用此功能設定電子購物的代理結賬。找到想要購買的商品後,您可以使用代理搜尋功能,在您的預算範圍內幫您找到合適的商品。谷歌搜尋會持續跟蹤各個網站的價格,一旦價格降至您的承受範圍,只需輕輕一按即可自動下單。您甚至可以使用 Google Pay 支付,同樣只需輕輕一按即可。
現在,就像 Agent2Agent 協議和 Anthropic 的模型上下文協議一樣,Gemini API 和 SDK 將能夠使用 MCP 工具。谷歌即將透過 Gemini API 向開發者推出 Project Mariner 的計算機使用功能。同時,多工代理模式的實驗版本現已向美國的 Google AI Ultra 訂閱使用者開放。
5. Veo 3、Imagen 4、Flow、Genie 2、Lyria 2:谷歌最先進的生成式AI工具
谷歌在 2025 年穀歌 I/O 大會上釋出了一些最新、最先進的生成式人工智慧工具。其中包括
- Music AI Sandbox with Lyria 2:由 Lyria 2 支援的 Music AI Sandbox 可讓使用者使用 AI 生成音樂作品。它可以根據使用者輸入建立和聲、節奏、背景樂譜,甚至是帶有管絃樂隊的完整樂曲。
- Genie 2:這款來自谷歌的先進工具只需兩個步驟和一個提示,就能將二維影像轉化為互動式三維環境。它在遊戲、虛擬現實和數字內容建立方面有著廣泛的應用。
- Imagen 4:Imagen 4 是谷歌最新的文字到影像生成模型,能夠根據文字描述生成高質量、逼真的影像。它不僅能正確處理文字和拼寫,還能根據查詢智慧選擇正確的字型、字號等。此外,它的工作速度比以前的型號快 10 倍。
- Veo 3:谷歌在年度盛會上推出了最新版本的 Veo。升級後的 Veo 3 將人工智慧驅動的影片生成技術提升到了一個全新的水平,可以根據文字提示建立超逼真的高質量影片。除了影片,它還能生成逼真的音訊輸出,包括對話和背景聲音。
- Flow:谷歌推出的這款全新電影製作工具彙集了 Veo、Imagen 和 Gemini 的創意功能。它允許使用者根據文字或影像提示生成短片,並整合聲音、對話和視覺效果。它具有文字到影像、影像到影片和文字到影片功能,是將想象變為現實的一站式工具。此外,它還具有場景擴充套件和編輯功能。
Google AI Pro 和 Ultra 計劃的使用者現在可以使用這些高階工具,它們將慢慢整合到 Google Gemini 聊天機器人中。
6. Gemini應用程式與Imagen 4、Veo 3等的整合
2025 年穀歌 I/O 大會與其說是在討論人工智慧,不如說是在討論 Gemini,執行長桑達爾-皮查伊(Sundar Pichai)的單詞計數器就證明了這一點。會上釋出了幾項關於谷歌 Gemini 聊天機器人的公告,包括深度研究(Deep Research)和畫布(Canvas)的更新,以及與谷歌最新生成式人工智慧工具的整合。
在2025年穀歌I/O大會上釋出的Gemini更新
以下是今年穀歌 I/O 大會上釋出的所有 Gemini 更新。
- Chrome 瀏覽器中的 Gemini:下一件大事是,谷歌即將在谷歌 Chrome 瀏覽器上推出 Gemini,作為網頁瀏覽人工智慧代理。這樣,使用者就可以直接向人工智慧聊天機器人提出搜尋查詢和有關搜尋結果的後續問題。
- Gemini Voice:谷歌在 Gemini 的語音模型中整合了原生音訊輸出,使其能夠以更加個性化和細緻入微的方式回應使用者。在同一對話中,它可以切換語言、改變音調,甚至可以竊竊私語。你可以透過 Gemini API 測試這一更新版本。
- 深度研究:在使用 Google Gemini 進行深度研究時,你現在可以上傳自己的檔案來指導研究代理。您還可以將其連線到 Gmail 和 Google Drive,以獲取更多資料或提供一些上下文。
- Canvas:Gemini 上的 Canvas 功能現在可以將深度研究報告轉換成自定義播客、測驗、資訊圖表等。
- Imagen 4:Google Gemini 的影像生成功能現在由 Imagen 4 提供支援,使影像更加逼真和細膩。
- Veo 3:由於新整合了 Veo 3,Gemini 現在可以生成具有準確音訊、對話和背景聲音的逼真影片。
這些更新將在未來幾周內向使用者推出。
7. 安卓XR和三星Moohan
Android XR 是谷歌首次涉足擴充套件現實領域的 Android 平臺。這項技術由 Gemini 提供支援,透過超現實的即時影片為使用者帶來身臨其境的體驗。三星新設計的智慧眼鏡 Moohan 將是首款利用 Android XR 提供人工智慧輔助的裝置。這款眼鏡提供即時導航、翻譯和攝像頭直播等功能,旨在增強使用者與數字世界的互動。
有了這款眼鏡,你可以在家裡觀看賽事直播,就像坐在體育場的前排一樣。它還能以三維方式顯示谷歌地圖,可以即時直觀地將你帶到各個地方,給你帶來逼真的體驗。此外,它還自帶記憶功能,可以回答問題。Samsung Moohan 的設計目的是像人類伴侶一樣即時提供人工智慧幫助,它可以點選圖片、進行預訂,甚至可以將音訊翻譯成文字。與其他大多數智慧眼鏡單一的科幻風格設計不同,這款眼鏡將由 Gentle Monster 和 Warby Parker 設計成各種風格。
8. 新的谷歌AI訂閱模式
除了所有這些釋出和更新之外,谷歌還在其年度盛會上推出了兩個新的訂閱計劃:
- AI Pro:該計劃售價 19.99 美元/月,為使用者提供所有高階 AI 功能和高限額。適合全球普通使用者。
- AI Ultra:該計劃售價為 249 美元/月,使用者可使用最先進的人工智慧工具和模型,包括實驗功能,並有更高的費率限制。該計劃僅面向美國的專業人士和企業。
小結
2025 年穀歌 I/O 大會的盛況空前,讓我們看到了谷歌雄心勃勃的人工智慧計劃。從增強谷歌搜尋和谷歌會議等日常工具,到開發 Flow 和 Genie 2 等高階創意工具,谷歌的創新旨在重新定義人工智慧的邊界。隨著這些更新和模型的推出,我相信人工智慧將成為普通人日常生活中不可或缺的一部分。無論是 Project Astra、Project Mariner 還是 Android XR,這些發展都標誌著谷歌在人工智慧的驅動下,向更直觀、更身臨其境的數字未來邁出了重要一步。
評論留言