Google I/O 2025:描繪 Google 的 AI 優先未來及其產業影響

Google I/O 2025:描繪 Google 的 AI 優先未來及其產業影響

作者:Gemini 2.5 Flash Deep Reach 整理產出,Gemini 可能會出錯。

本文重點放在 Google I/O 2025 中 AI 相關議題,資料來源包含但不限於官方網站及相關新聞稿或官方部落格、各大科技部落格以及知名評論員

I. 執行摘要

Google I/O 2025 無庸置疑地強調了 Google 對人工智慧 (AI) 的深厚承諾,將 AI 定位為其龐大產品生態系統的核心支柱。執行長 Sundar Pichai 強調:「數十年的研究正成為世界各地人民、企業和社群的現實」,這預示著 AI 平台轉型的嶄新階段 。Google 的願景是創建一個「通用 AI 助理」,該助理將具備「代理能力,理解個人情境並執行任務」。這涉及將 Gemini 模型融入每個產品中,從提供資訊轉向提供智慧和行動   

AI 在 Google 產品中的普遍整合,既是一種防禦性策略,也是一種攻擊性策略。AI 功能的快速、廣泛整合,特別是在搜尋等核心產品中,是對其他大型語言模型 (LLM) 和生成式 AI 平台 (例如 ChatGPT、Sora) 競爭威脅的直接回應。Google 正在利用其龐大的用戶基礎和數據,透過讓 AI 成為預設體驗而非可選功能來維持其市場主導地位 。AI 概覽 (AI Overviews) 每月已有 15 億用戶,並在主要市場(如美國和印度)推動了 Google 搜尋使用量 10% 以上的增長 。AI 模式 (AI Mode) 正在向所有美國用戶推出,無需透過 Labs 註冊 。透過將 AI 深度嵌入其生態系統(Android、Workspace、雲端、硬體),Google 旨在創造一個黏性強、相互連接的 AI 體驗,使其有別於可能專注於獨立 AI 產品的競爭對手。新推出的付費訂閱方案(如 AI Ultra)則明確表明了對先進 AI 功能的貨幣化策略,這也反映了與前沿模型相關的高昂運算成本。  

本次大會的關鍵亮點包括:

  • 搜尋中的 AI 模式: Google 搜尋的徹底重塑,轉變為由 Gemini 2.5 驅動的對話式、代理式介面   
  • Gemini 2.5 的進步: Pro 和 Flash 模型的顯著性能提升,引入了「Deep Think」以增強推理能力,以及原生音訊輸出和電腦使用等新功能   
  • 通用 AI 助理願景 (Project Astra): Google 的宏大目標是讓 Gemini 成為一個主動、情境感知、能夠在所有裝置上進行規劃和採取行動的 AI,包括 Android XR 眼鏡等新形態裝置   
  • 生成式媒體工具: 透過音訊生成影片 (Veo 3)、高傳真圖像生成 (Imagen 4) 以及 AI 驅動的電影製作 (Flow) 實現突破   
  • 開發者賦能: 推出一系列新工具和 API,包括 Gemini Code Assist、Jules、Firebase Studio、MedGemma 和 SignGemma,這表明 Google 大力推動 AI 原生應用程式開發   
  • 新訂閱方案: 推出每月 250 美元的 Google AI Ultra,捆綁了高級 AI 功能和服務   

II. 核心重塑:AI 在 Google 搜尋中的應用

AI 模式:轉變搜尋互動

AI 模式被描述為 Google 最強大的 AI 搜尋體驗,提供進階推理和多模態能力。它專為複雜、冗長和多模態查詢而設計,提供詳細的回應和有用的連結 。它採用「查詢扇出技術(query fan-out )」,將複雜問題分解為子主題,同時執行數百個查詢,並將結果合成為全面的答案   

AI 模式正在向所有美國用戶推出,無需透過 Labs 註冊,這表明 Google 核心產品發生了重大轉變。未來幾週,搜尋和 Google 應用程式的搜尋列中將出現一個新的 AI 模式分頁 。對於需要更詳盡回應的查詢,深度搜尋 (Deep Search)(AI 模式 Labs 的一部分)可以執行數百個搜尋並對不同資訊進行推理,在幾分鐘內創建專家級、完整引用的報告,節省數小時的研究時間   

搜尋即時 (Search Live) 則將 Project Astra 的即時功能引入搜尋,允許用戶使用相機與搜尋進行即時互動。用戶可以將相機指向物體並提出問題,獲得解釋、建議和連結   

AI 模式從 Labs 推出並向所有美國用戶提供,並最終將其功能整合到核心搜尋體驗中,這表明 Google 正在對其搜尋產品進行根本性的重新架構。這項積極的推動,加上 AI 概覽已在主要市場帶來超過 10% 的使用量增長,反映出 Google 對 AI 提升用戶滿意度和參與度的信心。這也凸顯了在面對 AI 優先搜尋競爭對手時,維持市場領導地位的策略必要性。這意味著 Google 願意顛覆其高度成功的傳統搜尋模式,因為它認識到資訊存取的未來是對話式和智慧化的,而不僅僅是連結列表。

代理式搜尋:從資訊檢索到行動

Project Mariner 的代理功能正被整合到 AI 模式中,使搜尋能夠代表用戶完成任務,首先是活動門票、餐廳預訂和當地預約 。Project Mariner 可以同時處理多達 10 個不同的任務   

新的 AI 模式購物體驗利用先進的 AI 和購物圖譜,幫助用戶尋找靈感、考慮因素並找到合適的產品 。用戶可以上傳自己的照片,虛擬試穿數十億件服裝商品。「試穿」實驗正在美國的搜尋 Labs 用戶中推出 。新的代理結帳功能允許用戶追蹤價格,並在產品價格降至其預算範圍時收到通知,AI 甚至可以透過 Google Pay 完成購買   

代理功能的引入,意味著 AI 可以在搜尋介面內直接完成預訂、比較票價甚至完成購買等任務。這預示著「零點擊」商務和服務履行的出現。對於企業,特別是電子商務和本地服務,這意味著來自搜尋的直接網站流量可能會減少,因為更多的交易或預訂將直接由 Google 的 AI 促成。未來的成功將取決於網站是否針對「機器可操作性」、豐富的產品數據以及與 Google 購物圖譜和 API 的整合進行優化,而不僅僅是專注於將點擊引導至網站。這可能重新定義轉換漏斗,將其進一步推向上游的搜尋體驗。

AI 概覽:規模、用戶採用與內容發現的策略影響

自 2024 年 I/O 推出以來,AI 概覽已擴展到 200 個國家和地區的 15 億每月用戶,使 Google 搜尋成為將生成式 AI 帶給最多人的產品 。在美國和印度等主要市場,AI 概覽推動了 Google 相關查詢使用量超過 10% 的增長 。自 I/O 當週起,Gemini 2.5 開始在美國的 AI 模式和 AI 概覽中提供支援 。Google 表示,「絕大多數」用戶與 AI 概覽進行了有意義的互動   

搜尋引擎優化 (SEO) 的定義正在從以連結為中心轉變為 AI 策劃的內容。搜尋結果現在由 AI 策劃,品牌將競爭在合成摘要、後續問題和智慧型使用者介面元素(如地圖、圖表、產品卡)中的曝光,而不僅僅是前 10 個藍色連結 。深度搜尋執行數百個查詢並編譯「專家級、完整引用的答案」。這意味著高品質、細緻的內容以及強大的引用和信任信號變得更加重要 。傳統上以「10 個藍色連結」為目標的 SEO 正在迅速過時。內容創作者和行銷人員必須從關鍵字堆砌和連結建設轉向製作高度權威、結構良好且語義豐富的內容,以便 AI 模型能夠輕鬆處理、合成和引用。可信度、事實準確性和對利基主題的全面覆蓋將至關重要,因為 AI 旨在直接在搜尋介面中提供明確的答案,這可能會減少資訊查詢的直接網站流量。  

表:搜尋中的 AI 模式:主要功能與策略影響

功能名稱描述底層技術/模型可用性/狀態策略影響/意義 (對用戶、企業、SEO)
AI 模式Google 最強大的 AI 搜尋體驗,用於複雜、冗長和多模態查詢,提供詳細回應和連結。Gemini 2.5,查詢扇出技術美國全面推出,無需 Labs 註冊;新分頁將在搜尋和 Google 應用程式中出現 對用戶: 更直觀、全面的搜尋體驗。 對企業/SEO: 搜尋介面根本性轉變,需適應 AI 策劃的結果。
深度搜尋針對需要更詳盡回應的查詢,執行數百個搜尋,生成專家級、完整引用的報告。查詢扇出技術,Gemini 2.5AI 模式 Labs 中提供 對用戶: 節省數小時研究時間,獲得深入、可信的資訊。 對企業/SEO: 高品質、細緻內容和引用變得至關重要。
搜尋即時透過相機與搜尋進行即時互動,詢問所見事物並獲得解釋、建議和連結。Project AstraAI 模式 Labs 中提供 對用戶: 實時情境感知協助,突破文字限制。 對企業/SEO: 內容需針對視覺、語音和即時情境進行優化。
代理功能透過 Project Mariner 在 AI 模式中完成購票、預訂餐廳、當地預約等任務。Project MarinerAI 模式 Labs 中提供,首先支援活動門票、餐廳預訂、當地預約 對用戶: 大幅提升便利性,自動化日常任務。 對企業/SEO: 網站需「機器可操作」,可能導致「零點擊」轉換。
虛擬試穿允許用戶上傳照片虛擬試穿數十億件服裝商品。AI,購物圖譜美國搜尋 Labs 中推出 對用戶: 解決線上購物痛點,提升購買信心。 對企業/SEO: 產品數據需豐富、即時、視覺化,AI 原生購物內容更具優勢。
代理結帳追蹤產品價格,並在價格符合預算時由 AI 代理透過 Google Pay 完成購買。AI,購物圖譜推出中 對用戶: 自動化購物流程,確保最佳價格。 對企業/SEO: 零售商競爭轉移到助理層,數據品質和整合是關鍵。
自訂圖表分析複雜數據集並為查詢創建自訂圖形。AI首先用於體育和金融查詢 對用戶: 數據視覺化,更快理解複雜資訊。 對企業/SEO: 數據提供者需確保數據結構化且易於 AI 處理。
 

III. Gemini:Google 通用 AI 助理的基石

Gemini 模型進展

Gemini 2.5 Pro 繼續保持其世界領先模型的地位,在編碼 (WebDev Arena 排行榜領先)、人類偏好 (LMArena) 和學習 (LearnLM 整合) 方面表現出色。它擁有 100 萬個 token 的上下文窗口,在長上下文和影片理解方面表現出最先進的性能   

Gemini 2.5 Flash 則針對速度和效率進行了優化,在編碼和複雜推理任務方面表現更強。它效率更高,在評估中使用的 token 減少了 20% 到 30%。目前已向 Gemini 應用程式的所有用戶提供,並將很快在 Google AI Studio 和 Vertex AI 中向開發者普遍提供   

Deep Think 是 2.5 Pro 的實驗性增強推理模式,它使用新的研究技術,允許模型在回應前考慮多個假設。它在複雜數學 (2025 USAMO)、競爭性編碼 (LiveCodeBench) 和多模態推理 (MMMU 84.0%) 方面取得了令人印象深刻的成績。由於其前沿性質和正在進行的安全評估,它最初僅透過 Gemini API 提供給受信任的測試者   

LearnLM 是一個由教育專家建立的模型家族,已直接整合到 Gemini 2.5 中,使其成為全球領先的學習模型。它在學習科學原則方面優於其他模型,並受到教育工作者的青睞,具有先進的 STEM 推理、多模態理解以及測驗/評估功能   

Gemini 2.5 模型現在具有複雜的原生音訊輸出功能,可實現更自然、更具表現力的 AI 對話,具有細微差別,支援 24 種以上語言的無縫切換。這包括情感對話 (檢測用戶情緒)、主動音訊 (忽略背景對話) 和多說話者設定檔 。新的安全方法顯著提高了 Gemini 在工具使用期間對間接提示注入攻擊的保護率,使 Gemini 2.5 成為迄今為止最安全的模型家族 。Project Mariner 的電腦使用功能正被整合到 Gemini API 和 Vertex AI 中,允許開發者建立可以瀏覽網頁或使用其他軟體工具的應用程式   

Google 正在執行一項雙管齊下的策略。Gemini 2.5 Flash 旨在實現廣泛採用和可訪問性,使強大的 AI 功能無處不在,並為日常使用和基本開發提供成本效益。這將 AI 普及化。與此同時,Gemini 2.5 Pro,特別是與 Deep Think 結合,是 Google 推動 AI 能力絕對前沿的先鋒,針對高度複雜、研究密集型任務。Deep Think 的謹慎推出,凸顯了 Google 在前沿 AI 開發中對安全和負責任的承諾,同時也向大眾提供了強大的 AI。

Gemini 跨裝置應用

Google 的目標是將 Gemini 轉變為一個「通用 AI 助理」,該助理將智慧化、理解情境,並能夠代表用戶在任何裝置上進行規劃和採取行動 。Demis Hassabis 將此願景闡述為建立一個能夠模擬和與物理世界互動的「世界模型」  

Gemini 的功能正在擴展到 Android、Wear OS、Android Auto 和 Google TV 。Android 16 的新功能和用於整合 AI 體驗的 API 也得到了強調   

Gemini Live 以前僅限於 Pixel 手機,現在將透過 Gemini 應用程式向所有相容的 Android 和 iOS 裝置推出,允許用戶詢問螢幕截圖和手機相機即時影片的問題 。它還將連接到 Google 應用程式,如地圖、日曆、任務和 Keep,以實現對話中的行動   

Android XR 眼鏡預覽展示了 Gemini 在眼鏡上的運作,演示了訊息、預約、導航和即時語言翻譯等功能 。Google 正與 Gentle Monster 和 Warby Parker 等眼鏡品牌合作,預計 Android XR 裝置將於今年稍晚上市   

Android XR用の光学式シースルーXRデバイス「Project Aura」

Gemini 和 Nest 相機智慧功能正被整合到 Home API 中,實現先進的相機功能(即時串流、智慧通知、Gemini 驅動的事件描述、雙向通話)、透過自然語言實現輕鬆自動化,以及從 Gemini 應用程式和 Pixel 的 Home Status Widget 進行控制   

Google 的願景遠不止於數位介面。透過將 Gemini 整合到穿戴式裝置 (XR 眼鏡)、汽車和智慧家庭裝置中,並增強其多模態能力 (相機、音訊),Google 正在積極建立一個能夠即時感知、理解和與物理世界互動的 AI。這種「世界模型」方法旨在使 AI 真正無處不在且情境感知,將日常物理互動轉變為 AI 輔助體驗。這是一項戰略舉措,旨在抓住智慧型手機之後的下一波運算浪潮。

Google Beam:AI 驅動的 3D 視訊通訊

Project Starline 是 Google 用於遠端對話的 3D 視訊技術,現在正演變為一個名為 Google Beam 的新平台。它利用 AI 將 2D 視訊串流轉變為逼真、沉浸式的 3D 視訊通話 。Google 正與 Zoom 和 HP 合作,預計今年稍晚將首批 Google Beam 裝置推向市場,並計畫更廣泛地應用於企業   

AI 作為超真實數位存在的推動者。Google Beam 旨在利用 AI 從 2D 串流創建「逼真的 3D 視訊通話」。這項技術正透過與主要通訊和硬體公司 (Zoom、HP) 的合作推向市場。這表明 Google 不僅投資於生成內容,還投資於 AI 以增強人與人之間的通訊,使數位互動更具沉浸感和逼真性。這將 AI 定位為不僅是內容創建或任務自動化的工具,更是彌合物理距離和在虛擬環境中創造共享存在感的基礎技術,這可能改變遠端工作、教育和社交互動。

表:Gemini 模型家族:主要更新與功能

模型名稱主要優勢/優化上下文窗口新功能可用性/狀態
Gemini 2.5 Pro編碼、推理、學習、長上下文、影片理解100 萬個 token 原生音訊輸出、進階安全防護、電腦使用 (Project Mariner) 普遍可用,Deep Think 僅限受信任測試者
Gemini 2.5 Flash速度、效率、編碼、複雜推理、token 使用效率-原生音訊輸出、進階安全防護、電腦使用 (Project Mariner) Gemini 應用程式中普遍可用,Google AI Studio 和 Vertex AI 將於 6 月初普遍可用
Deep Think增強推理模式,用於高度複雜的數學和編碼,考慮多個假設。--2.5 Pro 的實驗性功能,透過 Gemini API 提供給受信任測試者
 

IV. 釋放創造力:用於內容創作的生成式 AI

進階媒體生成

Veo 3 是一個 AI 影片生成器,是首個能夠在影片創作中同步音訊(包括語音)的重大突破。它允許生成背景噪音、對話,並以角色、場景和風格的控制來製作電影般的影片 。它目前可供美國的 Gemini Ultra 訂閱者和 Vertex AI 的美國企業用戶使用   

Imagen 4 是最新的 Imagen 模型,在精細細節(例如織物、毛皮)方面具有卓越的清晰度,在寫實和抽象風格方面表現出色,並且在拼寫和排版方面顯著改進。它可以創建各種長寬比和高達 2K 解析度的圖像 。它在 Gemini 應用程式、Whisk 和 Vertex AI 中可用 。更快的「快速」版本即將推出   

透過 AI 使專業級內容創作普及化。透過 AI 使進階影片和圖像生成以及精細控制變得可訪問,Google 顯著降低了高品質內容創作的門檻。這可能會顛覆傳統媒體製作流程,賦予新一代創作者和小型企業製作專業級內容的能力,而無需廣泛的技術技能或昂貴的設備。這將價值主張從人工勞動轉向創意指導和提示工程。

AI 驅動的電影製作與音樂

Flow 是一款新的 AI 電影製作工具,由 Google DeepMind 的模型構建,允許用戶透過控制角色、場景和風格來製作電影般的影片。它提供攝影機移動和編輯現有鏡頭的選單 。它可供美國的 Google AI Pro 和 Ultra 方案訂閱者使用   

Music AI Sandbox 與 Lyria 2 的存取權限已於 4 月擴展。Lyria 2 帶來了強大的作曲和無限探索,現在可供 YouTube Shorts 的創作者和 Vertex AI 的企業使用。它可以安排豐富的人聲,聽起來像獨唱歌手或完整的合唱團 。Lyria RealTime 是一個互動式音樂生成模型,允許透過 Gemini API 進行即時音樂創作和表演   

AI 作為創意夥伴,而不僅僅是工具。Flow 提供「角色、場景和風格的控制」以及「攝影機移動的選單」。Lyria 2 提供「強大的作曲和無限探索」,並可以安排「豐富的人聲」。Google DeepMind 正與導演 Darren Aronofsky 的 Primordial Soup 合作,探索 AI 在故事敘述中的作用。這些工具旨在超越簡單的生成;它們提供精細的控制和互動功能,將 AI 定位為創意過程中的協作夥伴。這表明未來藝術家和創作者將利用 AI 來增強他們的願景,快速迭代,並探索新的創意途徑,而不是 AI 簡單地取代他們的工作。這突顯了向「AI 輔助創意」的轉變,其中人類的藝術意圖透過 AI 的生成能力得到放大。

內容真實性:用於識別 AI 生成內容的 SynthID Detector

SynthID Detector 是一個新的驗證入口網站,用於幫助檢測帶有 SynthID 浮水印的 AI 生成內容。它可以掃描圖像、音訊、影片或文字,並指示哪些部分可能帶有浮水印 。自推出以來,SynthID 已為超過 100 億條內容添加了浮水印 。該工具正在向早期測試者推出,並為記者、媒體專業人士和研究人員開放了等候名單   

Google 正在積極採取措施,負責任地開發 AI 並建立數位媒體的信任。Google 正在發布一個專門用於檢測 AI 生成內容的工具 (SynthID Detector)。該工具識別「帶有 SynthID 浮水印」的內容,這些浮水印已應用於「超過 100 億條內容」。該工具的存取權限正向「記者、媒體專業人士和研究人員」推出。此舉表明 Google 認識到在數位環境中區分真實內容和 AI 生成內容的日益嚴峻的挑戰。透過主動提供檢測工具並大規模為其自身的生成式 AI 輸出添加浮水印,Google 試圖在 AI 時代建立透明度和問責制的框架。這對於維護公眾對資訊和媒體的信任至關重要,並且為 AI 來源的行業標準樹立了先例,特別是考慮到深度偽造和合成媒體的快速發展。

表:生成式媒體工具:功能、可用性與目標受眾

工具名稱主要功能主要特色/突破可用性/狀態目標受眾/使用案例
Veo 3影片生成器首個支援同步音訊(含語音)的 AI 影片生成器,可控制角色、場景、風格。 美國 Gemini Ultra 訂閱者和 Vertex AI 企業用戶 電影製作、廣告、娛樂內容創作者
Imagen 4圖像生成器高解析度(高達 2K)、精細細節、寫實和抽象風格,顯著改善拼寫和排版。 Gemini 應用程式、Whisk 和 Workspace 中普遍可用 電子商務、視覺內容創作者、設計師
FlowAI 電影製作工具整合 AI 影片,提供攝影機移動、編輯和擴展鏡頭的控制。 美國 Google AI Pro 和 Ultra 訂閱者 電影製作人、影片編輯、多媒體創作者
Lyria 2音樂生成器強大作曲,無限探索,可安排豐富人聲。 YouTube Shorts 創作者和 Vertex AI 企業用戶 音樂製作人、內容創作者、遊戲開發者
SynthID DetectorAI 內容檢測檢測帶有 SynthID 浮水印的 AI 生成圖像、音訊、影片、文字。 早期測試者,記者、研究人員可申請等候名單 媒體專業人士、研究人員、內容驗證者
 

V. 賦能開發者:新的 AI 工具和平台

AI 增強編碼

Gemini Code Assist 現已普遍提供給個人和 GitHub 用戶,由 Gemini 2.5 提供支援。它提供進階編碼性能、聊天歷史記錄和執行緒。100 萬個 token 的上下文窗口將提供給 Vertex AI 上的標準和企業開發者   

Jules 是 Google 的自動編碼代理,現已向所有開發者開放公開測試版。Jules 可以非同步運作,處理錯誤積壓、同時處理多個任務,並首次嘗試建立新功能,直接與 GitHub 整合  

新的、更具代理能力的 Colab 將很快提供完全代理的體驗,在筆記本中執行操作、修復錯誤並根據用戶目標轉換程式碼   

這標誌著從編碼助理向自主編碼代理的轉變。Gemini Code Assist 是一個「編碼助手」,而 Jules 是一個「非同步編碼代理」,它可以在用戶工作時「為用戶編碼」,並「處理用戶不願處理的隨機任務」。Colab 也將很快「完全代理化」,在筆記本中「執行操作、修復錯誤和轉換程式碼」。這意味著 AI 將超越簡單的程式碼生成或自動完成。Google 正在朝著 AI 能夠自主理解、規劃和執行複雜編碼任務的方向發展,有效地成為「共同開發者」或「委託工程師」。這可以透過將繁瑣或重複的任務分流,極大地提高開發者的生產力,讓人類開發者專注於更高層次的架構設計、創新和問題解決。這也預示著 AI 代理管理整個開發工作流程的未來。

專業 AI 模型

MedGemma 是 Google 最強大的多模態醫學文本和圖像理解開放模型。它基於 Gemma 3,專為開發者建立醫療應用程式而設計,例如分析放射影像,其性能與更大的模型相似 。它可在 HuggingFace 和 Vertex Model Garden 上獲取   

SignGemma 是一個即將推出的開放模型,用於將手語(最適合美國手語到英語)翻譯成口語文本,為聽障用戶啟用新的應用程式   

Gemma 3n 是最新、快速高效的開放多模態模型,專為在手機、筆記型電腦和平板電腦上流暢運行而設計,處理音訊、文本、圖像和影片輸入 。它已在 Google AI Studio 和 Google Cloud 上初步推出   

PaliGemma 是一個新的視覺語言模型,專為圖像標註和視覺問答等任務而調整,對需要「看」和理解視覺資訊的應用程式很有幫助   

AI 模型的垂直化和可訪問性。Google 正在發布像 MedGemma(醫療保健)和 SignGemma(手語)這樣高度專業化的開放模型。Gemma 3n 專為在手機、筆記型電腦和平板電腦等裝置上執行而設計。這表明 Google 的戰略舉措是透過向更廣泛的開發者提供強大、專業化的模型,並針對特定、高影響力的用例,來實現 AI 的普及化。對「開放模型」和「裝置上」能力的關注,表明 Google 致力於培育一個生態系統,其中 AI 可以針對利基產業(醫療保健、可訪問性)進行客製化,並在消費硬體上高效運行,從而降低延遲和隱私問題。這與純粹以雲端為中心、通用 AI 方法形成對比。

簡化 AI 應用程式開發

Firebase Studio 是一個新的雲端 AI 工作區,可以在幾分鐘內建立全端 AI 應用程式。開發者可以將 Figma 設計變為現實,它會智慧地檢測應用程式何時需要後端,並自動配置它   

Stitch 是一個 AI 驅動的工具,可以從自然語言或圖像提示生成高品質的 UI 設計和相應的桌面和行動前端程式碼,允許對話式設計迭代和輕鬆匯出   

Android Studio 整合:

  • Journeys 允許開發者透過自然語言描述測試步驟,使用 Gemini 測試關鍵用戶旅程   
  • 版本升級代理即將推出,它將自動更新依賴項、解析發布說明、建置專案並修復錯誤    
  • 新的 Android AI 整合和工具學習路徑已發布    

Gemini API 增強功能:

  • Google AI Studio 是使用 Gemini API 建立的最快方式,利用 2.5 模型和新的生成式媒體模型。它將 2.5 Pro 整合到其原生程式碼編輯器中,並透過 GenAI SDK 進行優化,以從文本、圖像或影片提示生成網頁應用程式    
  • 非同步函數呼叫:將使長時間運行的函數或工具在後台呼叫,而不會阻塞主對話流程,從而實現更流暢的應用程式    
  • 電腦使用 API:允許開發者建立可以瀏覽網頁或根據指示使用其他軟體工具的應用程式    
  • URL 上下文:實驗性支援,用於從 URL 檢索完整的頁面上下文    
  • 模型上下文協議 (MCP) 支援:Gemini API 和 SDK 將支援 MCP,以便更容易地與開源工具整合    

加速 AI 應用程式開發生命週期。Google 正在系統性地解決 AI 應用程式開發生命週期中的瓶頸,從設計和後端配置到編碼、測試和部署。透過將 AI 注入開發者工具和平台本身,Google 旨在顯著縮短建立和迭代 AI 驅動應用程式所需的時間和精力。這項策略旨在透過使 Google 的生態系統成為 AI 開發最有效率的環境,來加速 Google AI 能力的採用。

表:主要 AI 開發者工具與 API:目的與可用性

工具/API 名稱核心功能/目的對開發者的主要好處可用性/狀態
Gemini Code AssistAI 編碼助手,用於個人和 GitHub 協作。提升編碼性能,提供聊天歷史和執行緒,支援 100 萬 token 上下文窗口。 普遍可用 (GA)
Jules非同步自動編碼代理,處理錯誤、多任務和新功能初步開發。提高開發者生產力,自動化繁瑣任務,直接與 GitHub 整合。 公開測試版 (Public Beta)
Firebase Studio雲端 AI 工作區,用於快速建立全端 AI 應用程式。簡化從 Figma 設計到全端應用的流程,自動配置後端。 新推出
StitchAI 驅動的 UI 設計工具,生成高品質 UI 設計和前端程式碼。從自然語言或圖像提示快速迭代設計,輕鬆匯出 CSS/HTML 或 Figma。 新推出
MedGemma多模態醫學文本和圖像理解的開放模型。專為醫療應用開發者設計,高效分析醫學影像和臨床數據。 可在 HuggingFace 和 Vertex Model Garden 上獲取
SignGemma將手語翻譯成口語文本的開放模型。實現聽障用戶的新應用和整合。 即將推出 (Upcoming)
Gemma 3n快速高效的開放多模態模型,可在裝置上運行。處理音訊、文本、圖像、影片輸入,適用於手機、筆記型電腦、平板電腦。 初步推出中
PaliGemma視覺語言模型,用於圖像標註和視覺問答。幫助應用程式理解視覺資訊。 新推出
非同步函數呼叫允許長時間運行的函數在後台呼叫,不阻塞主對話流程。實現更流暢、響應更快的應用程式。 新功能
電腦使用 API允許應用程式瀏覽網頁或使用其他軟體工具。擴展 AI 代理的能力,實現更複雜的自動化任務。 受信任測試者,今年稍晚更廣泛推出
URL 上下文檢索 URL 的完整頁面上下文。為 AI 提供更豐富的網頁資訊。 實驗性支援
MCP 支援Gemini API 和 SDK 支援模型上下文協議。簡化與開源工具的整合,促進代理應用程式開發。 新功能
   

VI. 更智慧的工作與生活:Google 產品中的 AI 整合

Google Workspace 增強功能

Gmail 中新的個人化智慧回覆將整合用戶情境和語氣,根據過去的電子郵件和雲端硬碟檔案草擬回覆 。這將於下個季度推出 。用戶可以提示 Gemini 在指定時間範圍內刪除來自特定發件人的電子郵件 。如果 Gemini 檢測到用戶在 Gmail 執行緒中嘗試安排會議,它將建議會議預訂時間 。Google Vids 現已向 Google AI Pro 和 Ultra 用戶提供    

Google 正在將 Workspace 中的 AI 輔助功能提升到主動、情境感知的自動化水平。Gmail 功能,例如個人化智慧回覆、收件箱清理和會議預訂建議,可以自動化常見任務。這些功能利用來自過去電子郵件、雲端硬碟和日曆的用戶情境。這旨在將 Workspace 從一套工具轉變為一個智慧、適應性強的生產力夥伴,透過處理日常管理任務來提高用戶效率。

智慧筆記與研究

Google 的 AI 筆記應用程式 NotebookLM 獲得了重大升級,包括生成文件影片摘要(即將推出)和靈活的音訊概覽功能 。NotebookLM 應用程式現已在 Play Store 和 App Store 上架    

Gemini 中的深度研究允許將公共網路數據的研究與私人 PDF 或上傳圖像結合。連接雲端硬碟或 Gmail 中的文件並自訂來源(例如學術文獻)的功能即將推出 。LearnLM 已整合到 Gemini 2.5 中,使其成為領先的學習模型,包括互動式測驗    

AI 作為知識合成和學習加速器。NotebookLM 可以將文件總結為影片和音訊概覽。深度研究可以將公共網路數據與私人文件(PDF、圖像、雲端硬碟、Gmail)結合,以生成全面的報告。LearnLM 整合到 Gemini 2.5 中,使其成為領先的學習模型,包括互動式測驗。Google 正將 AI 定位為知識工作者、研究人員和學生加速學習和資訊合成的強大工具。透過自動化複雜內容(文本、音訊、影片)的摘要,並實現公共和私人數據之間的交叉引用,AI 可以顯著減少研究和理解所需的時間。這將促進學習和知識管理的新範式,其中 AI 充當個人研究助理和導師。

即時通訊

Google Meet 中的語音翻譯功能現已推出測試版,可近乎即時地將口語翻譯成聽眾偏好的語言,同時保持語音品質和語氣。最初支援西班牙語到英語,更多語言即將推出    

AI 正在打破即時通訊中的語言障礙。Google Meet 現在提供近乎即時的語音翻譯,可保留語音品質和語氣。這項功能也在 Android XR 眼鏡上展示,用於即時對話。這代表著邁向真正全球化和無障礙通訊的重大一步。透過提供即時、自然發音的翻譯,Google 正在消除國際合作和個人互動中的最大障礙之一。這可能對全球商業、教育和社會連結產生深遠影響,使跨語言溝通更加流暢和包容。

AI 驅動的購物

虛擬試穿功能允許用戶上傳自己的照片,虛擬試穿數十億件服裝商品 。代理結帳功能允許用戶追蹤產品價格,並在價格降至其預算範圍時由 AI 代理自動完成購買    

Google 正在利用 AI 使線上購物變得更加個人化、高效和便利。虛擬試穿解決了線上服裝零售的一個主要痛點(合身度和外觀),可能會減少退貨。代理結帳將被動的價格監控轉變為主動、自動化的購買。這表明未來 AI 將處理購物的繁瑣方面,讓用戶專注於發現和決策,並可能將品牌忠誠度轉移到提供這些無縫 AI 驅動體驗的平台。

VII. 存取與貨幣化:Google AI 訂閱方案

Google AI Ultra 與 AI Pro

Google AI Ultra 是一個新的高級 AI 訂閱方案,每月定價 249.99 美元(首次用戶前三個月可享 50% 折扣)。它提供最高的用量限制,可存取 Google 最強大的模型(例如帶有 Deep Think 的 Gemini 2.5 Pro)、搶先體驗實驗性 AI 產品(例如 Project Mariner、Veo 3),以及 30 TB 儲存空間和 YouTube Premium 。目前已在美國推出,更多國家即將推出    

Google AI Pro(以前稱為 AI Premium)每月費用為 19.99 美元,包含 Google 的全套 AI 產品,與免費版本相比,具有更高的用量限制和特殊功能,包括 Gemini 應用程式(進階版)、Flow、NotebookLM 和 Chrome 中的 Gemini    

分層 AI 存取反映了價值和運算成本。Google 提供免費 AI 功能、每月 20 美元的 AI Pro 方案和每月 250 美元的 AI Ultra 方案。Ultra 方案提供「最高用量限制」和「搶先體驗即將推出的實驗性 AI 產品」。Sundar Pichai 表示,Google 旨在「以最有效的價格點提供最佳模型」。Google 根據用戶需求及其最先進模型的底層運算成本,明確劃分了其 AI 產品。AI Ultra 的高價位(每月 250 美元)表明運行像帶有 Deep Think 的 Gemini 2.5 Pro 這樣的前沿模型,以及使用 Veo 3 生成高傳真媒體,是運算密集且昂貴的。這種分層方法允許 Google 將其尖端研究和開發貨幣化,同時仍提供廣泛的免費和經濟實惠的 AI 功能,以維持其龐大的用戶基礎和競爭優勢。這也表明最先進的 AI 功能目前是針對高階用戶和早期採用者的付費產品。

免費 AI 功能

許多重要的 AI 功能仍然免費,包括搜尋中的核心 AI 模式(美國推出)、Gemini Live(Android/iOS)、Imagen 4(Gemini 應用程式/Whisk/Workspace)、個人化 Gmail 智慧回覆(下個季度推出),以及 Jules 編碼代理(測試版,預計未來會收費)。特定國家的大學生可以免費獲得一學年的 Gemini 升級    

在貨幣化與生態系統鎖定之間取得平衡。儘管推出了高價訂閱,許多核心 AI 功能,包括搜尋中的基礎 AI 模式和 Gemini Live,仍然免費。Google 的商業模式歷來依賴免費服務的廣告收入。Google 正在仔細平衡其先進 AI 的貨幣化策略與其提供免費、廣泛可訪問服務的長期方法。透過保持核心 AI 功能免費,Google 旨在推動大規模用戶採用,收集有價值的數據,並深化用戶在其生態系統中的參與度。這種「免費層級作為誘餌」的策略確保 Google 的 AI 保持競爭力,並繼續收集改進模型所需的大量數據,同時高級功能則作為高階用戶和企業的增值銷售。目標是將 AI 深入嵌入日常生活中,讓用戶依賴 Google 的 AI 驅動生態系統。

表:Google AI 訂閱方案:功能與定價比較

方案名稱每月價格包含的主要 AI 模型/功能用量限制/存取權限額外福利可用性/狀態
免費版免費核心 AI 模式 (搜尋,美國)、Gemini Live (Android/iOS)、Imagen 4 (Gemini app/Whisk/Workspace)、基本 Gmail 智慧回覆、Jules (Beta) 標準用量限制-普遍可用
Google AI Pro$19.99Gemini (進階版)、Flow、NotebookLM、Chrome 中的 Gemini 更高用量限制2TB 雲端儲存空間 普遍可用
Google AI Ultra$249.99 (前三個月 50% 折扣) Gemini 2.5 Pro (含 Deep Think)、Project Mariner、Veo 3、最高用量限制 (所有 AI 產品) 最高用量限制,搶先體驗實驗性 AI 產品 30TB 儲存空間、YouTube Premium 美國已推出,更多國家即將推出
   

VIII. AI 促進科學、研究與社會影響

推進醫療保健

MedGemma 是 Google 最強大的多模態醫學文本和圖像理解開放模型,專為開發者建立醫療應用程式而設計,例如分析放射影像或總結臨床數據    

AMIE 是一個用於醫療診斷對話的研究 AI 代理,由 Google DeepMind 開發。新的多模態版本可以智慧地解釋和推理視覺醫學資訊,以幫助臨床醫生獲得更準確的診斷    

AI 作為科學突破和專業領域知識的催化劑。Google 宣布了專門用於醫療保健的 AI 模型 (MedGemma) 和代理 (AMIE),能夠進行多模態醫學文本和圖像理解以及診斷對話。AI 時代的科學會議強調了 AI 在「加速基因組學數據分析、增強藥物發現流程和轉變醫學患者護理」中的作用 。Google 正在積極投資 AI,以加速科學發現並解決複雜的社會挑戰,特別是在醫療保健等高風險領域。這將 AI 從通用應用程式轉移到深度領域知識至關重要的專業垂直市場。這預示著 AI 作為強大的「共同科學家」或「診斷助理」的未來,它將增強人類專家的能力,並可能導致醫學和其他科學領域的更快突破。   

學習與教育

LearnLM 是一個為學習而微調的模型家族,現已直接在 Gemini 2.5 中提供,使其成為全球領先的學習模型。它在學習科學原則方面優於其他模型,並受到教育工作者的青睞,具有先進的 STEM 推理、多模態理解以及測驗/評估功能    

Google Research 幫助設計和優化了 Gemini 中的新測驗體驗,學生(18 歲以上)可以根據他們的筆記或文件創建自訂測驗,並獲得回饋和解釋    

AI 正在推動個人化和適應性學習。LearnLM 整合到 Gemini 2.5 中,並被定位為「全球領先的學習模型」,受到教育工作者的青睞。Gemini 可以根據用戶筆記創建「自訂測驗」並提供「回饋和解釋」。Google 正在利用 AI 透過提供高度個人化和適應性學習體驗來徹底改變教育。LearnLM 對學習科學原則的深入理解使 Gemini 能夠充當智慧導師,根據個別學生的需求和學習風格量身定制內容、評估和回饋。這可能導致更有效和引人入勝的教育成果,使個人化學習支援的機會普及化。

突破性研究

AI 共同科學家是一個基於 Gemini 的多代理系統,旨在作為科學家的協作工具,協助創建新的假設和研究提案,加速生物醫學發現    

量子 AI 方面,討論了量子糾錯和 Willow 晶片方面的進展,強調了量子晶片如何在幾分鐘內完成超越經典電腦的計算,在藥物發現和能源效率方面具有潛在應用    

FireSat 是 Google Research 與其他組織合作開發的衛星星座,利用高解析度多光譜衛星影像和 AI 實現更早、更準確的全球野火檢測  

地理空間推理計劃則用於公共衛生、城市規劃和氣候科學 。神經科學方面,LICONN 是一種使用光學顯微鏡繪製腦組織中神經元和連接的方法,而斑馬魚活動預測基準 (ZAPBench) 用於研究整個脊椎動物大腦的結構連接和神經活動 。基因組學方面,REGLE 是一種無監督深度學習模型,用於發現與遺傳變異的關聯,新的 DeepVariant 模型作為個性化泛基因組參考合作的一部分開源,以減少不同血統基因組分析中的錯誤    

AI 作為基礎科學研究和全球挑戰的倍增器。Google Research 積極參與 AI 共同科學家、量子 AI、FireSat 以及基因組學、神經科學和地理空間推理等領域的專案。這些專案解決了藥物發現、氣候變化(野火)和對大腦的基本理解等複雜挑戰。Google 對 AI 的承諾超越了商業應用,延伸到基礎科學研究和解決全球挑戰。透過將先進的 AI(包括量子 AI)應用於複雜的數據集和科學問題,Google 旨在加速發現的步伐並為緊迫的社會問題提供解決方案。這將 Google 定位為利用 AI 造福公共利益並推進人類知識前沿的關鍵參與者。

IX. 策略展望與未來影響

Google 對「世界模型」和通用 AI 助理的願景

Google 的未來願景是創建一個通用 AI 助理,該助理將具備代理能力,理解個人情境並能夠在任何裝置上執行任務 。Gemini 2.5 Pro 被設想為一個能夠規劃、創建新體驗和模擬世界的「世界模型」。Project Astra 的更新(自然語音輸出、改進的記憶、電腦控制)是邁向這個通用助理的步驟,最終將應用於 Gemini Live、搜尋和 Android XR 眼鏡    

AI 作為生活的作業系統。多個內容片段中一致傳達的訊息指向一個「通用 AI 助理」和「世界模型」。這個助理旨在「個人化、主動且強大」,理解情境並「代表用戶在任何裝置上」採取行動。Google 的最終戰略目標不僅是建立更好的 AI 功能,而是讓 AI 成為滲透和協調用戶數位和實體生活各個方面的隱形智慧層。這種「生活作業系統」的願景預示著未來 AI 將處理日常任務、預測需求,並在所有裝置和情境中提供無縫協助,從個人通訊到專業工作流程,甚至與實體環境的互動。這是一項雄心勃勃的長期策略,旨在實現最終的用戶參與度和數據利用。

競爭格局與 Google 在 AI 競賽中的地位

Google 正在抵禦來自 OpenAI 等競爭對手的日益激烈的競爭 。搜尋中 AI 模式的公開發布被視為對 ChatGPT 的直接回應 。Google 與 Harvey(法律 AI 工具)的合作表明其競爭優勢以及吸引重要合作夥伴脫離 OpenAI 獨家使用的能力 。Google 正在利用其廣泛的用戶數據,使其 AI 模型相對於 OpenAI 和 Anthropic 具有優勢    

數據護城河和生態系統整合是關鍵的差異化因素。Google 明確表示正在利用其「廣泛的用戶數據,使其 AI 模型相對於 OpenAI 和 Anthropic 具有優勢」。AI 深度整合到 Google 龐大的產品套件(搜尋、Android、Workspace、Home、Chrome)中是一個反覆出現的主題。Google 正在將 AI 功能從 Labs 轉移到核心產品中,以實現大眾採用。雖然 OpenAI 等競爭對手可能在特定模型能力或病毒式應用方面領先,但 Google 的戰略優勢在於其對數十億裝置和服務中多樣化、真實世界用戶數據的無與倫比的存取權。這些數據構成了訓練和完善其 AI 模型的強大「護城河」,實現了純 AI 公司難以複製的個人化和情境理解水平。透過將 AI 深度整合到其現有、廣泛使用的產品中,Google 旨在創建一個黏性強、自我強化的生態系統,其中 AI 改進帶來更好的產品體驗,進而產生更多數據以進一步完善 AI,從從而鞏固其在 AI 競賽中的主導地位。

關鍵趨勢、挑戰與未來機遇

趨勢: 代理式 AI、多模態、個人化、AI 驅動的內容創作、AI 促進科學發現、裝置端 AI。

挑戰:

  • 貨幣化與免費存取: 平衡先進 AI 的高成本與用戶對免費服務的期望    
  • 隱私與數據使用: 整合個人情境引發了對用戶數據的擔憂,需要明確的同意機制    
  • AI 幻覺與事實準確性: 需要強大的基礎和引用,如深度搜尋和事實一致性研究所示    
  • 道德 AI 開發: 負責任地推出前沿模型如 Deep Think,強調安全評估    
  • 採用與用戶行為改變: 將用戶從傳統搜尋習慣轉移到 AI 模式和代理互動    

機遇:

  • 新商業模式: 代理商務、AI 即服務訂閱。
  • 產品創新: AI 優先硬體 (Android XR)、變革性通訊 (Google Beam)。
  • 社會影響: 加速科學研究、個人化教育、可訪問性解決方案。
  • 開發者生態系統增長: 新工具和 API 促進充滿活力的 AI 開發者社群。

倫理要求和信任是下一個競爭戰場。Google 明確提到 Gemini 2.5 的「進階安全防護」和新的安全方法。Deep Think 正在謹慎地向「受信任的測試者」推出,並進行「額外的前沿安全評估」。SynthID Detector 的引入旨在識別 AI 生成的內容。個人情境整合強調用戶控制和同意。Google 認識到 AI 的廣泛採用,特別是代理式和高度個人化的 AI,取決於用戶的信任。對安全性、前沿模型的安全評估、內容來源(SynthID)以及用戶對個人數據的控制的強調,表明 Google 正在積極應對先進 AI 帶來的倫理和社會挑戰。建立和維護這種信任將是一個關鍵的競爭差異化因素,因為用戶和監管機構越來越關注 AI 的潛在濫用、偏見和隱私影響。在 AI 領域取得長期成功的關鍵在於信任度與能力同樣重要。

留言

作者簡介

小黑老師頭像
作者|邱煜庭(小黑老師)
《燒賣研究所》首席顧問・數位行銷講師・電商策略設計師
➜ 前往 Facebook 專頁

小黑老師專注於協助品牌走出廣告依賴、建立能獨立成長的行銷系統。過去十餘年,他從企業內部的行銷企劃做起,到成為中國百腦匯行銷經理、uitox 電商集團總監,最終與《燒賣研究所》培養數千名行銷人才。他的文章與教學,並非分享心得,而是來自顧問現場與超過百場企業授課的實戰方法。

ThinkWithBlack 的所有內容延伸自其「BTB電商結構學」與「Facebook 廣告成效攻略」課程邏輯,若你想了解更完整的策略設計,歡迎關注他的社群或參與課程。

這個網誌中的熱門文章

AI Overviews是什麼 | Google AI Overviews 時代下台灣電商搜尋引擎行銷(PPC+SEO)策略佈局參考報告

即使只賣 200 元商品,也該搭漏斗:一層引對人,二層講得通,三層留下來打造長期營收

你會寫 PRD,卻還做不出 MVP?這篇 vibe coding 工具指南寫給懂 AI 的產品人