Google 發表全新 AI 工具:可創作音樂、複製聲音並解碼對話內容

在 2025 年的 Cloud Next 大會上,Google 正式發表其第七代張量處理單元(TPU)「Ironwood」,同時推出一系列人工智慧模型,宣示邁入「推論時代」——不僅回應需求,更能預測並主動思考。

AI 音樂創作與語音克隆技術進化

其中備受關注的是 Google 新一代的音樂生成模型 Lyria,目前已進入企業預覽階段。透過簡單的文字提示,Lyria 能夠在數分鐘內創作出高音質、具風格多樣性的音樂,適用於各類內容的配樂製作,不需擔心版權問題。Google 表示:「Lyria 消除了過去音樂創作中的種種障礙,讓用戶能輕鬆創建符合情緒、節奏與故事性的音軌。」Lyria 將率先提供給 Google Cloud 的企業用戶使用。

此外,升級版音訊模型 Chirp 3 現已支援超過 35 種語言的高解析語音合成功能,並能僅透過 10 秒音檔便完成聲音克隆,展現驚人的精準度。

另一項語音技術的進步,是多講者語音分離的文字轉錄功能,特別適用於客服中心與播客等場景。Google 表示:「AI 現在能辨識不同講話者,並能將 AI 敘述聲音無縫整合至現有錄音中,同時提供可分辨說話者的轉錄能力。」

重視倫理與安全性,確保 AI 負責任使用

為了確保這些語音技術不被濫用,Google 推出的 Instant Custom Voice 工具內建多重安全機制,並採取嚴格的驗證流程,確保用戶擁有合法的語音使用授權。

在生成式內容的透明度方面,DeepMind 推出的 SynthID 技術也同步升級,未來由 Google 創意模型產生的所有圖像、影片與音訊都將自動加入數位浮水印,確保內容可追溯並符合倫理規範。

Gemini 模型推動真實應用場景

除了創作工具外,Google 亦發表 Gemini 2.5 Flash 模型,針對需要快速反應與成本敏感的應用場景進行優化,例如客服系統等。此模型具備可變思考時間的能力,能依任務複雜度自動調整反應速度,亦可由用戶手動設定準確性、速度與成本之間的平衡,滿足多元商業需求。

透過這一系列創新,Google 正加快推動 AI 應用進入實務領域,強調效率、創造力與責任使用並行的發展方向。

Releated