Google 發表全新 AI 工具：可創作音樂、複製聲音並解碼對話內容

10 4 月 2025

290

在 2025 年的 Cloud Next 大會上，Google 正式發表其第七代張量處理單元（TPU）「Ironwood」，同時推出一系列人工智慧模型，宣示邁入「推論時代」——不僅回應需求，更能預測並主動思考。

AI 音樂創作與語音克隆技術進化

其中備受關注的是 Google 新一代的音樂生成模型 Lyria，目前已進入企業預覽階段。透過簡單的文字提示，Lyria 能夠在數分鐘內創作出高音質、具風格多樣性的音樂，適用於各類內容的配樂製作，不需擔心版權問題。Google 表示：「Lyria 消除了過去音樂創作中的種種障礙，讓用戶能輕鬆創建符合情緒、節奏與故事性的音軌。」Lyria 將率先提供給 Google Cloud 的企業用戶使用。

此外，升級版音訊模型 Chirp 3 現已支援超過 35 種語言的高解析語音合成功能，並能僅透過 10 秒音檔便完成聲音克隆，展現驚人的精準度。

另一項語音技術的進步，是多講者語音分離的文字轉錄功能，特別適用於客服中心與播客等場景。Google 表示：「AI 現在能辨識不同講話者，並能將 AI 敘述聲音無縫整合至現有錄音中，同時提供可分辨說話者的轉錄能力。」

重視倫理與安全性，確保 AI 負責任使用

為了確保這些語音技術不被濫用，Google 推出的 Instant Custom Voice 工具內建多重安全機制，並採取嚴格的驗證流程，確保用戶擁有合法的語音使用授權。

在生成式內容的透明度方面，DeepMind 推出的 SynthID 技術也同步升級，未來由 Google 創意模型產生的所有圖像、影片與音訊都將自動加入數位浮水印，確保內容可追溯並符合倫理規範。

Gemini 模型推動真實應用場景

除了創作工具外，Google 亦發表 Gemini 2.5 Flash 模型，針對需要快速反應與成本敏感的應用場景進行優化，例如客服系統等。此模型具備可變思考時間的能力，能依任務複雜度自動調整反應速度，亦可由用戶手動設定準確性、速度與成本之間的平衡，滿足多元商業需求。

透過這一系列創新，Google 正加快推動 AI 應用進入實務領域，強調效率、創造力與責任使用並行的發展方向。

Google 發表全新 AI 工具：可創作音樂、複製聲音並解碼對話內容

近期文章

新推出的 tiny11 core：小巧版 Windows 11，僅有 2GB 的 ISO 大小！

Prophecy Games 推出《Tribes 3 Rivals》：11 月底 PC 測試即將開始！

数字化转型：交通银行助推供应链金融场景化服务

AMD Ryzen 5 8600G 即將推出：配備 760M GPU 和 8 CU，主頻極速達到 5GHz

iPhone 16曝光！鏡頭配置回歸iPhone 12風格

2024年新台幣兔年結束，匯率貶值3.16%，展現出偏升的趨勢。

Adobe Photoshop 如何改變了 34 年前的照片編輯方式？

所有類別