谷歌今天發布了最新版本 Gemini 2.5 Flash 原生音頻。除了用於實時耳機翻譯的 Google Translate 之外,AI Mode 的 Search Live 也能做到這一點 好處 從這些模型升級中。
與上個月的 Gemini Live 一樣,Search Live 的答案現在將“比以往更輕鬆、更具表現力”。這包括更自然的聲音以及僅根據請求減慢響應速度的能力。
Gemini 2.5 Flash Native Audio 將於下周向所有美國 Search Live(Android + iOS)用戶推出。
今天的更新也可供構建實時語音代理的第三方開發人員使用。與之前的版本相比,有以下三點改進:
- 更嚴格的函數調用: 我們提高了模型在啟動外部函數時的可靠性。現在,它可以更準確地識別何時在對話中獲取實時信息,並無縫捕獲音頻響應中的數據,而不會中斷流程。
- 以下是可靠的指南: 該模型現在可以更好地處理複雜的指令,從而提高用戶對內容完整性的滿意度。它對開發人員說明的遵守率為 90%(從 84% 上升),可提供更可靠的輸出。
- 溫和的對話: 我們在多輪訪談的質量方面取得了顯著進步。 Gemini 2.5 Flash Native Audio 能夠更有效地恢復前幾輪的上下文,從而創建更有凝聚力的對話。
另一個升級是支持直接語音到語音翻譯。正如今天的谷歌翻譯更新所示,Gemini 可以“在兩種語言之間實時翻譯”,根據說話者自動切換輸出語言。
例如,如果您說英語並想與說印地語的人聊天,您會在耳機上聽到實時英語翻譯,並且當您通話結束時,您的手機會播放印地語。
值得注意的是,生成的翻譯保留了說話者的語調、節奏和語氣,同時濾除環境噪音。它支持自動語言檢測和多語言輸入。
支持 70 種語言和 2000 多種語言對,“將 Gemini 模型的世界知識和多語言功能與其原生音頻功能相結合”。


FTC:我們使用附屬鏈接來賺取收入。 更多的











