Home 科技 蘋果正在研究相似聲音組以加速語音生成

蘋果正在研究相似聲音組以加速語音生成

9

蘋果和特拉維夫大學的研究人員團隊找到了一種使用人工智能加速文本到語音轉換的方法,同時又不犧牲清晰度。他們是這樣做的。

一種有趣的新方法來更快地生成語音

在一篇題為“推測語音解碼的基本粗略接受”的新論文中,蘋果研究人員詳細介紹了一種從文本生成語音的有趣方法。

儘管目前有多種從文本生成語音的方法,但研究人員主要關註一次生成一個語音標記的自回歸文本到語音模型。

如果您曾經研究過大多數大型語言模型的工作原理,您可能會熟悉自回歸模型,該模型根據所有先前的標記來預測下一個標記。

自回歸語音生成通常以類似的方式工作,只不過標記是音頻片段而不是單詞或字符。

雖然這是從文本生成語音的有效方法,但這種方法也會造成處理瓶頸,正如蘋果研究人員解釋的那樣:

然而,對於生成聲學標記的語音法學碩士來說,精確的標記映射過於嚴格:許多離散標記在聲學或語義上是可互換的,從而降低了採用率並限制了加速。

換句話說,自回歸語音模型可能過於嚴格,經常拒絕相當好的預測,僅僅是因為它們與模型期望的確切標記不匹配。這反過來又減慢了一切。

輸入主要粗糧 (PCG)

簡而言之,蘋果的解決方案基於這樣的假設:許多不同的令牌可以產生幾乎相同的聲音。

考慮到這一點,蘋果將聽起來相似的語音標記分組,從而創建了更靈活的驗證步驟。

換句話說,蘋果的方法不是將每種可能的聲音視為完全獨立的,而是允許模型接受屬於同一通用“聲學相似性”組的標記。

事實上,PCG 由兩個模型組成:一個較小的模型,用於快速提出語音標記;另一個較大的評分模型,用於在接受這些標記之前檢查這些標記是否屬於正確的聲學組。

其結果是一個框架,將推測性解碼 (SD) 概念應用於生成聲學標記的法學碩士,從而加快語音生成,同時確保清晰度。

說到結果,研究人員表明,PCG 將語音生成量提高了約 40%,考慮到將標準推測解碼應用於語音模型,速度幾乎沒有提高,這是一個顯著的進步。

與此同時,PCG 使單詞錯誤率低於以前以速度為中心的方法,保留了說話者的相似性,並通過實現 4.09 的自然度分數(自然語音聽起來如何的標准人類評分為 1-5)而優於以前以速度為中心的方法。

在一項壓力測試(組內令牌替換消融)中,研究人員將 91.4% 的語音令牌替換為來自同一聲學組的替代品,聲音仍然保持不變,僅單詞錯誤率增加 +0.007,說話人相似度下降 -0.027:

PCG 在實踐中意味著什麼

雖然該研究沒有討論其研究結果對蘋果產品和平台的實際意義,但該方法可能與未來需要平衡速度、質量和效率的語音功能相關。

值得注意的是,這種方法不需要訓練目標模型,因為它改變了解碼時間。換句話說,這是一種可以在推理時應用於現有語音模型的調整,而不需要重新訓練或架構更改。

此外,PCG 需要最少的額外資源(僅需要約 37 MB 的內存來存儲聲學相似性組),因此非常適合在內存受限的設備上部署。

要了解有關 PCG 的更多信息,包括有關數據集的詳細技術細節和有關估計方法的更多信息,請點擊此鏈接。

亞馬遜上的配飾優惠

FTC:我們使用自動會員鏈接來產生收入。 更多的。

來源連結

LEAVE A REPLY

Please enter your comment!
Please enter your name here