你可能無法區分真實的人類聲音和人工智慧克隆,而且你並不是唯一一個陷入困境的人。但這是令人驚奇的部分。不管怎樣,你的大腦已經開始弄清楚其中的差異了。
天津大學和香港中文大學的研究人員測試了 30 名聽眾檢測人工智慧生成語音的能力,結果令人震驚。
參與者始終無法區分真實的聲音和合成的聲音,即使在經過旨在幫助他們提高的簡短培訓課程之後也是如此。然而,當科學家檢查腦電圖(EEG)帽的神經記錄時,他們發現了表面之下發生的其他事情。音頻系統安靜地完成了它的工作。
大腦會聽到你錯過的東西
這項發表在 eNeuro 上的研究使用了真人所說的句子以及兩種類型的人工智慧聲音。一組是基本的合成語音,另一組經過微調,聽起來更人性化。
聽眾按下按鈕來猜測每個聲音是真是假,但都錯了。很多。但監測神經活動的腦電圖帽講述了一個更有趣的故事。
經過短短 12 分鐘的訓練,這些神經反應就開始分離。大腦在聽到聲音後約 55 毫秒、210 毫秒和 455 毫秒這三個不同時間開始對合成語音進行不同的標記。這些是處理的早期階段,早在有意識的思想進入畫面之前。
因為你的耳朵位於你的大腦之前
您面臨感知和決策之間的差距。你的聽覺系統正在拾取人工智慧聲音中微妙的音頻指紋,但它尚未將這些訊號連接到你大腦中的「這是假的」按鈕。
研究人員發現聲音中實際的身體差異可以解釋這種脫節。聲學分析表明,真實語音和人工智慧語音的調製範圍為 5.4 至 11.7 Hz,該頻段與我們的大腦如何追蹤快速語音細節(例如音素和音節起始)相關。人工智慧的聲音,即使是那些聽起來極其自然的聲音,顯然也無法完美地適應這些微小的變化。然而。
這對於深度造假詐騙意味著什麼?
這項研究帶來了真正的好消息。這意味著人們對聲音克隆騙局並非束手無策,而且生物材料也能正常運作。我們只需要學習如何使用它。
未來的工具可以教導人們傾聽大腦已經偵測到的特定線索。我們可能會得到有針對性的培訓計劃,幫助將神經感知與有意識的決策聯繫起來,而不是像「小心」這樣的一般建議。數據就在那裡,線索就在那裡,現在就是將這些點連結起來。
就目前而言,外送令人奇怪地放心。你的大腦比你想像的更努力工作,並且已經在適應人工智慧的聲音,即使你的意識還沒有意識到這一點。










