當人們面對面說話時,幾乎一半的注意力都會被嘴唇的動作所吸引。然而,機器人很難可信地移動他們的嘴。即使是最先進的人形機器也依賴於僵硬、誇張的嘴巴動作,就像木偶一樣,假設它們有一張臉。
人類非常重視面部表情,尤其是嘴唇的細微動作。雖然笨拙的行走或笨拙的手勢可以原諒,但即使是面部動作的小錯誤也會立即被注意到。這種敏感性導致了科學家所說的“恐怖谷”現象,在這種現像中,機器人看起來比生命更令人不安。嘴唇運動不佳是機器人看起來怪異或情緒平淡的主要原因之一,但研究人員表示,這種情況很快就會改變。
一個學會移動嘴唇的機器人
1 月 15 日,哥倫比亞工程學院的一個團隊宣佈在人形機器人技術方面取得重大突破。研究人員首次製造了一個可以學習面部嘴唇運動來說話和唱歌的機器人。他們的研究結果發表於 科學機器人展示機器人用各種語言形成單詞,甚至表演人工智能創作的第一張專輯《hello world_》中的歌曲。
機器人不依賴預先設定的規則,而是通過觀察來學習。他開始探索如何使用 26 個獨立的電機來控制自己的面部。為了做到這一點,他對著鏡子進行反思,然後研究人類的言語和 YouTube 上數小時的歌唱視頻,以了解人們如何移動嘴唇。
“我們與人類的互動越多越好,”機械工程系詹姆斯和莎莉·斯卡帕創新教授、哥倫比亞大學創意機器實驗室主任霍德·利普森 (Hod Lipson) 說,該實驗室是這項研究的進行地。
請參閱下面的“口型同步機器人”視頻鏈接。
機器人看到自己在說話
由於兩個主要原因,在機器人中創建看起來自然的嘴唇運動特別困難。首先,它需要先進的硬件,包括柔性表面材料和許多必須安靜且完美協調運行的小電機。其次,嘴唇運動與語音密切相關,語音變化迅速且依賴於復雜的音素序列。
人臉由位於光滑皮膚下方的數十塊肌肉控制,使言語動作自然流暢。然而,大多數人形機器人都有僵硬的面孔,運動有限。嘴唇的動作通常是由固定的規則決定的,這會導致表情機械且不自然,讓人感覺尷尬。
為了應對這些挑戰,哥倫比亞團隊設計了一個帶有大量電機的靈活機器人面部,使機器人能夠自行學習面部控制。機器人站在鏡子前,開始試驗數千種隨機面部表情。就像一個孩子探索它的倒影一樣,這些運動一點一點地創造出特定的面部形狀。這個過程基於研究人員所說的“視圖到行動”語言模型(VLA)。
從人類語言和歌曲中學習
在了解了它的面部工作原理後,他們向機器人展示了它說話和唱歌的視頻。人工智能係統可以看到嘴形如何隨著不同的聲音而變化,從而使其能夠將音頻輸入直接與運動運動相匹配。通過自學習和人類觀察的結合,機器人可以將聲音轉換為同步的嘴唇運動。
研究團隊在各種語言、演講風格和音樂示例上測試了該系統。即使不理解音頻的含義,機器人也能夠隨著聽到的聲音移動嘴唇。
研究人員承認,結果並非沒有錯誤。 “我們在發音‘B’這樣的硬音和‘W’這樣的唇裂音時遇到了特別困難。但這些技能會隨著時間和練習而提高,”利普森說。
超越口型同步到真正的交流
研究人員強調,口型同步只是更廣泛目標的一部分。他們的目標是為機器人提供更豐富、更自然的與人交流的方式。
“當口型同步功能與 ChatGPT 或 Gemini 等對話式人工智能相結合時,這種效果會為機器人的人與人之間的聯繫增添新的深度,”領導這項研究的博士生胡宇航 (Yuhang Hu) 說。 “機器人看到人類說話的次數越多,它就越能更好地模仿我們可以在情感上聯繫起來的面部表情的細微差別。”
“對話上下文窗口越長,這些手勢就越上下文敏感,”胡補充道。
面部表情是缺失的一環
研究小組認為,通過面部表達情感代表了當前機器人技術的一個主要差距。
利普森說:“當今的仿人機器人大多專注於腿部和手部的運動,以進行行走和抓握等活動。” “但對於任何涉及人類互動的機器人應用來說,面部表情同樣重要。”
利普森和胡預計,隨著人形機器人進入娛樂、教育、醫療保健和老年護理領域,逼真的面部表情將變得越來越重要。一些經濟學家認為,未來十年將生產超過十億個人形機器人。
“當所有這些人形機器人都沒有面孔時,就沒有未來。而當它們最終有了面孔時,它們將不得不正確地移動它們的眼睛和嘴唇,否則它們將永遠變得怪異,”利普森說。
“我們人類就是這樣連接的,我們無法堅持下去。我們即將跨越恐怖谷,”胡補充道。
風險和負責任的進展
這項工作建立在利普森長期努力的基礎上,旨在幫助機器人通過學習微笑、目光接觸和言語等面部行為來與人建立更自然的關係。他說,這些技能應該通過觀察來學習,而不是通過嚴格的指導來編程。
“當機器人通過看到和聽到人類來學習微笑或說話時,神奇的事情就會發生,”他說。 “我是一個疲憊的機器人專家,但我無法停止對一個對我微笑的機器人微笑。”
胡指出,人臉仍然是最強大的交流工具之一,科學家們才剛剛開始了解它的工作原理。
胡說:“具有這種能力的機器人顯然將具有更好的與人類聯繫的能力,因為我們交流的很大一部分涉及面部肢體語言,而整個渠道尚未開發。”
研究人員還承認,創造能夠與人類進行情感聯繫的機器會帶來倫理問題。
“這將是一項強大的技術。我們必須緩慢而謹慎地進行,這樣我們才能在最大程度地降低風險的同時獲得收益,”利普森說。










