第一個公共日本對話系統AI可以同時講話和聆聽
Higashinaka實驗室正在開發旨在與人類運營商合作的AI-Human對話系統。作為他在Nifrel Aquarium的研究的一部分,在大阪部署了一個指南機器人,以回答遊客對海洋生物的問題。人類操作員可以乾預以幫助解決複雜問題。學分:納戈伊大學Khigashinak實驗室。帶到大阪的尼弗雷爾水族館
如人們所說,您如何開發一個完美模仿的AI系統?日本納吉大學的研究人員向前邁出了一大步,以實現這一目標。他們創造了 J-Moshi第一個公共AI系統,專為日本對話模型設計。
J-Moshi捕捉了日本對話的自然流,該對話通常具有簡短的口頭答案,稱為“ Aizuchi”,日本運營商在對話中使用的是,以表明他們正在積極傾聽和做。諸如“ su -de -no”(這是正確的)和“ nargeted”(我看到)之類的響應量比英語中的類似答案更頻繁。
傳統的AI使用Aizuchi遇到困難,因為他不能同時講話和傾聽。這種可能性對於具有自然聲音的日本AI對話尤為重要。因此,J-Moshi在認識並欣賞其自然對話模式的日本演講者中非常受歡迎。

Khigashinak教授(在右邊)和他的團隊合作開發了人形機器人的開發,這些機器人結合了語音,手勢和運動,以便與人自然溝通。學分:納戈伊大學的Khigashinaka實驗室
創建日本摩西模型
由Higashinaka實驗室研究生院的研究人員領導的開發人員團隊建立了J-Moshi,並改編了由Kyutai非營利性實驗室創建的Moshi英語模型。該過程花費了大約四個月的時間,包括使用幾個日本語音數據集中的系統培訓。有一項研究 出版 在 arxiv 預印服務器。
最大的數據集是從J-Chat獲得的,J-Chat是東京大學創建和發布的最大的日本數據對話集。它包含大約67,000小時的播客和YouTube音頻。此外,團隊使用了較小但更好的對話集,其中一些是在實驗室組裝的,而另一些則可以追溯到20 – 30年。為了增加他們的教育數據,研究人員還將聊天中的書面對話轉換為與文本程序的人工語音,為此目的開發的語音。
-

J-Moshi的主要開發商Atsumoto Ohashi哲學博士演示了AI系統如何模仿日本天然對話。他致力於優化針對其哲學博士任務的對話系統。圖片來源:我會找到名古屋大學的梅爾
-

哲學博士學生Yuki Zenimoto與對話系統進行互動,該系統通過意外對話引起有關用戶醫療保健的信息。圖片來源:我會找到名古屋大學的梅爾
2024年1月,當演示視頻在社交網絡上流行時,J-Moshi受到了極大的關注。除了其技術新穎性外,它還在語言學習中還可能採用實際應用。例如,幫助不要練習載體並了解日本自然的對話。
該研究小組還研究了Coll,醫療機構和客戶服務中心的商業應用。他們指出,與英語可用的資源相比,系統對專業領域或行業的改編是一項艱鉅的任務。
研究小組的負責人Ruichiro Higashinak教授為AI的學術研究帶來了獨特的前景,在五年前進入NTT Corporation的公司研究人員已經在NTT Corporation擔任了19年。
在他的行業逗留期間,他從事消費者係統和語音代理,包括為Shabette Concier實施問答功能的項目,以及NTT DOCOMO語音代理服務。為了繼續研究人類交流模型,他於2020年在納戈伊大學的高級信息學上創建了自己的實驗室。
他的20人實驗室目前解決了克服理論研究和實際應用的問題,從了解日語的對話術語到在公共場所的AI領導者(例如水族館)的部署。
“可以將技術(例如J-Moshi)應用於與人類運營商合作的系統。例如,我們在大阪Nifrel水族館中的領先機器人可以獨立處理普通的相互作用,並輕鬆地將訪客與人類操作員有關複雜問題或需要專業的幫助,” Khigashinaka教授說。 “我們的工作是部長內閣國家辦公室項目的一部分,旨在通過先進的聯合工作系統AI-Human提高服務質量。”

哲學博士Sanae Yamashita(左)致力於總結對話的方法,以幫助人工智能對話系統需要幫助時進行干預。 AO GO(右)的研究人員專注於使用語音,手勢和運動使移動領導力機器人更方便。圖片來源:我會找到名古屋大學的梅爾
與機器人互動的機會和問題
Khigashinaka教授解釋了日本對人工智能研究的獨特問題:“日本缺乏言語資源,限制了研究人員培訓AI對話系統的能力。還必須考慮機密性問題。”
缺乏數據被迫創建創造性的解決方案,例如使用計算機程序將播客中的混合聲音劃分為培訓所需的揚聲器的單獨曲目。
當前,對話系統在復雜的社交情況下遇到困難,尤其是在需要考慮人際關係和身體環境時。視覺障礙物(例如口罩或帽子)也可能會惡化其性能,因為涵蓋了重要的視覺信號,例如面部表情。在大阪的Nifrel水族館進行的測試表明,有時AI無法解決用戶問題,需要人們的干預並干預對話。
儘管J-Moshi在使用重疊的語音和Aizuchi Intermeters進行天然日本對話模型時是一項重大成就,但這些限制意味著他們目前需要一個用於大多數實際應用的人備份系統。研究人員正在努力改善這些備份系統以減輕這些問題。它們包括用於總結對話和對話檢測系統的方法,該系統警告操作員出現潛在問題,以便他們可以迅速做出回應。
對實驗室的一項更廣泛的研究超出了J-Moshi,其中包括人類機器人之間的許多相互作用方法。與在現實的人形機器人上工作的同事合作,他們正在開發協調言論,手勢和自然交流運動的機器人。
這些機器人,包括由單位機器人製造的機器人,是人工智能領域的最新成就,其中對話系統不僅應導致對話的細微差別,而且還應導致物理的存在和空間意識。該團隊定期在大學城的開放日期裡展示其工作,公眾可以體驗到第一次對話系統的發展方式。
他們關於J-Moshi的文件被接受 間隙言語技術和研究領域最大的國際會議。 Higashinak教授和他的團隊期待於2025年8月在荷蘭鹿特丹介紹他們的J-Moshi研究。
Khigashinak教授說:“在不久的將來,我們將目睹可以在自然言論和手勢的幫助下自由合作的系統。
更多信息:
Atsumoto Ohashi等人。走向日本的全面對話系統, arxiv (2025)。 doi:10.48550/arxiv.2506.02979
引用:第一個公共日本對話系統AI可以同時講話和傾聽(2025年7月15日)。 2025年7月15日從
該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。