信用:Unplash/CC0

正如來自不同國家 /地區的人們說不同的語言一樣,人工智能模型也創建了各種內部“語言”,這是一組獨特的代幣,只有每個模型才能理解。直到最近,由各個公司開發的模型還沒有辦法進行交流,合作或結合其優勢以提高性能。

本週 國際機器教育會議 (ICML)在加拿大溫哥華,科學學院和英特爾實驗室Weizmann的科學家代表了一套新的算法,可以克服這一障礙,使用戶可以從共同運行的人工智能模型的合併計算能力中受益。新算法已經適用於世界各地數百萬人工智能開發人員,加速了大型語言的性能(LLMS) – 當今生成人工智能的領先模型 – 平均1.5次。

有一項研究 出版arxiv 預印服務器。

LLM,例如Chatgpt和Gemini,是強大的工具,但是它們具有重要的缺點:它們很慢,並且消耗了大量的計算能力。 2022年,大型技術公司意識到,與人一樣,AI可以從合作和分工中受益。這導致了一種稱為投機解碼的方法的開發,其中一個小的快速模型具有相對有限的知識,是第一個假設,對用戶的請求做出響應以及更大,更強大的較大,更強大但更慢的審核模型,並在必要時糾正答案。

技術巨頭很快就接受了投機解碼,因為它保留了100%的準確性 – 與大多數降低發行質量的加速方法不同。但是他有一個很大的限制:兩種模型都必須用相同的數字語言“說話”,這意味著由不同公司開發的模型不能團結在一起。

“技術巨頭接受了投機性解碼,從每年增加數十億美元的能力處理成本中受益於數十億美元,但他們是唯一可以使用與大型模型相同的小型,更快的模型的人,”哲學博士Nadava Timor解釋說。領導新發展的計算機科學和應用數學Vaizman研究小組的學生。

“相反,一家努力從投機解碼中受益的初創公司必須教自己的小型模型,這與大型語言相對應,這需要豐富的經驗和昂貴的計算資源。”

Weizmann和Intel研究人員開發的新算法使開發人員可以將任何小型模型與任何大型模型聯繫起來,從而迫使他們在團隊中工作。為了克服語言障礙,研究人員提出了兩種解決方案。

首先,他們設計了一種算法,該算法允許LLM從內部語言代幣將其結果轉換為所有模型都可以理解的通用格式。其次,他們創建了另一種算法,該算法鼓勵這樣的模型主要依靠其對模型具有相同含義的代幣,類似於“香蕉”或“互聯網”等單詞,而人類語言之間幾乎相同。

帝摩爾說:“起初,我們擔心太多的信息會“在翻譯中丟失”,而不同的模型無法有效地工作。” “但是我們錯了。我們的算法將LLMS的生產力加速到2.8倍,從而節省了電源處理成本。”

這項研究的價值得到了ICML的組織者的認可,ICML選擇了一項研究進行公開演講 – 差額僅在今年收到的15,000個報價中約有1%。英特爾實驗室的高級研究員,研究的共同作者Oren Peren Expore說:“我們決定了生成AI中細胞核的無效性。” “這不僅是理論上的改進;這些是已經幫助開發人員構建更快,更智能的應用程序的實用工具。”

在過去的幾個月中,該團隊已經發布了帶有開源的AI平台,擁抱了面部變壓器,使世界各地的開發人員可以自由訪問。從那時起,這些算法已成為執行有效AI過程的標準工具的一部分。

Timor補充說:“這一新開發對於具有邊緣的設備,從電話和無人機到自動駕駛汽車尤其重要,當它們不連接到互聯網時,它們應該依賴於有限的計算能力。” “例如,想像一下,具有獨立駕駛的汽車,它在AI模型的指導下。在這種情況下,更快的模型可以在安全解決方案和危險錯誤之間有區別。”

這項研究也參加了Intel Labs的Jonathan Mom,Daniel Koat,Moshe Berchansky和Moshe Wasserblat,D-Matrix的Gaurav Jain。戴維·哈雷爾(David Harel)教授是數學教授威廉·蘇斯曼(William Soussman)的現任主席。

更多信息:
NADAV計時器等,加速LLM輸出,具有不可能的投機解碼算法,用於異質詞典, arxiv (2025)。 doi:10.48550/arxiv.2502.05202

期刊信息:
arxiv


由科學研究所Vaizmann授予


引用:更快,更聰明,更公開:研究顯示了新算法加速了人工智能模型(2025年7月16日)。 2025年7月16日收到

該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。



來源連結