一項新的AI編碼挑戰揭示了他的第一位贏家,並為AI軟件工程師設定了新的標準。

PT星期三下午5點,勞德非營利學院宣布了K的第一位冠軍,這是多輪AI 挑戰 它由Co -Founder Databricks和Co -Founder Andy Konwinski創立。獲勝者是一位名為Eduardo Rocha de Andrade的巴西工程師,他將獲得50,000美元的獎金。但是比勝利更令人驚奇的是他的最終成績:他僅獲得了7.5%的測試問題的正確答案。

Konwinski說:“我們很高興建立一個非常困難的參考點。”他繼續說:“如果大實驗室進入了最大的模型,那麼基準應該很難,”他繼續說道:“得分會有所不同,但這是一種觀點。

Konwinski在第一個開源模型中致力於100萬美元,在測試中的評價高於90%。

與著名的閘門類似,K獎獎測試模型針對GitHub問題的跡象,作為對良好模型如何處理現實世界計劃問題的測試。但是,儘管閘門基於一組穩定的問題,這些問題可以訓練模型,但K獎的設計為“無需針感染的版本”,使用定時輸入系統來防止任何特殊的參考培訓。在第一輪比賽中,模型是由於3月12日。然後,K獎的組織者僅使用GITHUB問題在該日期之後突出顯示。

7.5%的最高分數與SWE板凳本身相反,SWE板凳本身目前在最簡單的“驗證”測試中顯示75%的最高分數,在最艱難的“完整”測試中顯示34%。 Konwinski仍然不確定不平等是否是由於陷入困境或僅僅是為了挑戰Github的新問題,但希望K很快會回答這個問題。

他告訴TechCrunch:“隨著我們有更多事情的途徑,我們將有更好的感覺,因為我們希望人們每隔幾個月適應比賽的動力。”

TechCrunch活動

弗朗西斯科
|
2025年10月27日至29日

鑑於已經為公眾提供的廣泛的AI編碼工具,這似乎是一個奇怪的地方 – 但是,由於參考點非常容易,許多批評家將諸如K之類的項目視為解決的必要步驟 不斷增長的AI評估問題

普林斯頓·薩什·卡普爾(Princeton Sayash Kapoor)研究員說:“我很清爽為現有參考點建立新的測試。” 在最近的文件中。 “沒有這樣的實驗,我們無法真正說出問題是否是感染,甚至只是與一個男人一起瞄準桌子。”

對於Konwinski而言,這不僅是一個更好的參考點,而且對業內其他地區來說是一個開放的挑戰。他說:“如果您聽到廣告活動,就像看到AI醫生,AI律師和AI軟件工程師一樣,那是不正確的。” “如果沒有感染,我們甚至不能在長凳上獲得超過10%的替補,這對我來說就是現實的控制。”

來源連結