一個新的AI編碼挑戰剛剛發布了其第一個結果 – 並不美麗

25 7 月 2025

一項新的AI編碼挑戰揭示了他的第一位贏家，並為AI軟件工程師設定了新的標準。

PT星期三下午5點，勞德非營利學院宣布了K的第一位冠軍，這是多輪AI 挑戰它由Co -Founder Databricks和Co -Founder Andy Konwinski創立。獲勝者是一位名為Eduardo Rocha de Andrade的巴西工程師，他將獲得50,000美元的獎金。但是比勝利更令人驚奇的是他的最終成績：他僅獲得了7.5％的測試問題的正確答案。

Konwinski說：“我們很高興建立一個非常困難的參考點。”他繼續說：“如果大實驗室進入了最大的模型，那麼基準應該很難，”他繼續說道：“得分會有所不同，但這是一種觀點。

Konwinski在第一個開源模型中致力於100萬美元，在測試中的評價高於90％。

與著名的閘門類似，K獎獎測試模型針對GitHub問題的跡象，作為對良好模型如何處理現實世界計劃問題的測試。但是，儘管閘門基於一組穩定的問題，這些問題可以訓練模型，但K獎的設計為“無需針感染的版本”，使用定時輸入系統來防止任何特殊的參考培訓。在第一輪比賽中，模型是由於3月12日。然後，K獎的組織者僅使用GITHUB問題在該日期之後突出顯示。

7.5％的最高分數與SWE板凳本身相反，SWE板凳本身目前在最簡單的“驗證”測試中顯示75％的最高分數，在最艱難的“完整”測試中顯示34％。 Konwinski仍然不確定不平等是否是由於陷入困境或僅僅是為了挑戰Github的新問題，但希望K很快會回答這個問題。

他告訴TechCrunch：“隨著我們有更多事情的途徑，我們將有更好的感覺，因為我們希望人們每隔幾個月適應比賽的動力。”

TechCrunch活動

弗朗西斯科
|
2025年10月27日至29日

鑑於已經為公眾提供的廣泛的AI編碼工具，這似乎是一個奇怪的地方 – 但是，由於參考點非常容易，許多批評家將諸如K之類的項目視為解決的必要步驟不斷增長的AI評估問題。

普林斯頓·薩什·卡普爾（Princeton Sayash Kapoor）研究員說：“我很清爽為現有參考點建立新的測試。” 在最近的文件中。 “沒有這樣的實驗，我們無法真正說出問題是否是感染，甚至只是與一個男人一起瞄準桌子。”

對於Konwinski而言，這不僅是一個更好的參考點，而且對業內其他地區來說是一個開放的挑戰。他說：“如果您聽到廣告活動，就像看到AI醫生，AI律師和AI軟件工程師一樣，那是不正確的。” “如果沒有感染，我們甚至不能在長凳上獲得超過10％的替補，這對我來說就是現實的控制。”

來源連結

一個新的AI編碼挑戰剛剛發布了其第一個結果 – 並不美麗

近期文章

JD Davison在2025年的淨價值：火箭明星的NBA薪水和交易

252美國驅逐出境後，委內瑞拉爾拉爾再次與家人會面

康納·吉里什（Connor Jilish）的眼睛緊隨其後的是凱爾·拉爾森（Kyle Larson）的腳步

低稻操作員，對消費者的SPHP國家有害

萊斯·劉易斯（Rice Lewis）

傑克遜（Rampage Jackson）在現場直播的病毒式磨合後，傑克遜（Jackson）在幫派成員身上有粉絲

內布拉斯加州排球隊在2026年NCAA賽季離開之後做出了重要決定

所有類別