自從Openai啟動世界上的Chatgpt以來,從AI基因爆炸開始,開發人員以Lmarena(以前的Chatbot Arena)為AI的默認排行榜。現在,Scale AI使用新的密封冰期比較評估工具為AI比較評估區域帶來了非常必要的競爭。
像Lmaerna一樣,Seal Showdown允許用戶嘗試不同的AI模型和投票,以便他們具有更好的性能。但是,AI量表稱,與Lmaerna不同,郵票比賽將更多地反映用戶對不同型號的感覺。在X帖子中,比例尺傑森·德羅格(Jason Droege)的首席執行官說,海豹突擊隊“確實記錄了真實人使用的平台所推動的真實偏好”。
目前尚不可用此推文。可以加載或刪除。
Scale AI的產品負責人Janie Gu,“大多數基準都基於合成考試(編碼難題,數學問題)或反饋。” 在博客文章中。 “他們失去了真實人在日常生活中使用真實模型的全部方式。將不同的用戶視為巨石,並以廣義分數收集所有評論,關鍵的陰影丟失了。”
稱重 開始安全,評估和實驗室 去年,這些排行榜是基於專家評級的。現在,Scaleai將根據用戶測試提供排行榜,並提供LMARENA的替代方案。
開始說這是 新的比較評估工具 它基於“覆蓋100多個國家,70種語言和200個專業領域的用戶”的實際使用和反饋。 (該公司還提供了確切的 郵票衝突的方法)
快速明亮的速度
GU在宣布該項目的博客文章中寫道:“攤牌介紹了他在公共表中從未見過的東西:豐富的用戶領域。” “因為得分來自貢獻者在規模上進行的對話 迷失方向 平台,規模能夠驗證每個用戶的國家,教育水平,專業,語言和年齡 – 使任何人都可以看到模型對像他們這樣的人的表現。 “
由於這些人口統計信息,縮放AI將能夠根據特定領域,語言,年齡或使用案例顯示哪些模型最受歡迎。
現有排行榜委員會對AI量表的批評是,它們“主要基於愛好”,而當前的排名”基於一群密切的用戶及其興趣組,這導致了LLMS通常執行使用的錯誤陳述。
Lmarena還因偏見開放模型而受到批評。評論家說,LMARENA系統偏愛來自Google,XAI和OpenAI等大型AI公司的邊境模型。但是,AI量表解決方案可能不是理想的。排行榜的最初結果使GPT-5的絕大多數最高,這可以簡單地反映用戶的喜好而不是客觀的性能。
更新的排行榜密封件 他們現在還活著。目前,GPT-5在所有參考類別中達到頂點,這是一個強烈的對比度 在lmarena其中Google Gemini 2.5 Pro,2.5 Flash和VEO 3驅動大多數排行榜類別。
啟示錄:Mashable的母公司齊夫·戴維斯(Ziff Davis)在四月份對Openai提起訴訟,聲稱在AI系統的培訓和運營中侵犯了Ziff Davis的版權。
問題
人工智能Openai








