Scale AI開始SEAL SHAWNDOWN，這是LMARENA排行榜的替代品

22 9 月 2025

自從Openai啟動世界上的Chatgpt以來，從AI基因爆炸開始，開發人員以Lmarena（以前的Chatbot Arena）為AI的默認排行榜。現在，Scale AI使用新的密封冰期比較評估工具為AI比較評估區域帶來了非常必要的競爭。

像Lmaerna一樣，Seal Showdown允許用戶嘗試不同的AI模型和投票，以便他們具有更好的性能。但是，AI量表稱，與Lmaerna不同，郵票比賽將更多地反映用戶對不同型號的感覺。在X帖子中，比例尺傑森·德羅格（Jason Droege）的首席執行官說，海豹突擊隊“確實記錄了真實人使用的平台所推動的真實偏好”。

目前尚不可用此推文。可以加載或刪除。

Scale AI的產品負責人Janie Gu，“大多數基準都基於合成考試（編碼難題，數學問題）或反饋。” 在博客文章中。 “他們失去了真實人在日常生活中使用真實模型的全部方式。將不同的用戶視為巨石，並以廣義分數收集所有評論，關鍵的陰影丟失了。”

稱重開始安全，評估和實驗室去年，這些排行榜是基於專家評級的。現在，Scaleai將根據用戶測試提供排行榜，並提供LMARENA的替代方案。

開始說這是新的比較評估工具它基於“覆蓋100多個國家，70種語言和200個專業領域的用戶”的實際使用和反饋。（該公司還提供了確切的郵票衝突的方法）

快速明亮的速度

GU在宣布該項目的博客文章中寫道：“攤牌介紹了他在公共表中從未見過的東西：豐富的用戶領域。” “因為得分來自貢獻者在規模上進行的對話迷失方向平台，規模能夠驗證每個用戶的國家，教育水平，專業，語言和年齡 – 使任何人都可以看到模型對像他們這樣的人的表現。 “

由於這些人口統計信息，縮放AI將能夠根據特定領域，語言，年齡或使用案例顯示哪些模型最受歡迎。

現有排行榜委員會對AI量表的批評是，它們“主要基於愛好”，而當前的排名”基於一群密切的用戶及其興趣組，這導致了LLMS通常執行使用的錯誤陳述。

Lmarena還因偏見開放模型而受到批評。評論家說，LMARENA系統偏愛來自Google，XAI和OpenAI等大型AI公司的邊境模型。但是，AI量表解決方案可能不是理想的。排行榜的最初結果使GPT-5的絕大多數最高，這可以簡單地反映用戶的喜好而不是客觀的性能。

更新的排行榜密封件他們現在還活著。目前，GPT-5在所有參考類別中達到頂點，這是一個強烈的對比度在lmarena其中Google Gemini 2.5 Pro，2.5 Flash和VEO 3驅動大多數排行榜類別。

啟示錄：Mashable的母公司齊夫·戴維斯（Ziff Davis）在四月份對Openai提起訴訟，聲稱在AI系統的培訓和運營中侵犯了Ziff Davis的版權。

問題
人工智能Openai

來源連結

Scale AI開始SEAL SHAWNDOWN，這是LMARENA排行榜的替代品

近期文章

瑞銀 (UBS) 數據顯示，2.7% 的西班牙人擁有 33% 的財富

世界盃比賽前，墨西哥球迷在厄瓜多一家飯店外鳴響喇叭

美國國土安全部長「很高興」伊朗退出世界杯

德州參議院民調顯示帕克斯頓和塔拉里科在 2026 年中期選舉的關鍵競選中打成平手

威特科夫和庫許納定於多哈會見調解員，但尚未確定與伊朗的高層會談。

Apple Pay 現在允許您使用美國運通卡積分付款

America 250 – 以下是尋找一顆恆星的方法，該恆星的光芒於 1776 年開始抵達地球

所有類別