當確定可以在車庫銷售中出售的物品時,即使僅通過“鞋子”的概念和培訓期間的幾個鞋子提供,即使僅通過“鞋子”提供了一些新類別,例如帽子或行李等新類別。該系統使用非雜物數據和稀有標籤來確定與車庫銷售背景相對應的已知和未知概念。學分:Wang等,2025。
一種稱為開放特殊分類(OAK)的新方法可幫助人工智能係統根據分類的上下文,而不是使用固定的視覺解釋,以不同的方式對相同的圖像進行動態重新思考。在密歇根州領導下的有關此主題的研究於2025年6月在 IEEE會議按計算機視覺和样本識別 (CVPR)在田納西州納什維爾。
“當人們考慮將AI用於圖像分類時,他們經常表明每個圖像都有固定的客觀價值。我們的工作表明,可以從不同的角度考慮圖像,具體取決於任務,上下文或目標。以相同的方式,就像人們認為圖像不靜態的含義一樣,但根據所需的內容,AI必須基於上下文和鏡頭來解釋圖像。
在先前的AI分類中,使用了固定的艱難類別,例如無法適應各種目標或環境的“椅子”,“汽車”或“狗”。取而代之的是,橡木可以根據所需的上下文在嚴格的情況下評估相同的圖像。例如,可以使用“飲酒”,在商店中的“放置”或“快樂”的情緒進行飲酒的人的形象。
該研究小組建立了其模型,擴展了基於視覺的人工智能模型,該模型將圖像與文本描述相關聯。他們添加了上下文令牌,可作為AI模型的專業指令集。這些令牌,從標記和非雜物數據中研究的,將其與圖像數據一起提交到系統中,以形成不同上下文的視覺功能。這導致了這樣一個事實,即該模型自然專注於圖像的相關區域,例如動作的動作或位置背景,您無法清楚地分辨出在哪裡看。
重要的是要注意,對上下文的新令牌進行了訓練,而剪輯的原始系統保持不變,這使模型可以適應各種目的,而不會失去現有知識。
UM計算機科學技術醫生,研究的主要作者Zilin Van說:“我們對系統的有效學到的系統有效地濃縮和純粹組織數據感到驚訝。”
此外,橡樹可以找到他在訓練中從未見過的新類別。例如,當他們被要求識別出在車庫出售時可以出售的圖像中的物體時,該系統學會了找到諸如行李或帽子之類的物體,即使僅通過鞋子的示例顯示。
OUK發現了新類別,將方法結合在一起,從上到下以及從自面開始。從上到下的語義領導使用語言知識來提供潛在的新類別。如果您知道可以在出售車庫時出售鞋子,那麼該系統將在帽子提供的帽子上傳播,當車庫的銷售而沒有看到培訓期間的帽子例子時,您也可以出售。
除了對語言的了解外,Oak還使用了上升的視覺聚類,該聚類檢測到非雜物視覺數據中的模板。該系統可能會注意到許多在非雜物圖像上出現的手提箱。因此,他發現了一個新的相應類別用於出售車庫,儘管沒有一個手提箱被標記為有效物品。
研究人員在培訓期間收到了這兩種共同工作的方法。語義句子(例如帽子)提出了一個搜索帽子的視覺系統,如果找到帽子,則確認了實際的新類別。另一方面,眾所周知的視覺簇使用剪輯文本的現有知識來幫助確定該稱為群集的內容。
範說:“我們正在尋找新的類別,都使用下次和下降的方法,它們必須互動。”
研究小組在這兩套圖像(Stanford and CleVR-4)上檢查了Oak’s,並將其與兩組基本模型相比,由擴展的詞典和一般發現類別或GCD進行了比較。
橡木在準確性領域和在不同類別中發現概念的現代。值得注意的是,橡木在確定斯坦福數據集中的情緒,超過視頻和GCD中達到了新準確性的87.4%,並達到了50%以上。
儘管所有方法都會產生顯著性圖,但橡木圖集中在每個上下文中的圖像的正確部分上,研究數據而不是編程,從而提供了靈活性和解釋的結果。
將來,橡木的上下文方法將在諸如機器人技術之類的應用中很有用,在機器人技術等應用程序中,系統必鬚根據其當前任務來感知系統。
加利福尼亞大學,伯克利分校和博世人工智能中心也為這項研究做出了貢獻。
更多信息:
通過上下文化功能開放特殊分類: cvpr.thecvf.com/virtual/2025/posster/34699
引用:AI系統在適應新上下文時(8月20日,8月20日)在2025年8月7日從https://techxplore.com/news/2025-08-visual-categories-conexts.html獲取視覺類別。
該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。