動機:比較各種掃描令牌的方法。 (a)涼爽的注意力在所有圖像上都作用。 (b)射影的注意力通過漸進的投影吸引錨點,並有選擇地訪問錨周圍令牌的圖像。 (c)提出的雙重網格掃描(GTB)在視覺功能和人的鍵盤級別上編碼局部上下文和關節空間序列。圖片來源:作者

對一個人的姿勢進行準確的評估是深層培訓解決的首要任務之一。早期模型 打開 它的重點是將人類關節定位為圖像坐標中的2D clavish。後來,Google想到了 Mediapipe其次是 Yolopoz引起了極大的關注,並因其有效性和準確性而被廣泛接受。

自然,下一個邊界是對3D的人類呼叫的評估,代表(x,y,z)關節在全球參考框架中的位置。由於最高3D的單個圖像是一個不好的問題,因此任務承諾將變得更容易使用多個攝像機。然而,儘管進行了多年的研究,但對具有多種力量的姿勢的評估仍然令人驚訝地複雜。

拼圖破壞了幾種觀點

多學位3D多人姿勢等級是幾個子電話。直到最近,大多數研究都首先評估了2D-Clavshi,無論使用MediaPipe或Yolopose的所有多截面圖像如何,然後對應於思想中的相應化合物,然後對相應的化合物進行比較,然後使用室內參數進行室內參數進行三角分析,以最終獲得3D。

然而,這種多階段管道的主要缺點是每個階段的錯誤被乘以。此外,這種方法無法使用來自多學科圖像的視覺信號,因為第一步本身就投入了大多數像素信息,其餘的管道簡單地依賴於2D鍵盤,從完成的檢測器估計。

通過培訓:更改範式

最近,一些研究人員將注意力轉移到了一個重要的問題上:整個任務可以通過控制嗎?讓我們看看這種方法將有什麼問題。

首先,這樣的設置將要求模型處理具有多種視圖的圖像的整個輸入,這與以前的方法不同,這會導致高計算成本,而這些方法在計算時保存了,只是丟棄了大多數視覺信息。其次,模型研究幾何三角剖分如何通過差異結構?最後,由於該模型將直接回歸3D的維持力,因此如何總結新設置?

更多相機,還有更多問題?為什麼深訓練仍在戰鬥3D

模型體系結構:MV-SSM通過Resnet-50提供多截面圖像,以提取由具有堆疊式投影空間(PSS)的塊指定的多尺度函數。這些塊使用射影的關注和狀態空間的建模來逐漸闡明鍵盤,並使用幾何三角剖分評估了最終的3D鏈球菌。圖片來源:作者

最近的一些研究,包括 教育三角剖分MVPmvgorm調查了這個問題。 Traineed三角剖分提出了兩種三角剖分方法 – 代數和大量。重要的是要注意,兩種方法都是通過差異化的,這使您可以直接優化目標度量。

MVP使用了此方法,並直接回歸了多個圖表3D姿勢,而無需依賴中間任務。特別是,MVP以訓練有素的要求形式呈現骨骼的關節,並允許他們根據來自輸入圖像的多部門信息逐漸訪問和推理,以直接回歸實際的三個維度位置。關鍵的貢獻是一種幾何控制的注意機制,稱為投射注意力,以更準確地組合有關每種連接的交叉深度的信息。

最近,MVGFORMER對MVP等回歸模型提出了一個重要的關注,即它們的概括非常低。

暴露:概括危機

MVGGOFFORMER已證明,早期模型中充滿了訓練數據集,也就是說,如果相機數量減少或增加在測試過程中,AP25估計值顯示出很大的下降,這表明這些模型也無法有效地使用視覺信息的加強。其次,作為相機的位置或方向或在Cross Datase評估這些模型時,它們也顯示出很高的經驗。

MVGFORMER使用了基於培訓的訓練中的幾何三角剖分及其外部模型,將視覺信息有效地用於早期的多階段輸送機中。

  • 更多相機,還有更多問題?為什麼深訓練仍在戰鬥3D

    塊 – 建築結構:Mamba塊的體系結構(a),(b)塊VSS和(c)提出的PSS塊。 Block PSS通過對國家的投射關注和建模來抓住聯合空間關係,這逐漸闡明了結果。圖片來源:作者

  • 更多相機,還有更多問題?為什麼深訓練仍在戰鬥3D

    視覺比較:我們在CMU PANOPTIC基準測試中與MVGFormer進行了視覺比較。人類姿勢顯示的主要事實是紅色的,並且預測的姿勢在其上重疊以顯示準確的比較。 MV-SSM達到準確的姿勢,尤其是在復雜的場景中,表現出出色的性能。如前排所示,MV-SSM可以更好地預測一個人的左腿。請注意,人們的顏色不同,因為我們沒有比較標識符。圖片來源:作者

強大的概括:勝利指標MV-SSM

基於此研究問題,為了更好地解決概括問題,我們為使用具有多種視圖的空間提供了MV-SSM模型,用於對人姿勢進行三維評估。 MV-SSM是 提出 在計算機願景和样本的認可的IEEE/CVF會議上(CVPR 2025)於6月11日至15日在納什維爾舉行。 MV-SSM清楚地修改了兩個不同級別的關節空間序列:多戰鬥圖像和人類鍵的功能水平。

我們提供一個投影空間(PSS)的塊,以使用建模狀態空間來研究關節空間措施的廣義表示。此外,我們將MAMBA的傳統掃描修改為帶有網格(GTB)的有效雙層掃描,這是PSS單元不可或缺的一部分。

許多實驗表明,MV-SSM通過現代模型提前實現了強烈的概括:在跨圓錐體CMU的三個腔室的困難條件下 +24%,攝像機的各種組合物在相機的各種組合上 +13%,在交叉數據等級中 +38%。

著名的校準:Achille的腳跟從3D到等級

但是,像以前的模型一樣,MV-SSM的主要極限表明攝像機參數是已知的。儘管對三維人類姿勢進行了令人印象深刻的評估,這些姿勢不受相機的某個位置的限制,與教育數據的特定場景相關聯或需要固定的攝像機,但它仍然是一個嚴重的問題,如果解決,它將具有巨大的工業效用。

這個故事是一部分 科學X對話框研究人員可以在其中報告其發表的研究文章中的結果。 訪問此頁面 獲取有關科學X對話以及如何參與的信息。

更多信息:
Aviral Charaia等人, MV-SSM:對國家的空間進行建模,並進行幾次評估,以評估人類姿勢會議的會議記錄以認識計算機願景和样本的認可(CVPR) (2025)。

Aviral Chkharia是卡內基大學 – 梅隆大學的研究生。他被授予CMU的ATK-NICK-NICK-NICKNAME,印度IIT Kanpur的學生研究獎學金以及不列顛哥倫比亞大學Mitacs Globalink的研究獎學金。此外,他在本科生期間還是院長名單獎學金的雙重獲得者。他的研究興趣包括計算機視覺,計算機圖形和機器學習。

引用:更多相機,還有更多問題嗎?為什麼深度訓練仍在以3D敏感的感覺(8月20日,12日)戰鬥,於2025年8月12日從https://techxplore.com/news/2025-08-cameras-problems-deep-truggles-3d.html獲得。

該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。



來源連結