動作捕捉方面的優(yōu)勢
-
2022-11-21
-
x970762
- 瀏覽量:6601
- 分享次數(shù):251
從《星球大戰(zhàn)》到《快樂大腳》,很多熱門電影都包含了動作捕捉技術(shù)實現(xiàn)的場景,通過視頻記錄物體或人的移動。此外,這種跟蹤涉及物理、幾何和感知之間的復(fù)雜相互作用。它的應(yīng)用超越了好萊塢,延伸到軍事、體育訓(xùn)練、醫(yī)療、計算機視覺和機器人等領(lǐng)域,使工程師能夠理解和模擬真實環(huán)境中的動作。
由于這可能是一個復(fù)雜而昂貴的過程,它通常需要在物體或人身上放置標記,并記錄動作序列——研究人員正在試圖將負擔(dān)轉(zhuǎn)移到神經(jīng)網(wǎng)絡(luò)上,神經(jīng)網(wǎng)絡(luò)可以從簡單的視頻中獲取數(shù)據(jù),并在模型中重現(xiàn)。物理模擬和渲染方面的工作有望使其得到更廣泛的應(yīng)用,因為它可以從圖像中描述真實、連續(xù)和動態(tài)的運動,并在2D渲染和三維場景之間來回轉(zhuǎn)換。然而,要做到這一點,目前的技術(shù)需要對環(huán)境條件、行動發(fā)生的地點以及染色裝置的選擇有準確的了解,這兩者通常都是。不可用。
現(xiàn)在,IBM麻省理工學(xué)院的一組研究人員開發(fā)了一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)管道來避免這一問題,并能夠推斷環(huán)境和狀態(tài)的行為發(fā)生,感興趣的人或物體的物理特征(系統(tǒng))及其控制參數(shù)。經(jīng)過測試,該技術(shù)在模擬不同環(huán)境條件下的四種不同類型的動態(tài)交互剛體和變形體物理系統(tǒng)方面優(yōu)于其他方法。此外,這種方法允許模仿學(xué)習(xí)-從視頻預(yù)測和再現(xiàn)真實世界的軌跡,飛行四旋翼飛行器。
“先進的研究問題是如何從一個視頻重建一個數(shù)字雙電源系統(tǒng),”杜導(dǎo)博士說?!?1歲博士后,電氣工程與計算機科學(xué)(電學(xué))、計算機科學(xué)與人工智能(power)實驗室成員,研究團隊成員。為了做到這一點,杜說:“我們需要忽略視頻剪輯在進化和染色方面的差異,并試圖抓住動態(tài)系統(tǒng)或動態(tài)運動的核心信息。
通過捕捉人、機器人或動作捕捉軟件的視頻來推斷動態(tài)運動更容易獲得信息,但也帶來了新的挑戰(zhàn)。“圖像或視頻(以及它們?nèi)绾尾シ藕腿旧?在很大程度上取決于照明條件、背景信息、紋理信息和環(huán)境材料信息,這些信息在現(xiàn)實世界中不一定是可測量的,”杜說。沒有這種染色配置信息或使用哪種染色設(shè)備的知識,目前難以收集動態(tài)信息和預(yù)測視頻對象的行為。即使已知染色機,目前的神經(jīng)網(wǎng)絡(luò)方法仍然需要大量的訓(xùn)練數(shù)據(jù)集。然而,在他們的新方法中,這可能成為一個有爭議的問題。“如果你拍攝豹子在早上和晚上奔跑的視頻,當(dāng)然,你會得到視覺上不同的視頻片段,因為光線條件非常不同。但你真正關(guān)心的是動態(tài)運動:豹子的關(guān)節(jié)角度——而不是它們看起來是亮還是暗,”杜說。
為了解決呈現(xiàn)域和圖像之間的差異問題,該團隊開發(fā)了一個包含神經(jīng)網(wǎng)絡(luò)的管道系統(tǒng),稱為“呈現(xiàn)不變狀態(tài)預(yù)測(RISP)”網(wǎng)絡(luò)。RISP將圖像(像素)的差異轉(zhuǎn)化為系統(tǒng)狀態(tài)——即動作環(huán)境——的差異,這使得他們的方法對于呈現(xiàn)配置具有普適性和不可知性。用隨機染色參數(shù)和狀態(tài)來訓(xùn)練RISP,這些參數(shù)和狀態(tài)被輸入到可微分染色器中,可微分染色器是測量像素對染色配置(例如光或材料顏色)的敏感度的渲染器。這將根據(jù)已知的地面真實參數(shù)生成一組不同的圖像和視頻,然后將允許RISP逆轉(zhuǎn)這一過程,并根據(jù)輸入的視頻預(yù)測環(huán)境狀態(tài)。該團隊還最小化了RISP的進化梯度,使其預(yù)測對進化配置的變化不那么敏感,它學(xué)會了忘記視覺外觀,專注于學(xué)習(xí)動態(tài)。這是通過差異染色裝置實現(xiàn)的。
該團隊測試了四個模擬系統(tǒng):四旋翼飛行器(沒有任何物理接觸的剛體飛行)、立方體(與環(huán)境相互作用的剛體,就像死亡)、新手和桿(可變形的物體可以像蛇一樣)。這些任務(wù)包括從圖像中估計系統(tǒng)的狀態(tài),從視頻中識別系統(tǒng)參數(shù)和運動控制信號,并從目標圖像中找到引導(dǎo)系統(tǒng)達到所需狀態(tài)的控制信號。此外,他們創(chuàng)建了一個基線和一個甲骨文,以比較這些系統(tǒng)中的新RISP過程與類似的方法,例如,缺乏渲染梯度損失,訓(xùn)練神經(jīng)網(wǎng)絡(luò)沒有任何損失,或完全缺乏RISP神經(jīng)網(wǎng)絡(luò)。該團隊還研究了梯度損失如何隨著時間的推移影響狀態(tài)預(yù)測模型的性能。最后,研究人員部署了他們的RISP系統(tǒng),并從視頻中推斷出真實世界中具有復(fù)雜動力學(xué)的四旋翼飛行器的運動。他們將其性能與其他技術(shù)進行了比較,其他技術(shù)缺少丟失的功能,使用像素差異,或者包括手動調(diào)整染料注釋器配置的技術(shù)。
在幾乎所有的實驗中,RISP程序都優(yōu)于現(xiàn)有的類似或先進的方法,模仿或再現(xiàn)了所需的參數(shù)或運動,并被證明是當(dāng)前運動捕捉方法的數(shù)據(jù)高效和可擴展的競爭對手。
在這項工作中,研究人員做了兩個重要的假設(shè):關(guān)于動作捕捉設(shè)備的信息是已知的,如它的位置和設(shè)置,以及控制被跟蹤的對象或人的幾何和物理。未來的工作計劃將解決這個問題。
“在我看來,我們在這里解決的最大問題是在沒有非常昂貴的設(shè)備的情況下從一個領(lǐng)域到另一個領(lǐng)域重建信息,”馬說。甘補充說,這種方法應(yīng)該是“正確的目的。[在虛擬環(huán)境中重建物理世界的應(yīng)用程序,如元宇宙,非常有用]
“這基本上是一個日??捎玫慕鉀Q方案,簡潔而簡單,用于跨域重建或逆動力學(xué)問題,”馬說。