讓AI更懂物理世界,人大北郵上海AI Lab等提出多模態(tài)分割新方法
相信很多大家對(duì)讓AI更懂物理世界,人大北郵上海AI Lab等提出多模態(tài)分割新方法還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
讓AI像人類(lèi)一樣借助多模態(tài)線(xiàn)索定位感興趣的物體,有新招了!
來(lái)自人大高瓴GeWu-Lab、北郵、上海AI Lab等機(jī)構(gòu)的研究人員提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,視聽(tīng)場(chǎng)景下的指代分割),讓AI能看、會(huì)聽(tīng),更懂真實(shí)物理世界。
相關(guān)論文已入選頂會(huì)ECCV2024。
舉個(gè)例子,在下面這張圖中,機(jī)器如何準(zhǔn)確定位真正在演奏樂(lè)器的人?
搞單打獨(dú)斗肯定不行,但這正是已有研究正在做的。(各自從視覺(jué)、文本和音頻線(xiàn)索的角度出發(fā))
視頻對(duì)象分割(VOS,Video Object Segmentation):通常以第一幀中的對(duì)象掩碼作為參考,指導(dǎo)后續(xù)幀中特定對(duì)象的分割。(嚴(yán)重依賴(lài)于第一幀的精確標(biāo)注)
視頻對(duì)象參考分割(Ref-VOS,Referring Video Object Segmentation):基于自然語(yǔ)言描述分割視頻中的物體,取代了VOS中的掩碼標(biāo)注。(雖然更易于訪(fǎng)問(wèn),但能力有限)
視聽(tīng)分割(AVS,Audio-Visual Segmentation):以音頻為指導(dǎo)來(lái)分割視頻中發(fā)聲的物體。(無(wú)法應(yīng)對(duì)不發(fā)聲的物體)
而新方法Ref-AVS,整合了多個(gè)模態(tài)(文本,音頻和視覺(jué))之間的關(guān)系來(lái)適應(yīng)更真實(shí)的動(dòng)態(tài)視聽(tīng)場(chǎng)景。
這下,同時(shí)在唱歌和彈吉他的人也能被輕松找到了。
且同一段素材還能拿來(lái)反復(fù)用,找出正在發(fā)聲的吉他也不在話(huà)下。
與此同時(shí),研究人員構(gòu)建了一個(gè)名為Ref-AVS Bench的數(shù)據(jù)集,并設(shè)計(jì)了一個(gè)端到端框架來(lái)高效處理多模態(tài)線(xiàn)索。
具體如下。
構(gòu)建了數(shù)據(jù)集Ref-AVS Bench
概括而言,數(shù)據(jù)集Ref-AVS Bench共有40020個(gè)視頻幀,包含6888個(gè)物體和20261個(gè)指代表達(dá)式(Reference Expression)。
每個(gè)數(shù)據(jù)都包含與視頻幀對(duì)應(yīng)的音頻,并提供逐幀的像素級(jí)標(biāo)注。
為了確保所指代對(duì)象(Object)的多樣性,團(tuán)隊(duì)選擇了包含背景的52個(gè)類(lèi)別, 其中48個(gè)類(lèi)別的可發(fā)聲物體,以及3個(gè)類(lèi)別的靜態(tài)、不可發(fā)聲物體。
在視頻收集過(guò)程中,所有視頻均來(lái)自油管并截取10秒。
在整個(gè)手動(dòng)收集過(guò)程中,團(tuán)隊(duì)刻意避免以下情況的視頻:
a) 包含大量相同語(yǔ)義實(shí)例的視頻;
b) 有大量編輯和相機(jī)視角切換的視頻;
c) 包含合成創(chuàng)作的非現(xiàn)實(shí)視頻。
同時(shí),為了提高與真實(shí)世界分布的一致性,團(tuán)隊(duì)挑選了有助于數(shù)據(jù)集內(nèi)場(chǎng)景多樣化的視頻。
比如涉及多個(gè)對(duì)象(如樂(lè)器、人、車(chē)輛等)之間交互的視頻。
另外,表達(dá)式(Expression)的多樣性是Ref-AVS數(shù)據(jù)集構(gòu)建的核心要素之一。
除去本身固有的文本語(yǔ)義信息,表達(dá)式還由聽(tīng)覺(jué)、視覺(jué)和時(shí)間三個(gè)維度的信息組成。
聽(tīng)覺(jué)維度包含音量、節(jié)奏等特征,而視覺(jué)維度則包含物體的外觀和空間等屬性。
團(tuán)隊(duì)還利用時(shí)間線(xiàn)索來(lái)生成具有時(shí)序提示的引用,例如“先發(fā)出聲音的(物體)”或“后出現(xiàn)的(物體)”。
通過(guò)整合聽(tīng)覺(jué)、視覺(jué)和時(shí)間信息,研究設(shè)計(jì)出豐富的表達(dá)式,不僅可以準(zhǔn)確反映多模態(tài)場(chǎng)景,還可以滿(mǎn)足用戶(hù)對(duì)精確引用的特定需求。
而且,表達(dá)式的準(zhǔn)確性也是一個(gè)核心關(guān)注點(diǎn)。
研究遵循三個(gè)規(guī)則來(lái)生成高質(zhì)量的表達(dá)式:
1)唯一性:一個(gè)表達(dá)式所指代的對(duì)象必須是唯一的,不能同時(shí)指代多個(gè)對(duì)象。
2)必要性:可以使用復(fù)雜的表達(dá)式來(lái)指代對(duì)象,但句子中的每個(gè)形容詞都應(yīng)該縮小目標(biāo)對(duì)象的范圍,避免對(duì)所要指代的對(duì)象進(jìn)行不必要和冗余的描述。
3)清晰度:某些表達(dá)模板涉及主觀因素,例如“聲音更大的__”。只有在情況足夠清晰時(shí)才應(yīng)使用此類(lèi)表達(dá),以避免產(chǎn)生歧義。
團(tuán)隊(duì)將每段10秒的視頻分成十個(gè)相等的1秒片段,利用Grounding SAM來(lái)分割和標(biāo)記關(guān)鍵幀,隨后要求標(biāo)注員手動(dòng)檢查和更正這些關(guān)鍵幀。
此過(guò)程使團(tuán)隊(duì)能夠在關(guān)鍵幀內(nèi)為多個(gè)目標(biāo)對(duì)象生成掩碼和標(biāo)簽。
一旦確定了關(guān)鍵幀的掩碼,研究就會(huì)應(yīng)用跟蹤算法來(lái)跟蹤目標(biāo)對(duì)象,并在10s的跨度內(nèi)獲得目標(biāo)對(duì)象的最終掩碼標(biāo)簽(Ground Truth Mask)。
到了數(shù)據(jù)分割與統(tǒng)計(jì),測(cè)試集中的視頻及其對(duì)應(yīng)的注釋會(huì)經(jīng)過(guò)訓(xùn)練過(guò)的標(biāo)注人員的細(xì)致審查和校正。
為了全面評(píng)估模型在Ref-AVS任務(wù)中的表現(xiàn),測(cè)試集進(jìn)一步被劃分為三個(gè)不同的子集。
具體而言,三個(gè)測(cè)試子集包括:
已見(jiàn)子集 (Seen):包括那些在訓(xùn)練集中出現(xiàn)過(guò)的物體類(lèi)別,建立該子集的目的是評(píng)估模型的基本性能。
未見(jiàn)子集 (Unseen):專(zhuān)門(mén)用于評(píng)估模型在未見(jiàn)音視頻場(chǎng)景中的泛化能力。
空指代子集 (Null):測(cè)試模型對(duì)空引用的魯棒性,即表達(dá)式與視頻中的任何對(duì)象都不相關(guān)。
具體咋實(shí)現(xiàn)的?
完成了數(shù)據(jù)集準(zhǔn)備后,團(tuán)隊(duì)利用多模態(tài)線(xiàn)索來(lái)增強(qiáng)表達(dá)式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以實(shí)現(xiàn)更好的視聽(tīng)指代分割。
具體而言,在時(shí)序雙模態(tài)融合(Temporal Bi-Modal Transformer)模塊中,團(tuán)隊(duì)將包含時(shí)序信息的視聽(tīng)模態(tài)信息(FV, FA)分別與文本信息FT進(jìn)行融合。
注意, 為了讓模型更好的感知時(shí)序信息,研究提出了一種直觀的Cached memory機(jī)制(CV,CA)。
Cached memory需要存儲(chǔ)從開(kāi)始到當(dāng)前時(shí)刻的時(shí)序平均模態(tài)特征,以捕捉時(shí)序變化中多模態(tài)信息的變化幅度。多模態(tài)特征(QV, QA)計(jì)算方式如下:
其中,
免責(zé)聲明:本文由用戶(hù)上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話(huà)雷軍給股民分多少錢(qián)!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過(guò)年年過(guò)
- 一天100座!理想汽車(chē)第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢(qián)給員工:別到山窮水盡才講問(wèn)題
- 雷軍新年第一天收到200元紅包 自侃年入百萬(wàn)的開(kāi)始
- 雷軍親自展示REDMI Turbo 4!2025年第一款新機(jī)
- 雷軍:小米未來(lái)10年建至少20座世界頂級(jí)工廠(chǎng)
- 雷軍辟謠只招聘35歲以下員工:只有招聘未來(lái)之星時(shí)才有年齡限制
- 雷軍回應(yīng)100億造車(chē):沒(méi)有好到“封神” 不要神話(huà)我
- 雷軍表態(tài):一心做好小米汽車(chē) 大家可以在“許愿池”尋找商機(jī)
- 雷軍:中國(guó)汽車(chē)產(chǎn)業(yè)應(yīng)少些歪門(mén)邪道 不要發(fā)黑稿、背后捅刀子
- 小米SU7選配色都是7000元 為什么璀璨洋紅卻需要9000元
-
【空調(diào)外機(jī)聲音大是什么問(wèn)題】空調(diào)在使用過(guò)程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會(huì)讓人感到困擾。空調(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過(guò)程中,外機(jī)發(fā)出較大的噪音是很多用戶(hù)遇到的常見(jiàn)問(wèn)題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來(lái)一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來(lái)越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過(guò)程中,有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對(duì)設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對(duì)...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩(shī)意的成語(yǔ),常用來(lái)形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來(lái)】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問(wèn)題。其實(shí),“空格”是一個(gè)非常基礎(chǔ)的...瀏覽全文>>
- 空調(diào)突然不制冷的原因
- 空格怎么打出來(lái)
- 空城舊夢(mèng)是情侶網(wǎng)名嗎
- 可吸收線(xiàn)是什么顏色
- 可微與可導(dǎo)之間有什么聯(lián)系
- 康復(fù)是什么意思
- 康復(fù)評(píng)定包括哪5個(gè)方面
- 開(kāi)通QQ十周年黃鉆是不是可以永久使用十周年黃鉆標(biāo)志
- 卡路里和焦耳怎么換算
- 卡樂(lè)購(gòu)是什么意思
- 卡拉瓦喬代表作
- 巨鱷的電影有什么
- 巨大的英語(yǔ)是什么
- 禁閉島的結(jié)局真相
- 靳東個(gè)人資料
- 靳東的妹妹為什么叫高露
- 金枝玉葉繁殖方法
- 金針菜和黃花菜是一種嗎
- 金吉鳥(niǎo)健身私教一般多少
- 戒指戴什么手指好