6月18日,三大世界頂級計算機視覺會議之一-計算機視覺與模式識別會議(Conference on Computer Vision and Pattern Recognition 2019,CVPR 2019)在美國長灘拉開帷幕,蘇寧美國硅谷研究院人工智能專家Honglong Cai攜論文“Multi-Scale Body-Part Mask Guided Attention for Person Re-identification”(多尺度人體掩膜引導下的行人重識別)參與會議并作主題報告。
作為計算機視覺和模式識別領(lǐng)域的頂級會議,CVPR 2019吸引超過9200位頂尖專家、研究學者以及產(chǎn)業(yè)界人士參與,共同推進 CV 技術(shù)的發(fā)展與落地。CVPR保持著一貫嚴苛的論文錄取審核標準,其錄取率通常不超過30%,而能有幸在CVPR上進行報告的論文比例更是不高于5%。
今年,一共有 5160 篇論文向CVPR進行投稿,但僅接收 1294 篇論文,接受率為 25.5%,蘇寧美國硅谷研究院項目團隊的論文被頂會成功接收并受邀進行口頭報告,體現(xiàn)了研究項目所具備的極大價值,這不僅是蘇寧美國硅谷研究院獲得的一份榮譽,更向業(yè)界展現(xiàn)出蘇寧科技在行人重識別相關(guān)領(lǐng)域的大量研究和產(chǎn)品化探索。
行人重識別是要識別不同圖片中的行人是否為同一個人,主要用來解決不同角度,不同攝像頭下的行人匹配和跟蹤問題,該技術(shù)可以通過側(cè)臉、局部的動作、姿態(tài)等進行識別,主要用于智能安防、門店客流統(tǒng)計、無人店客戶跟蹤、智能尋人等方面;人流量較多的大型公共場所,如超市、火車站、展覽館等,也是比較具象的行人重識別應用場景。
由于不同攝像設(shè)備之間的差異,同時行人兼具剛性和柔性的特性,行人重識別容易受到背景環(huán)境、行人姿態(tài)、穿著、視角和遮擋等因素影響。蘇寧科技美國硅谷研究院這篇論文創(chuàng)新性的提出借助在深度神經(jīng)網(wǎng)絡(luò)中加入注意力機制,使得我們的深度神經(jīng)網(wǎng)絡(luò)可以過濾掉背景噪聲,更好的注意在行人身上。
Honglong Cai講解到,“我們借助多尺度的人體掩膜來訓練我們的注意力機制,在多尺度人體掩膜的引導下,我們的注意力機制可以識別出行人的不同部位,更好的克服行人姿態(tài)變化和行人局部被遮擋的問題,更好的提取行人的局部特征和全局特征。可以說,我們的模型達到了行業(yè)最高水平”。