
在此次抗擊新型冠狀病毒肺炎中,AI技術在各個領域展露實力。在落地較為成熟的計算機視覺方向,對居民身份識別、個人軌跡追蹤、病理圖像識別方面都有不錯的應用。今天我們要介紹一個值得關注的技術方向——行人重識別。
行人重識別技術簡介
行人重識別(Person Re-Identification,文中簡稱Re-ID,與Object Re-ID區(qū)分)也稱行人再識別、跨境追蹤,是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術,主要解決跨攝像頭跨場景下行人的識別與檢索。它能夠根據(jù)行人的穿著、體態(tài)、發(fā)型等信息認知行人,可以對無法獲取清晰拍攝人臉的行人進行跨攝像頭連續(xù)跟蹤,從而增強數(shù)據(jù)的時空連續(xù)性。首先從監(jiān)控視頻里獲得原始圖片,基于原始圖片檢測出行人位置,然后將圖片特征分別從檢索圖和數(shù)據(jù)庫圖像中抽取出來并計算距離,最后根據(jù)距離進行排序,排序越靠前表明相似度越高。


傳統(tǒng)的人臉識別技術經(jīng)歷了近幾年的快速發(fā)展后,已較為成熟,并在眾多領域有相關應用和產(chǎn)品。在國際權威人臉識別數(shù)據(jù)庫LFW (Labeled Faces in the Wild) 的識別精度超越人以后,就少有重大突破了,CV頂級國際會議的接受論文量也逐漸出現(xiàn)了平穩(wěn)的趨勢。人臉識別技術僅使用人臉特征值判斷個人身份,放棄了其他人體重要信息,例如衣著、發(fā)型、體型、姿態(tài)、行為特征等,具有局限性。另外,人臉識別必須有較為完整的人臉照片,然而在實際應用中,由于相機分辨率和拍攝角度的緣故,經(jīng)常會遇到低頭、面部被部分遮擋、僅拍到背影、模糊身形等情況,通常無法得到滿足要求的高質量人臉圖片。而Re-ID技術正好能夠彌補人臉識別應用的不足,將現(xiàn)有的認知識別水平提高到一個新階段。
Re-ID技術在學術界熱度上漲
由于不同攝像設備之間的差異,同時行人兼具剛性和柔性,外觀易受穿著、尺度、遮擋、姿態(tài)和視角等影響,Re-ID技術成為CV領域中一個既有研究價值又極具挑戰(zhàn)性的研究方向。國內主要研究機構為清華大學、北京大學、復旦大學、中山大學、香港中文大學、華中科技大學、西安交通大學、中科院和廈門大學等,國外主要為悉尼科技大學、倫敦瑪麗女王大學和德克薩斯大學圣安東尼奧分校等。CV頂級國際會議在Re-ID方向上的接受論文量正逐步提升,國內科研團隊是其中的主力軍。2016以來,谷歌學術上有約2500篇相關論文,其中2019年及以后發(fā)表的占1050篇。在計算機視覺的兩大頂會ICCV與CVPR上,近年來接受的論文中行人重識別技術相關論文數(shù)不斷上升。這些都表明了Re-ID技術在學術界的熱度正不斷攀升。

(數(shù)據(jù)來源:ICCV,CVPR)
注:人臉識別按關鍵字檢索 "face recognition", "face verification", 行人重識別按關鍵字檢索 "person re-identification", "person search", "person retrieval", "pedestrian retrieval"
Re-ID技術將有廣闊應用前景
除學術界外,Re-ID技術在產(chǎn)業(yè)界的熱度也居高不下。智能安防是Re-ID技術應用廣泛的場景,其中視頻偵查可以幫助公安高效辦案。Re-ID技術可以從嫌疑犯照片中采集特征,然后從監(jiān)控視頻庫里找出嫌疑犯出現(xiàn)的視頻段,并能夠把嫌疑犯在各個攝像頭中的軌跡串連起來,實現(xiàn)空間的延續(xù)性。Re-ID技術還能用于智能尋人系統(tǒng),根據(jù)走失兒童的衣服、書包等特征,在所有監(jiān)控攝像頭中進行實時搜尋,尤其是在超市、火車站、展覽館等人流量大的公共場所,疫情下也可用于尋找感染者和與其接觸過的人。配備Re-ID技術的智慧商場旨在通過顧客在商場里的行動軌跡,了解顧客的興趣與習慣,從而優(yōu)化顧客體驗,無人超市也有類似的需求。手機相冊中普遍都有人像分類功能,但很多非正面照片無法被歸入某一類別,而Re-ID技術可以把同一個人不同場景不同身影的照片聚在一起,方便用戶管理。未來每個家庭可能都會有家庭機器人,機器人很難實時看到主人面部情況,利用Re-ID技術通過觀察人體特征,跟蹤主人的行為動態(tài),可以進行更豐富的互動與及時反饋。


中國安防行業(yè)目前在產(chǎn)業(yè)鏈中呈現(xiàn)出上下游界限模糊的態(tài)勢,產(chǎn)業(yè)生態(tài)變得更加開放但競爭也異常激烈。激烈的競爭同時也是迅速發(fā)展的助燃器,中國安防行業(yè)以超過10%的復合年均增長率和接近萬億的市場規(guī)模成為世界龍頭,其中有一半以上的訂單由政府提供。《中國安防行業(yè)“十三五”(2016-2020)發(fā)展規(guī)劃》、《關于加快安全產(chǎn)業(yè)發(fā)展的指導意見》等相關政策的支持成為了發(fā)展主要動力。同時,中國政府開展了“平安城市”、“天網(wǎng)工程”、“雪亮工程”三個項目來擴大從城市到村鎮(zhèn)的人工智能安防應用市場,為安防市場建立了穩(wěn)定基礎。據(jù)預測,未來“平安城市”和“雪亮工程”中帶有人工智能技術的AI攝像機覆蓋率將超過80%,包括人臉識別相機、車牌識別相機和視頻結構相機(主要用于Re-ID技術或特征識別)。考慮到隱私保護,Re-ID結合以圖搜圖、輔助標識應用將逐漸流行。
各大公司與高校紛紛提升Re-ID技術能力
在國內專注于Re-ID技術研究的公司中,云從科技、曠視科技和商湯科技等已取得顯著成就。云從科技于2019年3月在Market-1501,DukeMTMC-reID和CUHK03數(shù)據(jù)集上打破了世界紀錄,在Market-1501數(shù)據(jù)集上的平均精度均值為91.14%,首位命中率達到了96.6%。云從科技將核心算法的速度提高了10倍,并開發(fā)出一系列用于行人檢測、跟蹤和結構化的模塊。曠視科技在CVPR 2019上發(fā)表了14篇論文,其中一篇提出了Visibility-aware Part Model (VPM),可以在局部Re-ID場景下通過自我監(jiān)督來感知區(qū)域的可見性。商湯科技提出了一個基于Siamese結構的框架Feature Distilling GAN (FD-GAN),包含多個關于人的姿勢和身份的識別符,能夠學習與身份相關而與姿勢無關的表現(xiàn)形式。國內企業(yè)在Market-1501,DukeMTMC-reID和CUHK03三大權威數(shù)據(jù)集上普遍呈現(xiàn)出較高的準確率,其中中興在三大數(shù)據(jù)集中都占據(jù)榜首。

Re-ID技術的新突破
早期的Re-ID技術通常在全局圖像中進行特征提取,并將這些特征作為與數(shù)據(jù)庫圖像匹配的視覺表達。為實現(xiàn)表達的有效性,早期技術或者直接使用全局人物特征,或者將身體部位的局部特征組合起來。但這些方法忽略了目標人物被各種障礙物如車輛、樹木、其他行人遮擋的情況。當目標人物被部分遮擋時,從全局圖像中提取的特征可能會包含擾亂信息。如果模型無法分辨遮擋區(qū)域和人物區(qū)域,可能會導致錯誤的檢索結果。例如,在給定檢索圖像是一個被白色汽車遮擋的人時,錯誤的方法可能得到被相似白色車輛遮擋的不同的人。為解決遮擋問題,一些研究團隊采用局部重識別的方式,假定檢索圖像被障礙物遮擋而數(shù)據(jù)庫中人物圖像是完整的。為減少不必要信息的引入,檢索圖像中遮擋區(qū)域被人工去掉,然后使用未被遮擋的部分作為新的檢索目標。這種局部重識別的方式存在兩個局限性:一是需要一個強假設即數(shù)據(jù)庫中所有人物圖像都是完整的;二是如果數(shù)據(jù)庫圖像也包含被遮擋的部分,考慮到圖像的龐大數(shù)量,人工裁剪效率十分低下。而且,這一過程可能引入人為偏差。
為進一步提升重識別技術,在2019年10月舉辦的ICCV會議上百度與悉尼科技大學聯(lián)合團隊[1]發(fā)表了研究,團隊在數(shù)據(jù)庫圖像中加入了被遮擋圖像,確保檢索圖像和數(shù)據(jù)庫中都同時包含完整人物圖像和被遮擋圖像,與真實情況一致。此外,考慮到效率和人為偏差問題,重識別過程中不涉及人工剪裁。

團隊采用兩種策略區(qū)分遮擋區(qū)域和可見區(qū)域信息:一是在特征構造階段,模型應更關注非遮擋區(qū)域;二是在匹配階段需要明確地將全局特征分開并且只考慮檢索圖像和數(shù)據(jù)庫圖像共有的可視區(qū)域。因此,團隊采用姿勢標志來匹配檢索圖像和數(shù)據(jù)庫圖像間的提取特征(Pose-Guided Feature Alignment)。與局部重識別相比,這種方法的兩個優(yōu)勢是無需人工剪裁,效率得到提升;被檢測標志的元信息能夠清晰地指導模型關注非遮擋人物區(qū)域,并在特征構造和匹配過程中過濾掉遮擋區(qū)域。團隊還建造了關于遮擋重識別問題目前的數(shù)據(jù)庫Occluded-DukeMTMC。在這一數(shù)據(jù)庫實驗中,因為PGFA方法能夠清晰地使用姿勢信息減弱來自遮擋區(qū)域的干擾信息,它的首位命中率和平均精度均值分別達到了51.4%和37.3%,超過現(xiàn)有的所有方法。實驗還表明,將姿勢指導下的全局特征和局部特征結合能夠實現(xiàn)更好的效果。同樣地,PGFA方法在Partial-REID和Partial-iLIDS實驗中的表現(xiàn)均超過了現(xiàn)有的幾種局部重識別技術,而且在全局行人重識別數(shù)據(jù)庫Market-1501和DukeMTMC-reID上也取得了比肩先進方法的成績,體現(xiàn)了PGFA的通用性。

除Re-ID技術以外,我們還搜集到一些新的計算機視覺技術,可以有效運用于疫情防控。
百度與西北大學聯(lián)合團隊[2]提出的Concept Sharing Network (CSN)局部特征識別方法解決了訓練數(shù)據(jù)缺乏的問題,還能擺脫對局部標注的依賴。它的優(yōu)點是能夠通過學習在單一標記里混合局部位置和外表模式的訓練數(shù)據(jù),對訓練數(shù)據(jù)不足或者零訓練數(shù)據(jù)的局部特征進行識別。在行人特征識別測試中,CSN方法的平均精度均值達到51.2%,而基準值只有30.3%。實驗涉及在安防領域常用的十個特征,包括衣袖長度、褲子長度、是否使用手機、是否攜帶物品、是否拉著行李、是否抽煙、是否戴手套、是否抱著小孩、是否戴口罩,以及是否撐著雨傘。實驗結果表明,隨著訓練樣本的減少,CSN方法取得的結果與基準值間的差異持續(xù)擴大。
騰訊與清華大學聯(lián)合團隊[3]針對臉部遮擋問題提出了一種遮擋學習策略來尋找并剔除損壞特征部分。通過使用創(chuàng)新性設計的Pairwise Differential Siamese Network (PDSN)方法探索被遮擋和無遮擋臉部圖片的頂層卷積特征差異,團隊創(chuàng)建了一個“遮擋詞典”。詞典中的每一個詞條都包含被遮擋臉部區(qū)域和對應的損壞特征部分,即Feature Discarding Mask (FDM)。在處理新的隨機局部遮擋臉部圖像時,首先將相關的詞條組合在一起,然后乘以原有特征來消除損壞特征部分,從而生成它的FDM。為了在局部遮擋的條件下對方法進行測試,團隊合成了被遮擋數(shù)據(jù)庫,遮擋物有太陽鏡、口罩、手、圍巾、頭發(fā)等多種物體。在MegaFace Challenge中,與基準模型相比,PDSN方法在被遮擋探測集和普通探測集中的表現(xiàn)都更加出色。在合成和真實臉部圖像數(shù)據(jù)庫上的大量實驗表明,這種算法能夠顯著地提升現(xiàn)有系統(tǒng)的表現(xiàn)。
在疫情肆虐的當下,為更好地幫助防控人員開展工作,布局在車站、機場等有龐大人流量區(qū)域的檢測機器人,不僅需要識別行人是否佩戴口罩,還需要在戴口罩的情況下,對體溫高于正常值的特定行人進行識別和定位追蹤。因此,對有障礙物情況下行人再識別技術的提升,有助于更準確高效地處理異常情況,降低防控人員被感染風險,遏制疫情的蔓延。
Reference
[1] Jiaxu Miao, Yu Wu, Ping Liu, Yuhang Ding, and Yi Yang. Pose-guided feature alignment for occluded person re-identification. In ICCV, 2019.
論文下載:https://yu-wu.net/pdf/ICCV2019_Occluded-reID.pdf
[2] Xiangyun Zhao, Yi Yang, Feng Zhou, Xiao Tan, Yingze Bao, and Ying Wu. Recognizing part attributes with insufficient data. In ICCV, 2019.
論文下載: https://arxiv.org/abs/1908.03335
[3] Lingxue Song, Dihong Gong, Zhifeng Li, Changsong Liu, and Wei Liu. Occlusion robust face recognition based on mask learning with pairwise differential Siamese network. In ICCV, 2019.
論文下載: https://arxiv.org/abs/1908.06290



滬公網(wǎng)安備 31011002003093號