10月31日,第四期NH Tech Salon新氦技術(shù)沙龍活動成功舉辦,本次活動邀請到上海交通大學(xué)計算機(jī)系盧宏濤教授擔(dān)任此次演講嘉賓,就基于深度學(xué)習(xí)的計算機(jī)視覺應(yīng)用展開分享。

由于人工智能進(jìn)入發(fā)展熱潮,從2012年AlexNet網(wǎng)絡(luò)應(yīng)用于計算機(jī)視覺中的圖像分類,將錯誤率降低了20%,深度學(xué)習(xí)架構(gòu)進(jìn)入了更深層的發(fā)展,隨后幾年出現(xiàn)的GoogLeNet、VGG、ResNet、ResNeXt、Xception以及DenseNet等架構(gòu)不斷地增進(jìn)了深度網(wǎng)絡(luò)的性能。在深度學(xué)習(xí)架構(gòu)的深入發(fā)展過程中,需要通過大量的數(shù)據(jù)、算法、方法等訓(xùn)練來支撐并提升模型的精確度。
盧老師通過研究,針對計算機(jī)視覺的具體領(lǐng)域著重介紹了四種面向特定任務(wù)的深度網(wǎng)絡(luò)模型及應(yīng)用。1)基于檢測的深度網(wǎng)絡(luò)模型(Deep Models for Detection)是計算機(jī)視覺中最基礎(chǔ)也是最艱難的任務(wù),此模型如同類腦計算模仿人腦進(jìn)行計算的方式對于計算機(jī)是非常困難的。2)分割式深度模型(Deep Models for Segmentation)也是計算機(jī)視覺中的基本任務(wù)之一,該模型把圖片中的每個像素都分割并分類,所以相對難度大大提升。3)超分辨率深度模型(Deep Models for Super Resolution)使小圖像變大,將分辨率低的視頻圖片等提高分辨率,該模型的特征是輸出比輸入大。4)人臉識別深度模型(Deep Models for Face Recognition)主要難點(diǎn)在于類別數(shù)量是開放的(Open set)。目前商業(yè)應(yīng)用主要還是1對1,1對多的識別仍然存在難度,在這一類模型中最重要的部份是損失函數(shù)(Loss function)的設(shè)計。
數(shù)據(jù)是深度學(xué)習(xí)的重要關(guān)鍵點(diǎn),深度模型需要大量數(shù)據(jù)為模型建立基礎(chǔ)。盧老師分享了如今市面上存在的各種公開數(shù)據(jù)集,如LFW、YTF、CASIA-WebFace、VGGFace、VGGFace2等可供研究者們參考之外,也可以通過不同的方法來獲得所需的相關(guān)數(shù)據(jù)集。然而對于特定需求的數(shù)據(jù)可以使用隨機(jī)擦拭法(Random Erasing)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)等方法來解決數(shù)據(jù)不足(Inadequacy problem)、數(shù)據(jù)標(biāo)注(Labelling problem)、數(shù)據(jù)標(biāo)簽復(fù)雜化(Noisy label)、數(shù)據(jù)不平衡化(Data imbalance)等問題。盧老師也分享了深度模型的共性方法:多尺度(Multi-scale)、多階級(Multi-stage)、注意力機(jī)制方法(Attention)和損失函數(shù)設(shè)計(Loss function)。

盧老師介紹了深度學(xué)習(xí)架構(gòu)模型發(fā)展歷程,總結(jié)并篩選了各類有益便利的數(shù)據(jù)集以及數(shù)據(jù)獲得的各種方法,并且以其研究團(tuán)隊的研究方向和成果為主要內(nèi)容通過相關(guān)模型、數(shù)據(jù)和方法展開分享。團(tuán)隊從傳統(tǒng)的“監(jiān)督式深度學(xué)習(xí)”深入到“非監(jiān)督式學(xué)習(xí)”方面,以行人重識別與行人檢測(Person Re-ID and Search)、生成式對抗網(wǎng)絡(luò)(GAN)、面部識別(Face)、物品偵測(Object detection)、行為預(yù)測(Pose Estimation)、密集環(huán)境計數(shù)(Crowd Counting)等相關(guān)內(nèi)容為研究方向。團(tuán)隊研究基于大量的數(shù)據(jù)驗證與以往相關(guān)研究方向相比較,各項研究成果在數(shù)據(jù)等方面都呈現(xiàn)出了顯著的優(yōu)勢。
現(xiàn)場部份答疑分享
問題:目前在機(jī)器視覺算法中普遍是基于2D圖像處理算法的形式展開,盧老師您對于3D的深度圖像方面有什么算法模型方面的研究?
回答:3D深度圖像算法不是我們研究重點(diǎn),但這是非常重要的部份,我們目前也逐漸關(guān)注這個方向,我有統(tǒng)計IEEE國際計算機(jī)視覺與模式識別會議(CVPR,IEEE Conference on Computer Vision and Pattern Recognition)上近兩年發(fā)布的3D方面相關(guān)的研究報道普遍增多。3D相比2D增加了一個維度,功能也相對大幅度增加。3D這也是非常廣泛的領(lǐng)域,例如在人臉識別領(lǐng)域中二維精確度無法大幅提升,然而運(yùn)用3D人臉識別后結(jié)構(gòu)掃描與精確度就大幅提高了。
問題:為什么檢測和分割算法用的預(yù)訓(xùn)練模型是VGG和ResNet居多,而用DenseNet的較少,幾乎沒有?
回答:ResNet和VGG已經(jīng)足夠優(yōu)秀了,已經(jīng)可以用足夠提取特征了,DenseNet于2018年正式發(fā)布,使用復(fù)雜的DenseNet已經(jīng)沒有必要了,并且DenseNet會額外的加重計算負(fù)擔(dān)。
問題:目前市場上有一種趨勢是結(jié)合視覺與語音之間的相互融合對于未來的算法會有什么樣的變化?
回答:今天我講解到的是視覺方面的內(nèi)容,當(dāng)然還有語音、文本等多方面也非常重要。目前有一種趨勢叫多模態(tài),真正的人工智能不僅僅是識別或語音,而是多模態(tài)相互聯(lián)系的形式。從技術(shù)上來說底層技術(shù)相較類似,不同的內(nèi)容在于前端部份,多模態(tài)的基本思路在于匹配,例如把視覺與語音結(jié)合起來做到步調(diào)一直相互匹配。
問題:重定位使用的數(shù)據(jù)集是哪里的,評價標(biāo)準(zhǔn)是什么?
回答:行人重識別的相關(guān)數(shù)據(jù)集有Market 1501、DukeMTMC-reID、CUHK03,而評價標(biāo)準(zhǔn)為平均精度均值(mAP)和召回率。
新氦類腦智能專訪
新氦類腦智能
盧宏濤老師
新氦類腦智能
盧宏濤老師
新氦類腦智能
盧宏濤老師
新氦類腦智能
盧宏濤老師



滬公網(wǎng)安備 31011002003093號