12月13日,由中共肥東縣委、肥東縣人民政府、億達(dá)中國控股有限公司主辦,肥東縣投資促進(jìn)中心、合肥東部新城核心區(qū)綜合管理辦公室、合肥東部新城建設(shè)投資有限公司、億達(dá)合肥智慧科技城發(fā)展有限公司承辦,中國高科技行業(yè)門戶OFweek維科網(wǎng)協(xié)辦的“2019中國(合肥 · 肥東)AIoT產(chǎn)業(yè)發(fā)展論壇”在肥東安徽水利和順大酒店隆重開幕。
在本次大會中,南京大學(xué)人工智能學(xué)院教授、博士生導(dǎo)師申富饒給我們帶來《機(jī)器學(xué)習(xí)應(yīng)用于圖像識別:發(fā)展與挑戰(zhàn)》主題分享,詳細(xì)介紹和分析了圖像識別的實(shí)現(xiàn)原理、主要算法類型,以及面臨的挑戰(zhàn)等研究成果,讓我們更清晰地了解人工智能的發(fā)展現(xiàn)狀。
機(jī)器學(xué)習(xí)的原理
在生活當(dāng)中,人類可以根據(jù)自身的經(jīng)驗(yàn)進(jìn)行總結(jié),歸納出一些規(guī)律,當(dāng)遇到新問題時,人類會利用這些規(guī)律來進(jìn)行預(yù)測,從而做出適當(dāng)?shù)姆磻?yīng)。
而機(jī)器學(xué)習(xí)中的歷史數(shù)據(jù)就相當(dāng)于人類的經(jīng)驗(yàn),將這些歷史數(shù)據(jù)通過訓(xùn)練得到機(jī)器學(xué)習(xí)模型,當(dāng)機(jī)器要解決實(shí)際問題時可以根據(jù)學(xué)習(xí)模型進(jìn)行預(yù)測,從而得到關(guān)于未知數(shù)據(jù)的一些屬性以做出恰當(dāng)?shù)姆磻?yīng)。在現(xiàn)實(shí)生活中,機(jī)器學(xué)習(xí)有很多重要的應(yīng)用,而圖像識別是其中一個極其重要而又相當(dāng)具有挑戰(zhàn)性的課題。
圖像識別的模式分類
圖像識別是一個模式分類問題,它的目標(biāo)是識別圖像中的物體,劃分到不同的類別,實(shí)現(xiàn)最小的分類誤差。現(xiàn)實(shí)生活中的圖像大致可分為語義級圖像、細(xì)粒度圖像、實(shí)例級圖像3種,申教授認(rèn)為,各個類別屬于不同的物種,往往具有較大的類間方差,而類內(nèi)則具有較小的類內(nèi)誤差。例如識別普適物體的小型數(shù)據(jù)集CIFAR-10,包含了6種動物與4種交通工具。
對于圖像識別而言,人類可以輕易地判斷出圖像中的顏色、形狀、部件等特征,作為識別目標(biāo)的依據(jù),然而圖像在計(jì)算機(jī)中被保存為數(shù)字格式。申教授分析道:機(jī)器學(xué)習(xí)方法可行的前提條件是訓(xùn)練數(shù)據(jù)中包含對預(yù)測任務(wù)有意義的特征,這些特征隱藏在看似毫無意義的數(shù)字之中,因此必須先進(jìn)行特征的提取。
深度卷積網(wǎng)絡(luò)的發(fā)展
在圖像識別的研究歷程當(dāng)中,最主流的算法當(dāng)屬卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)(CNN)以卷積核為基本結(jié)構(gòu)單元,通過局部連接、權(quán)值共享,模擬生物視覺系統(tǒng)的感受野機(jī)制,自動學(xué)習(xí)圖像的特征表示。
LeNet5是早期的卷積神經(jīng)網(wǎng)絡(luò)模型,共有 7 層,具備了卷積層、池化層等深度卷積網(wǎng)絡(luò)中的核心結(jié)構(gòu);AlexNet對卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和訓(xùn)練算法進(jìn)行了大量創(chuàng)新,奠定了深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的優(yōu)勢地位;ResNet通過引入殘差連接,基本消除了增加深度帶來的退化現(xiàn)象,能夠通過單純地增加網(wǎng)絡(luò)深度,來提高網(wǎng)絡(luò)性能;DenseNet將殘差連接的思想發(fā)展到極致,實(shí)現(xiàn)了資源的最大化利用和計(jì)算量的壓縮;Google提出的MobileNets是一個輕量級的深層神經(jīng)網(wǎng)絡(luò),面向移動應(yīng)用設(shè)計(jì),大幅提升了計(jì)算速度。
圖像識別的三大挑戰(zhàn)
在人眼看來,一張圖片就是一幅彩色的圖畫,但是在機(jī)器看來,它就是一大串?dāng)?shù)字,在機(jī)器學(xué)習(xí)的各種應(yīng)用中,圖像識別是一個特別困難的任務(wù),申教授認(rèn)為主要面臨以下三個挑戰(zhàn)。
第一個挑戰(zhàn)是嵌入式深度學(xué)習(xí)。深度卷積網(wǎng)絡(luò)在圖像識別算法中占據(jù)了統(tǒng)治地位,模型精度也在不斷提升,然而相應(yīng)地也帶來了計(jì)算復(fù)雜度的提升。目前有很多嵌入式應(yīng)用需要使用圖像識別技術(shù),但嵌入式平臺往往受到芯片性能、內(nèi)存容量等硬件資源的限制,無法運(yùn)行當(dāng)前主流的深度神經(jīng)網(wǎng)絡(luò),或者無法滿足速度要求。
第二個挑戰(zhàn)是可解釋性。申教授分析道:圖像識別程序像是一個黑盒子,只給出結(jié)果,而不能說明結(jié)果是如何產(chǎn)生的。我們能做的就是把數(shù)據(jù)丟給識別算法,期望它能夠給出正確的答案。但是當(dāng)答案發(fā)生錯誤時,我們無法得知錯誤產(chǎn)生的原因,只能寄望于調(diào)節(jié)參數(shù)之類的手段能讓程序得到改善。目前,算法的可解釋性問題正在逐漸得到重視。
第三個挑戰(zhàn)是對抗樣本問題。深度學(xué)習(xí)中可解釋性的缺失帶來了另一個問題,在某些應(yīng)用環(huán)境中,圖像識別程序可能會受到惡意攻擊,攻擊者試圖“欺騙”圖像識別程序,使程序的預(yù)測出錯。這就要求我們設(shè)計(jì)可靠的神經(jīng)網(wǎng)絡(luò),能夠具有防止惡意攻擊的能力。
未來——不斷發(fā)展與完善
總的來說,即便仍然面臨著非常多的挑戰(zhàn),圖像識別還是取得了很大的成功?,F(xiàn)在的神經(jīng)網(wǎng)絡(luò)都是由人來設(shè)計(jì),在未來,或許會讓程序自己進(jìn)行設(shè)計(jì),讓機(jī)器進(jìn)行增量學(xué)習(xí)、終身學(xué)習(xí),到那時,機(jī)器在應(yīng)用的過程當(dāng)中會不斷感知環(huán)境的變化,然后不斷調(diào)整自己的行為以適應(yīng)環(huán)境需要。
總之,圖像識別是人工智能的一個重要領(lǐng)域,隨著技術(shù)的不斷發(fā)展,圖像識別也會不斷進(jìn)行完善以適應(yīng)更多的需求。