從技術方面來說,圖像信息的自動解釋關系圖像系統(tǒng)最核心的問題——圖像信息的利用水平??梢哉f:圖像信息的自動解釋是監(jiān)控系統(tǒng)智能化標志,是現(xiàn)代視頻監(jiān)控的基本特征。
圖像信息的自動解釋有兩個基本途徑:一是圖像識別,主要利用圖像信息的空間分辨能力,實現(xiàn)個體的身份認證;二是圖像內容分析、主要是利用圖像信息的時間分辨能力,理解圖像,進行目標行為的分析。
圖像識別
主要是指通過對一幀圖像中指定目標的特征識別,實現(xiàn)個體身份認證,典型的實例是人臉識別。研究證明,人的行為也是一種生物特征,如步態(tài),眼部動作等。對人步態(tài)的分析可以用于個體的識別,但它是通過對一段圖像序列的識別來進行個體身份的認證。無論什么方式,圖像識別都有要求兩個基本條件,一是定義特征、一是建立一定數(shù)量的樣本數(shù)據庫。定義特征,選擇具有唯一性和相對穩(wěn)定的特征來表示個體,如用人臉上的標志點來形成特征矢量。樣本數(shù)據庫,按特征的定義采集一定數(shù)量(根據應用)的樣本特征,建立樣本庫。
圖像識別的基本工作方法是:將現(xiàn)場采集的目標特征數(shù)據與樣本庫中的數(shù)據進行比對。這就這要求現(xiàn)場采集的特征數(shù)據和樣本庫數(shù)據具有相關(可比)性,因此、必須建立一個適當限制的應用環(huán)境,才能保證系統(tǒng)正常的工作。
個體身份認證是安全系統(tǒng)最迫切的要求,近年來、有了大量的成果,也有了初步的應用,主要有兩種方式:第一是驗證,識別監(jiān)控目標,確認目標的身份及正在發(fā)生行為的合法性。是安防系統(tǒng)的功能和典型應用;第二則是識別,將現(xiàn)場采集的特征與樣本庫進行比對,確定目標的身份,以發(fā)現(xiàn)事件的相關線索。是偵察工作的典型應用。系統(tǒng)要建立海量的樣本數(shù)據庫。通常的視頻監(jiān)控系統(tǒng)達不到上述應用的環(huán)境條件。
圖像識別系統(tǒng)包括:圖像輸入、圖像的預處理、特征的提取和圖像的解釋(識別)等技術環(huán)節(jié)和設備。其關鍵技術或難點在于實現(xiàn)系統(tǒng)能在一種適當控制的環(huán)境下,針對移動目標實時地運行,這些目標通過靜止攝像機可能會產生大小不同、角度不同及光照效果不同的圖像。并在各種可能的非最佳條件下進行識別,如由于年齡、面部表情、配飾(眼鏡、帽子)及可能的偽裝(化妝)造成圖像的差異。就要求系統(tǒng)采用適當?shù)膱D像輸入方法和預處理技術,以保證圖像特征有效地提取,樣本的生成和數(shù)據庫的建立。
圖像識別的方法基本上分為統(tǒng)計方法和結構分析兩類,前者是以數(shù)學決策理論為基礎,建立統(tǒng)計學的識別模型,指紋、掌形的識別多采用這種方法,其特點是穩(wěn)定、但很少利用圖像本身的結構關系。后者則主要是分析圖像的結構,它充分地發(fā)揮了圖像的特點,但容易受圖像生成過程中噪聲干擾的影響。
[nextpage]
圖像內容分析
由于通常的監(jiān)控系統(tǒng)不適合于進行圖像識別,監(jiān)控系統(tǒng)的智能化就必須尋找新的途徑。圖像內容分析就成了智能監(jiān)控的切入點。圖像內容分析,自主的定義(簡單)特征、不與原始輸入相對比;通過目標狀態(tài)和行為的分析,理解圖像內容(判斷正常/不正常、預測趨勢);通過圖像關聯(lián),實現(xiàn)目標的識別。
圖像內容分析分為兩個層次:首先是視頻探測,視頻探測在模擬電視技術中就已得到了應用。在一幅上開圖像一個窗口,檢測其亮度電平的變化,就可以實現(xiàn)探測。通過一系列窗口的監(jiān)測其亮度電平的變化,就可以實現(xiàn)運動探測。但它不是真正的視頻探測,因為它不能確定目標。在數(shù)字視頻基礎上,首先確認圖像中的探測目標,然后再進行其行為的分析,判斷出圖像中是否出現(xiàn)了“不正?!鼻闆r,及時發(fā)出報警。是真正的視頻探測,它可準確地判斷事件,實現(xiàn)真實探測。視頻探測還非常適于空間的多維探測和多參數(shù)探測,同時地處理來自不同方位攝像設備的圖像信號,可以作到對目標多方位的監(jiān)控,實現(xiàn)對特定空間和目標的完全封閉;其次是視頻語義解釋,通過閱讀一段圖像,理解圖像的內容(視頻語義)并把它表達出來,它描述的不是圖像本身,而是圖像的結構及表現(xiàn)的內容、情節(jié),既視頻語義。根據語義可以對圖像信息進行標引,在記錄圖像的同時,生成鏡像的標引文件,然后可以通過標引文件對存貯信息進行快速和準確的檢索;進而實現(xiàn)圖像信息間的關聯(lián),圖像信息與聲音、圖形、文本信息之間的關聯(lián),這是圖像信息深化應用的前提。
圖像內容分析研究的過程分四個階段,產品和應用也分四個層面;第一是將(運動)目標從視頻圖像中分離出來。并能在簡單環(huán)境下(單目標、背景單純)對目標分類;第二是在簡單環(huán)境下對目標進行行為分析,判定其運動的方向、方式、目標的復合或離散,發(fā)現(xiàn)和告警異常的行為;產生目標的運動軌跡,并能進行目標的自動跟蹤;進行目標的統(tǒng)計、關聯(lián)、過濾、趨勢預測等。第三是在復雜環(huán)境(既通常的視頻監(jiān)控環(huán)境)下實現(xiàn)上述功能,并實現(xiàn)(單源、多源)圖像的關聯(lián);第四是實現(xiàn)視頻語義的解析,通過對一個圖像序列的理解,做出視頻語義解釋。目前已有了一些成果,但尚不具實用性。其中第三個階段是技術實用性的關鍵,達到了這一點,系統(tǒng)才具有應用價值,目前大多數(shù)產品還達不到這一階段。
視頻的語義解釋是內容分析的最高境界,它表明機器具有了與人一樣的理解圖像的能力,但具有人所不能達到的效率,目前還達不到這個程度。關于圖像結構和內容的描述還需要目視解釋的幫助。前三階段的工作可稱為視頻的半語義解釋。主要是判斷圖像中是否出現(xiàn)了不正常的情況,還不能準確、充分地理解圖像內容。