視頻分析技術(shù)通常采用背景分離(背景減除)技術(shù)來進行圖像變化的檢測(所有的視頻分析模式,如入侵、丟包、逆行等都是一種模式的圖像變化)。其思路是對視頻幀與基準背景圖像進行比較,相同位置的像素(區(qū)域)變化則認為是變化了的區(qū)域,對這些區(qū)域進一步處理、跟蹤、識別,得到包括目標位置、尺寸、形狀、速度、停留時間等基本形態(tài)信息和動態(tài)信息,完成目標的跟蹤和行為理解之后,也就完成了圖像與圖像描述之間的映射關(guān)系,從而使系統(tǒng)進一步進行規(guī)則判定,直到觸發(fā)報警。
背景減除法是目前普遍使用的運動目標檢測方法,其算法本身需要大量的運算處理資源,并且仍然會受到光線、天氣等自然條件及背景自身變化(海浪、云影、樹葉搖動等情況)的影響。但是,針對不同的天氣以及自然干擾,已經(jīng)有多種附加算法(過濾器)應用來彌補這些缺陷,隨著芯片能力的提升及算法改進,相信視頻分析技術(shù)會進一步成熟。
視頻內(nèi)容分析的關(guān)鍵技術(shù)
前景目標的探測是視頻分析技術(shù)實施的前提條件。背景減除法是目前視頻分析技術(shù)中用于前景目標探測的最常見方法,其原理是利用當前圖象和背景圖象的差分(SAD)來檢測出運動目標(區(qū)域)的一種方法。此方法可以提供比較完整的運動目標特征數(shù)據(jù),精確度和靈敏度比較高,具有良好的性能表現(xiàn),但對動態(tài)場景的變化,如光線變化情況也比較敏感。背景減除法的工作原理如圖2所示,當前圖像與背景圖像模型做差后形成運動目標區(qū)域,即圖中的小船。
背景模型的建立是背景減除法的關(guān)鍵所在。通常,視頻分析算法需要一定的時間進行“背景學習”,所謂背景學習,實質(zhì)上是利用時間平均圖像的方法,將背景在一個時間段(如30秒鐘)內(nèi)的平均圖像計算出來,作為該場景的背景模型。那么,“背景學習”時間結(jié)束后,系統(tǒng)仍然需要具有“背景維護”的能力,之前建模的背景并不是一成不變的,這樣能保證系統(tǒng)對場景內(nèi)的圖像變化不那么敏感,如光線變化、影子等等,因此,開發(fā)出實用、有效的背景模型以適應動態(tài)、復雜的場景是目標探測及視頻分析技術(shù)的關(guān)鍵。
視頻分析的工作流程
視頻分析實質(zhì)是人工智能的一部分,是通過模仿人類的工作過程來實現(xiàn)的。人類通過眼睛這個“傳感器”實現(xiàn)視頻的采集、預處理、處理然后將真實圖像傳送給大腦,大腦并不是對所有傳送過來的圖像進行整體的分析處理,而是采用多層分級,將背景、緩慢移動及遠處的目標分辨率最低化,忽略一些細節(jié);并對前景感興趣區(qū)進行二次聚焦(我們常說的眼前一亮就是這個意思),獲得更多細節(jié),然后對該區(qū)域進行判定。
圖3所展示的案例是日常生活中常見的情況,圖像是一個地鐵站臺,畫面中出現(xiàn)一個穿紅色衣服的女子,手里拿著一個黑色包放到站臺中的一個空地上,之后迅速離開。這是一個很普通的視頻場景,值班人員對這段場景很容易迅速地提取出特征描述來,即“一個紅衣女子將一個黑色包放在站臺上后迅速離開”,而對這個簡單的信息,值班人員利用眼睛采集到信息,首先是場景(站臺),之后分離出感興趣的前景目標(紅衣女),之后對其跟蹤,最后形成結(jié)論(丟下一個包),之后將整個過程的完整信息傳給大腦去按規(guī)則判定。
無論采用何種視頻分析架構(gòu),其視頻分析過程都是視頻內(nèi)容分析的算法模塊“協(xié)力作業(yè)”的結(jié)果,視頻分析基本過程如下(見圖4):
·加載算法過程:加載用戶的預定義規(guī)則,如防區(qū)、分析模式等;
·過濾器加載:對特殊場景進行預處理如防抖動、雨雪、燈光抑制等;
·背景建模及更新:背景模型建立并自動學習更新背景情況;
·目標提取與跟蹤:提取跟蹤前景變化目標,檢測并分析目標的活動;
·目標分類:對跟蹤的目標進行分類,如人或車輛等;
·視頻分析判斷過程:根據(jù)規(guī)則判斷是否符合預定義規(guī)則;
·觸發(fā)報警過程:確定目標活動違反規(guī)則,根據(jù)預定義傳輸報警到指定的用戶。
視頻分析技術(shù)難點
視頻分析技術(shù)本身并不是一項新技術(shù),但其在視頻監(jiān)控系統(tǒng)中的應用還僅僅處于起步階段,它給視頻監(jiān)控系統(tǒng)帶來了顛覆性的革命,具有美好的發(fā)展遠景。目前,視頻分析系統(tǒng)本身有一些技術(shù)問題有待提升,下面是一些需要克服的技術(shù)難點。
光照適應性
通常,視頻監(jiān)控系統(tǒng)需要24小時晝夜工作,所處環(huán)境的光照情況也是一直處于變化中,如晝夜的交替、陰晴雨雪霧等天氣條件,及外界光源干擾,如照明燈光、逆光、反光、車燈,還有室外云彩、云影的動態(tài)變化等,所有這些都對視頻分析核心算法的光照適應性提出了嚴格的要求,優(yōu)異的視頻分析算法應該具有先進的背景學習、更新、維護功能。
自然天氣變化
雨、雪、霧、沙塵天氣、煙霧、氣流、云影等,體現(xiàn)的不僅僅是光照的變化,而是真正的圖像像素變化,這些“小假象”會導致系統(tǒng)視為場景中有物體在移動,從而干擾了真正的目標探測,浪費系統(tǒng)資源,因此,需要采用“過濾”機制將這些干擾做過濾處理。
背景的高頻率變化
在視頻圖像背景中,可能出現(xiàn)搖動的樹葉、晃動的波浪、光線反射、物體的反光、草地的微動等等現(xiàn)象,這些現(xiàn)象都可能造成畫面像素出現(xiàn)變化,從而導致誤報。系統(tǒng)需要具有先進的過濾器,實現(xiàn)對規(guī)則往復性、細小運動進行過濾,使其集中精力在前景。
高速移動目標
視頻分析系統(tǒng)基于自身算法及目前處理器的運算處理能力,通常對非實時視頻圖像進行分析(如每秒采用12幀或6幀),這樣當像素的采用頻率比較低的時候,視頻分析算法需要連續(xù)分析一定數(shù)量的幀才能確定是否報警,而這時如果需要的分析時間長于入侵者通過防范區(qū)域的時間,入侵者可能已經(jīng)完成入侵動作而導致系統(tǒng)漏報。
視頻分析的架構(gòu)
目前,在實際應用中,視頻分析產(chǎn)品主要有三種架構(gòu):一種是基于后端的服務器(軟件算法運行于CPU);第二種是基于前端的IPC或DVS;第三種是利用前端嵌入式視頻分析設備(僅僅做視頻分析,不做編碼壓縮工作)。其中,第三種方式是在嵌入式設備中固化視頻分析模塊,利用網(wǎng)絡客戶端進行遠程配置與報警管理。三種架構(gòu)也可以按照目前主流說法分成兩大類,即前端分析與后端分析(見圖5)。
需要注意的是,對于視頻分析功能,最根本的考核是性能,即良好的探測率和較低的誤報率。其實視頻分析架構(gòu)方式并不是最重要的,其實質(zhì)都是視頻分析算法來完成的,只不過是運行平臺不同,一個在DSP上,一個在計算機的CPU上,也不存在某種方式絕對好與壞,實際應用中應該根據(jù)項目的規(guī)模、前期設備的架構(gòu)、用戶的需求、網(wǎng)路建設等具體情況進行選擇部署。
視頻分析技術(shù)實施誤區(qū)
視頻分析的設置本身并不難,通常步驟是:選擇好視場、明確分析模式,然后進行防區(qū)、分辨率、靈敏度、各種過濾器的選擇和使用。設置視頻分析的過程很快,但是,對一個通道視頻分析進行參數(shù)微調(diào)、現(xiàn)場模擬、參數(shù)修正、再模擬、算法優(yōu)化、效果觀察等工作卻是一個漫長而復雜的工作。在各環(huán)節(jié)中,要解決 “提高探測率,降低誤報率”的問題,必須長期地嘗試和試驗,這也是視頻分析廠家實驗室產(chǎn)品和真正可投入應用的產(chǎn)品的最大區(qū)別。
視頻分析產(chǎn)品的真正考量在室外環(huán)境,對于室內(nèi)環(huán)境,廠商基本可以進行模擬試驗,問題不大。但是對于大型戶外項目,環(huán)境復雜、遇到的問題比較多,系統(tǒng)調(diào)試階段工作量比較大,從調(diào)試到試運行,可能需要不止一次的現(xiàn)場模擬、參數(shù)微調(diào)、效果觀察、統(tǒng)計、再模擬過程。每個項目有自己的特點、一個項目中各點位有自己的特點,各點位又有不同的應用需求,并且視頻分析產(chǎn)品并非是“即插即用”的產(chǎn)品,因此必須針對不同的項目、不同的點位、不同的需求進行有針對地實施。
視頻分析技術(shù)具有一定的復雜度,國際上真正掌握視頻分析算法的廠家并不多,從掌握算法、推出實驗室產(chǎn)品到產(chǎn)品真正能夠投入項目運行,還有很長的路要走。對于一些非常普遍的場景,在實驗室中進行模擬有一定困難,因此許多廠家利用工程項目實施過程,不斷修正參數(shù)以適應不同的環(huán)境,這并不代表廠家的產(chǎn)品不成熟,反而是廠家實力的體現(xiàn)。