基于上下文感知的智能視覺分析系統(tǒng)

來源：數(shù)字音視工程網(wǎng) 編輯：上善如水 2015-04-08 10:47:16 加入收藏

智能視頻監(jiān)控屬于第四代視頻安防監(jiān)控技術(shù)，它是新技術(shù)發(fā)展推動下的必然結(jié)果。在這一歷史性的技術(shù)演進中，計算機視覺技術(shù)扮演著核心的角色。從內(nèi)涵上看，現(xiàn)代...

　　智能視頻監(jiān)控屬于第四代視頻安防監(jiān)控技術(shù)，它是新技術(shù)發(fā)展推動下的必然結(jié)果。在這一歷史性的技術(shù)演進中，計算機視覺技術(shù)扮演著核心的角色。從內(nèi)涵上看，現(xiàn)代計算機視覺技術(shù)已經(jīng)不再僅僅停留在光學幾何(如2D和3D建模)和基于數(shù)字圖像處理學的特征提取方面，它更建立在連同傳統(tǒng)人工智能在內(nèi)的建模、學習和推理等機器學習理論之上。從外延上看，傳統(tǒng)的計算機視覺技術(shù)被稱為機器視覺，主要應用在需要精密光學測量定位的自動化生產(chǎn)線等工業(yè)領域，而現(xiàn)代計算機視覺技術(shù)則已拓展到了更加廣闊的應用領域，智能視頻監(jiān)控就是一個典型的實例。

　　視頻監(jiān)控智能化的核心問題

　　2013年3月中國國內(nèi)報道了吉林省長春市嬰兒被偷車賊殘害的案例，有媒體質(zhì)疑：“平安城市”這樣的大范圍安防監(jiān)控項目為什么沒有發(fā)揮應有的聯(lián)動預警作用?類似的反思也針對同年4月在美國馬薩諸塞州波士頓馬拉松比賽中發(fā)生的爆炸案，犯罪嫌疑人不是被通過視頻監(jiān)控系統(tǒng)主動發(fā)現(xiàn)其異常行為鎖定的，而是警方基于犯罪現(xiàn)場物證的反向推演在監(jiān)控錄像中圈定的。這些例證都說明了一個核心問題，即在提升智能視頻監(jiān)控的有效性方面，如何讓系統(tǒng)在廣域范圍內(nèi)產(chǎn)生針對同一個視頻場景事件或特定行為的主動感知，并建立起一條高度關(guān)聯(lián)的邏輯推理鏈條。

　　基于計算機網(wǎng)絡技術(shù)和人工智能技術(shù)的最新成果，我們認為完全可以從技術(shù)上考慮實現(xiàn)一種有效的信息處理系統(tǒng)，用以滿足上述來自實際應用領域?qū)χ悄芤曨l監(jiān)控系統(tǒng)的需求。系統(tǒng)總體的架構(gòu)是：分區(qū)域設立分布式的視頻監(jiān)控中心，采用智能前端設備和監(jiān)控中心聯(lián)合對本地化的視頻數(shù)據(jù)進行存儲及智能分析，這一層的功能主要是面向?qū)崟r過程，發(fā)現(xiàn)局部和區(qū)域分布范圍內(nèi)整體的視頻場景事件;在更廣域的范圍內(nèi)(如市縣級“智慧城市”工程的監(jiān)控范圍)，由更高層的數(shù)據(jù)管理中心對來自分布式監(jiān)控的視頻數(shù)據(jù)進行存儲、分析和集中管理，這一層主要是面向信息服務，同時非實時地兼顧個別沒有智能視覺分析功能部署的區(qū)域過程，統(tǒng)籌全局的視頻場景事件。

　　從單點到區(qū)域范圍的智能化

　　智能視覺監(jiān)控系統(tǒng)的“單點智能化”指的是使監(jiān)控點的前端設備(也可能包括高清一體化攝像機)具備智能視覺分析和識別的能力。各個前端設備(包括前端的智能終端，如DVR、NVR、IPC等)的智能化功能根據(jù)監(jiān)控業(yè)務的不同可能會有差別，但總的歸納起來應該包括：移動目標的檢測和跟蹤、目標的分類、人臉檢測、跟蹤和識別、車牌檢測和牌號識別、場景事件檢測、目標的特定行為識別。智能前端設備分析輸出的結(jié)果是以元數(shù)據(jù)的形式存儲和傳遞的。

　　當監(jiān)控場景內(nèi)的目標從一個視場中移出并進入另外一個部分重疊的視場時，為了實現(xiàn)連續(xù)的目標跟蹤，通常需要在攝像機之間進行接力。對于一個完整意義上的智能視覺監(jiān)控系統(tǒng)來說，能夠通過前端設備的單點智能化分析單一場景內(nèi)發(fā)生的事件和目標的行為是基本的要求，此外還必須在監(jiān)控中心依靠攝像機傳感網(wǎng)絡內(nèi)鄰近的其他攝像機，從多通道、多區(qū)域中獲取連續(xù)的視頻序列，并對其進行視覺綜合分析，這就是“區(qū)域范圍的智能化”的含義。這是一種把單點智能通過元數(shù)據(jù)連接在一起構(gòu)成的系統(tǒng)智能的能力。

　　分布式智能視覺監(jiān)控系統(tǒng)基于大規(guī)模攝像機傳感網(wǎng)絡，為了提高系統(tǒng)在整體性能上對事件檢測和行為識別的準確率，有必要把部署在監(jiān)控中心的智能分析系統(tǒng)與各個監(jiān)控現(xiàn)場獨立通道上的智能分析結(jié)果進行集成，以構(gòu)成一個自底向上和頂向下結(jié)構(gòu)的反饋系統(tǒng)。系統(tǒng)在收集和記錄海量視頻數(shù)據(jù)的同時，也在時刻傳遞著、計算著描述場景內(nèi)容特征的元數(shù)據(jù)。這種以元數(shù)據(jù)為中心的網(wǎng)絡計算環(huán)境被稱為“上下文環(huán)境”，簡稱上下文。

　　智能視覺監(jiān)控系統(tǒng)中的元數(shù)據(jù)

　　元數(shù)據(jù)是一種特殊的二次信息，用來描述原始信息本身的內(nèi)容、質(zhì)量、狀況和其它特性，通常用對于數(shù)據(jù)的自動檢索和數(shù)據(jù)挖掘。分布式智能視覺監(jiān)控系統(tǒng)中的元數(shù)據(jù)由兩個層次組成，即基本屬性信息，以及描述場景內(nèi)容的信息。分布式智能視覺監(jiān)控系統(tǒng)追求的目標就是構(gòu)造一個完整的W6(發(fā)生了什么事?發(fā)生在哪里?發(fā)生在什么時間?發(fā)生時場景內(nèi)都有誰?為什么會發(fā)生?怎么發(fā)生的?)系統(tǒng)，其中“時間和地點”是在非智能化系統(tǒng)中就固有的功能。對這些問題的回答就蘊藏在描述場景內(nèi)容特征的元數(shù)據(jù)當中。元數(shù)據(jù)在系統(tǒng)中傳遞和進一步深層利用的過程就是所謂“上下文感知”的過程。其目的是：通過對元數(shù)據(jù)進行分層融合的處理，實現(xiàn)一個有效的分布式智能視覺分析系統(tǒng)。

　　元數(shù)據(jù)——基本的屬性信息?；緦哟蔚脑獢?shù)據(jù)無需經(jīng)過智能視覺分析算法的輸出即可得到。為了對場景事件和目標的行為有一個完備的屬性記錄，主要包括基本的屬性信息，如：錄像時間、地點信息、攝像機的參數(shù)、設備制造商、安裝者、用戶信息。

　　元數(shù)據(jù)——描述場景內(nèi)容的信息。這部分元數(shù)據(jù)來自于對場景視頻進行實時分析的結(jié)果，按照其描述的范圍分類，主要有局部場景內(nèi)的元數(shù)據(jù)(來自于智能前端設備的分析輸出)和全局場景內(nèi)的元數(shù)據(jù)(由分布式視頻監(jiān)控中心的上下文感知算法產(chǎn)生)。

　　上下文感知環(huán)境的建立

　　為了實現(xiàn)分布式智能視覺分析系統(tǒng)的“上下文感知”功能，首先需要構(gòu)建一個強大的視覺信息傳感網(wǎng)絡，此外還需要一個支持元數(shù)據(jù)分層融合的邏輯路由。

　　視覺信息傳感網(wǎng)絡

　　在基于視覺信息傳感網(wǎng)絡的分布式視頻監(jiān)控系統(tǒng)中，監(jiān)控攝像機獲取足夠清晰的視頻輸入可以提高監(jiān)控系統(tǒng)對智能事件檢測和行為識別的可靠性。視頻數(shù)據(jù)(圖像)的質(zhì)量體現(xiàn)在如下三個方面的技術(shù)指標：圖像的品質(zhì)和高清效果;對視場環(huán)境中干擾因素的抑制;對攝像機視覺功能異常的檢測和緊急處理。

　　攝像機成像的品質(zhì)和高清效果一般通過攝像機前端鏡頭和傳感器部分保證。對視場內(nèi)干擾因素的抑制也是衡量攝像機性能高低的重要條件，這些因素主要包括：低照度條件、寬動態(tài)響應、景物色彩溫度的改變和大氣中的霧霾等。在這些因素條件下都需要攝像機對場景的視頻質(zhì)量進行增強。

　　在視覺監(jiān)控系統(tǒng)中，攝像機的視覺功能異常通常意味著整個系統(tǒng)的原始視頻輸入受到嚴重干擾。無論是人為蓄意還是由設備或環(huán)境因素所致，視覺功能異常對系統(tǒng)的效能都有很大的影響，甚至隱含著對攝像機設備的安全威脅。產(chǎn)生所謂“攝像機視覺功能異常”的可能原因有：人用手至于攝像機前、在攝像機上噴漆或移動攝像機使其指向其他方向。這些行為一定會超過數(shù)秒，因此如何判斷真正的攝影機異常而不是因為人群移動或是車輛震動或其他正常的原因是真正技術(shù)所在。圖1所示是為一種因人為惡意遮擋導致的攝像機視覺功能異常。

　　對攝像機視覺功能異常的檢測一旦實現(xiàn)，便可立即在視覺信息傳感網(wǎng)絡內(nèi)部觸發(fā)“傳感器安全威脅”緊急事件管理，在監(jiān)控中心端重新優(yōu)化分布式系統(tǒng)的視覺跟蹤進程圖。

　　元數(shù)據(jù)的邏輯路由

　　在圖2所示的分布式智能視頻監(jiān)控系統(tǒng)拓撲圖中，黑色箭頭表示元數(shù)據(jù)在系統(tǒng)網(wǎng)絡上的流動情況。流動方向可以是雙向的，即智能前端設備的元數(shù)據(jù)為監(jiān)控中心提供全局場景分析所用的局部描述特征，而監(jiān)控中心根據(jù)自己的計算結(jié)果補充前端智能結(jié)點在觀測信息上的局限性。

　　描述本地場景特征的元數(shù)據(jù)在分布式智能視頻監(jiān)控系統(tǒng)的前端設備上計算生成后，需要先在視覺信息傳感網(wǎng)絡內(nèi)部傳遞，然后在監(jiān)控中心端被深度利用以生成描述廣域監(jiān)控范圍場景的元數(shù)據(jù)。元數(shù)據(jù)的邏輯路由通常采用與海量視頻數(shù)據(jù)相對獨立的信息層，按照 “數(shù)據(jù)的分層傳輸方法”，在TCP/IP協(xié)議集中實現(xiàn)。

　　作為傳輸和利用元數(shù)據(jù)的另一種方案，在新一代面向智能視頻監(jiān)控的視頻編碼標準中，描述場景特征的元數(shù)據(jù)被封裝在兩個新型的信息層(對象層和分析層)中，不僅進一步在編碼標準的基本層實現(xiàn)基于感興趣區(qū)域的空域分辨率可調(diào)整編碼，也為智能視覺分析算法提供了一個完整的元數(shù)據(jù)邏輯路由。

　　上下文感知算法

　　分布式智能視頻監(jiān)控系統(tǒng)的有效性是以具備上下文感知能力的視覺分析系統(tǒng)為前提的。上下文感知算法在分布式智能視頻監(jiān)控系統(tǒng)中扮演著重要角色，它關(guān)注的是對智能前端設備內(nèi)產(chǎn)生的元數(shù)據(jù)的深度利用，而不關(guān)心局部場景的元數(shù)據(jù)在前端設備上如何產(chǎn)生。

　　傳感網(wǎng)絡環(huán)境下的攝像機定標

　　攝像機所處理的原始視頻(圖像)數(shù)據(jù)都可看作是3D世界坐標系下的真實數(shù)據(jù)在以該攝像機焦點為中心的2D圖像坐標系中的投影。由于每臺攝像機都有各自的2D圖像坐標系，因此要正確地關(guān)聯(lián)和融合來自傳感網(wǎng)絡中不同攝像機的元數(shù)據(jù)，必須先對各個攝像機進行定標。由于不同的攝像機之間可能存在色彩敏感度和空間分辨率上的差異，或者工作在不同的光照條件下，因此定標工作應不僅僅針對空域進行，還應當包括時域和顏色空間。嚴格地說，攝像機的定標不屬于上下文感知算法的一部分，但是它是非常必要的，可為上下文感知算法提供前置的預處理。

　　對攝像機進行空域定標后，將會導出兩個變換矩陣和，分別用于把不同視場內(nèi)的元數(shù)據(jù)變換到統(tǒng)一的世界坐標系中以及把世界坐標系下的數(shù)據(jù)投影到2D圖像坐標系中，這實際上為元數(shù)據(jù)在更廣監(jiān)控范圍內(nèi)的深度利用提供了可能。對攝像機進行時域定標時，需要針對不同攝像機觀測到的同一個運動目標進行軌跡的匹配，以求出針對不同攝像機時鐘的時間彎折曲線，在實際應用中比較復雜。對攝像機進行顏色空間上的定標還要考慮不同光照條件下的實驗數(shù)據(jù)收集，應用操作起來更加繁瑣。

　　在實際工程項目中，如果定標不準確或是略去對攝像機在時域和顏色空間的定標，必然會降低不同的視覺信息通道向監(jiān)控中心提供元數(shù)據(jù)的可靠性，比如對場景內(nèi)同一個目標的特征描述出現(xiàn)不一致甚至沖突的問題。這時為了得到可靠的元數(shù)據(jù)以描述全局監(jiān)控場景的實時狀態(tài)，可對元數(shù)據(jù)進行融合。有兩種方法可以采用：其一，通過網(wǎng)絡，在監(jiān)控中心對元數(shù)據(jù)進行狀態(tài)估計;其二，選擇合適的場景事件模型，在監(jiān)控中心對由元數(shù)據(jù)組成的事件進行推理。

　　全局場景的視覺跟蹤

　　在基于攝像機傳感網(wǎng)絡的分布式視頻監(jiān)控系統(tǒng)中，監(jiān)控中心收到來自各個前端設備的視頻流及相關(guān)的元數(shù)據(jù)通常描述的是有限時空范圍的視覺信息，由于攝像機定標不準確(詳見前述內(nèi)容)、場景的噪聲和目標被遮擋等原因，分析得出的元數(shù)據(jù)存在不確定性的特點。為了實現(xiàn)在監(jiān)控中心對全局區(qū)域內(nèi)感興趣目標可靠的視覺跟蹤，可以采用一種分層式點對點的多攝像機元數(shù)據(jù)融合算法。

　　該數(shù)據(jù)融合算法基于一種策略，以監(jiān)控中心的世界坐標系為參考，把來自不同智能攝像機或是智能視頻分析通道的元數(shù)據(jù)合并為一個大的向量，使用分層Kalman預測器對場景內(nèi)被智能前端設備鎖定的多個視覺目標進行可靠跟蹤，并從這個大向量的分量重發(fā)現(xiàn)場景中的異常事件。算法的底層指的是各個智能前端設備的監(jiān)控層，上層指的是監(jiān)控中心層。

　　全局場景的事件融合

　　在不同領域知識的背景下，元數(shù)據(jù)的組合可以構(gòu)成事件;另一方面，事件具備多種由元數(shù)據(jù)表征的屬性。元數(shù)據(jù)本身只是屬性或特征的度量，而事件才能表達場景內(nèi)的語義，事件具備原子性，由它可進一步構(gòu)造對場景語義的句法描述。

　　多種原因，如：攝像機定標不準確(詳見前述內(nèi)容)、視頻場景的噪聲和目標被遮擋等，常會降低各個智能前端通道分析得出的元數(shù)據(jù)可靠性，這時為了依然保證監(jiān)控中心對全局場景事件檢測的準確性，可以在事件模型中對其屬性(元數(shù)據(jù))進行融合，然后得出優(yōu)化的推理結(jié)果。圖3 所示為在基于多攝像機傳感網(wǎng)絡的環(huán)境下，全局場景事件的檢測和識別可以通過對多臺攝像機傳遞的本地元數(shù)據(jù)進行融合而得到。

　　結(jié)語

　　本文提出了一種具備上下文感知功能的分布式智能視覺分析系統(tǒng)。對上下文和上下文感知給出了具體的物理意義和實現(xiàn)手段。

　　以元數(shù)據(jù)為中心設計的分布式系統(tǒng)，能夠保證場景異常事件或特定行為發(fā)生時，在多臺攝像機構(gòu)成的多通道傳感器網(wǎng)絡內(nèi)實現(xiàn)元數(shù)據(jù)的傳遞和數(shù)據(jù)融合，從而提高在監(jiān)控中心全局意義上對場景事件識別的準確率。元數(shù)據(jù)的融合在監(jiān)控中心進行，因而可在全局意義上得到所監(jiān)控區(qū)域的場景視圖。

　　一個典型的上下文感知智能視覺分析系統(tǒng)能夠在場景內(nèi)事件觸發(fā)時，把元數(shù)據(jù)送入監(jiān)控中心的事件隊列，然后依據(jù)上下文感知算法對元數(shù)據(jù)進行融合，使事件隊列優(yōu)化，最終得出高可靠性的對全局事件的識別。

免責聲明：本文來源于網(wǎng)絡收集，本文僅代表作者個人觀點，本站不作任何保證和承諾，若有任何疑問，請與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請注明來源)