視覺物聯(lián)網(wǎng)顧名思義就是前端傳感器是由圖象和視頻傳感器構(gòu)成,這個(gè)東西非常重要,比如在人大腦皮層中有相當(dāng)大一部分,超過(guò)一半大腦皮層是用于視覺感知的,我們認(rèn)為視覺感知是我們認(rèn)識(shí)周遭世界的途徑,所以我認(rèn)為視覺物聯(lián)網(wǎng)在物聯(lián)網(wǎng)當(dāng)中應(yīng)該是起著非常重要的作用。對(duì)于通用的視覺物聯(lián)網(wǎng)也有四個(gè)層面,首先是視覺傳感,第二是數(shù)據(jù)傳輸,第三是智能信息處理與理解識(shí)別,第四是應(yīng)用。它的主要特點(diǎn)就是利用各類視覺傳感器來(lái)獲得周圍我們感興趣的圖象和視頻,包括手持設(shè)備,包括網(wǎng)絡(luò)攝象頭,包括監(jiān)控?cái)z象頭,包括數(shù)碼相機(jī),甚至包括網(wǎng)絡(luò)上各種各樣圖片,都是我們獲得圖象和視頻信息的來(lái)源。其中一個(gè)重要的核心技術(shù)就是所謂的視覺標(biāo)簽的提取與利用,我們知道RFID有RFID的標(biāo)簽,什么是視覺標(biāo)簽?zāi)兀烤褪菍?duì)圖象和視頻當(dāng)中的內(nèi)容進(jìn)行識(shí)別、理解和分類。目前應(yīng)用當(dāng)中最主要的有三個(gè)大類,首先是對(duì)人這樣一個(gè)標(biāo)簽的理解,比如人的身份,其次是對(duì)車,比如車牌、車型,還有各種各樣的物件,包括超市,包括生活當(dāng)中各種各樣的物件,比如一幅畫,就是人車之外的物件。
智能視覺物聯(lián)網(wǎng)重要的就是對(duì)人車物貼視覺標(biāo)簽,這個(gè)也是類比于RFID這樣一個(gè)標(biāo)簽來(lái)的,我們要通過(guò)各種各樣的傳輸網(wǎng)絡(luò),對(duì)數(shù)據(jù)進(jìn)行傳輸,這些網(wǎng)絡(luò)包括無(wú)線網(wǎng)、因特網(wǎng)、視頻網(wǎng)。通過(guò)網(wǎng)絡(luò)的傳輸與信息處理與分析,建立起跨傳感器,跨攝像機(jī),跨時(shí)間、跨空間的視覺標(biāo)簽的提取與他們的關(guān)聯(lián)。他們的關(guān)聯(lián)是網(wǎng)絡(luò)狀態(tài)下非常重要的特點(diǎn)。如果我們對(duì)某一路的監(jiān)控?cái)z像進(jìn)行分析的話,還沒有形成一個(gè)網(wǎng)絡(luò)的力量,只有在我們對(duì)跨一個(gè)大范圍的視覺信息進(jìn)行綜合識(shí)別與融合,與挖掘之后,才能顯示出這個(gè)物聯(lián)網(wǎng)的作用。
剛才我提到傳輸,今天我們會(huì)議主題之一是三網(wǎng)融合,三網(wǎng)融合其實(shí)是對(duì)數(shù)據(jù)進(jìn)行傳輸?shù)钠脚_(tái)。如何利用各種各樣的網(wǎng)絡(luò),各種各樣的終端,包括移動(dòng)終端,固定終端以及視頻終端進(jìn)行這樣一個(gè)信息的處理加工與利用,是我們視覺物聯(lián)網(wǎng)所要解決的一個(gè)重要的問題。
現(xiàn)在再說(shuō)一下視覺物聯(lián)網(wǎng)當(dāng)中的一個(gè)核心技術(shù),就是用視覺理解的手段給人車或者其他物件貼標(biāo)簽。比如說(shuō)給人貼標(biāo)簽,給車貼標(biāo)簽,給物貼標(biāo)簽,這個(gè)標(biāo)簽包含各種各樣的物件的屬性,包括它的名稱、它的ID,它的顏色,它的身份,它的發(fā)生的地點(diǎn),以及各種各樣的屬性。我們要利用視覺理解或者圖象處理與計(jì)算機(jī)視覺的技術(shù)手段完成實(shí)現(xiàn)這樣一些功能。視覺標(biāo)簽與RFID標(biāo)簽的區(qū)別是什么呢?RFID距離是比較近的,比如刷一個(gè)門卡,或者車上有一個(gè)RFID一個(gè)天線,我們要收費(fèi),或者RFID會(huì)被別人用,利用視覺標(biāo)簽可以在更遠(yuǎn)距離對(duì)物體進(jìn)行識(shí)別,這是視覺標(biāo)簽和RFID標(biāo)簽之間最顯著區(qū)別,打破了距離和范圍的限制,并且在多個(gè)物體同時(shí)出現(xiàn)的時(shí)候不會(huì)出現(xiàn)混淆,因?yàn)槊總€(gè)物體應(yīng)該有一個(gè)唯一標(biāo)簽。這個(gè)標(biāo)簽是比較虛擬化的標(biāo)簽,他會(huì)把這些標(biāo)簽,我們對(duì)這些物體,對(duì)人車物提取標(biāo)簽之后,會(huì)把信息存儲(chǔ)到數(shù)據(jù)庫(kù)。
從他的應(yīng)用來(lái)講,我們可以根據(jù)標(biāo)簽的屬性對(duì)視覺物聯(lián)網(wǎng)的應(yīng)用進(jìn)行分類,比如面向人的視覺標(biāo)簽系統(tǒng),他一個(gè)最典型的應(yīng)用就是人臉識(shí)別或者是人口管理、身份管理。面向車的視覺標(biāo)簽的系統(tǒng)的應(yīng)用就是智能交通,識(shí)別車牌、車型以及車的速度,以及他是不是違反交通規(guī)則。對(duì)其他物件標(biāo)簽的應(yīng)用就應(yīng)用更廣了,比如我們超市每一個(gè)物件都會(huì)有一個(gè)標(biāo)簽。所以,他的應(yīng)用會(huì)包括身份識(shí)別,門禁系統(tǒng),社保身份識(shí)別,銀行帳戶管理,還有電子商務(wù),網(wǎng)絡(luò)購(gòu)物等等。智能交通就是交通指揮、車輛違章檢測(cè),路口信息監(jiān)測(cè)等等,還有其他物件標(biāo)簽,比如在博物館會(huì)用一些監(jiān)控?cái)z象頭對(duì)展品進(jìn)行監(jiān)控。
下面通過(guò)一個(gè)實(shí)例來(lái)說(shuō)明,剛才大家談到物聯(lián)網(wǎng)的時(shí)候,更多是從宏觀角度,從這樣一個(gè)設(shè)想的角度來(lái)談這樣一些架構(gòu),其實(shí)這個(gè)東西可以利用現(xiàn)在的技術(shù)應(yīng)用。我重要講解的一個(gè)實(shí)例就是三網(wǎng)融合的人臉識(shí)別,什么是三網(wǎng)融合呢?我也是借助廣電系統(tǒng)的這個(gè)詞,但是它確實(shí)是包括了電信網(wǎng)、互聯(lián)網(wǎng)、最后一個(gè)電視網(wǎng)我們稍微有點(diǎn)不一樣,視頻網(wǎng)指的是監(jiān)控視頻網(wǎng)絡(luò)。這樣跟廣電系統(tǒng)的三網(wǎng)融合大部分是重合的。
電信網(wǎng)是把電信網(wǎng)這樣一個(gè)平臺(tái)作為手持設(shè)備的傳輸渠道,互聯(lián)網(wǎng)可以是無(wú)線的,也可以是有線的,把互聯(lián)網(wǎng)作為一個(gè)固定終端的傳輸起到,視頻網(wǎng)把視頻信號(hào)通過(guò)有線和無(wú)線方式進(jìn)行傳輸。所以,這樣一個(gè)系統(tǒng)綜合了移動(dòng)終端、固定終端和視頻終端實(shí)現(xiàn)人的視覺標(biāo)簽系統(tǒng),對(duì)人的身份進(jìn)行識(shí)別。這樣的話,從結(jié)構(gòu)來(lái)看,我們可以有手持終端,可以有電腦終端,也可以有攝象頭,通過(guò)無(wú)線、有線傳輸,進(jìn)行視覺處理服務(wù)器進(jìn)行視覺標(biāo)簽提取和識(shí)別。最后,我們會(huì)把分析的現(xiàn)場(chǎng)結(jié)果,不管是用手機(jī)傳輸?shù)囊曈X圖片或者是通過(guò)固定終端進(jìn)行網(wǎng)絡(luò)上傳得到的圖片,或者是從監(jiān)控視頻提取的檢控視頻,從當(dāng)中提出的人車物的信息,與目標(biāo)數(shù)據(jù)庫(kù)進(jìn)行對(duì)比,進(jìn)行進(jìn)行識(shí)別。識(shí)別之后,如果我們發(fā)現(xiàn)了跟興趣的人,一些目標(biāo)人,或者有什么狀況的話,我們會(huì)做一個(gè)提示報(bào)警信號(hào)。剛才趙總也說(shuō)了有一個(gè)反饋過(guò)程,他提到現(xiàn)在由于各種技術(shù)的限制,現(xiàn)在不能做到全自動(dòng)的反饋,但是至少能夠幫助人來(lái)做一個(gè)決策。所以,我們把這個(gè)報(bào)警信號(hào)只是信號(hào)的提示,或者某種意義上自動(dòng)信號(hào),比如你要開門禁的話,這個(gè)完全做到識(shí)別是沒有問題的。
面向更廣泛的,包括車輛和物件的視覺標(biāo)簽系統(tǒng),我們可以把人車物視覺標(biāo)簽綜合起來(lái),能夠拓展到其他領(lǐng)域。這個(gè)架構(gòu)其實(shí)就是我剛才說(shuō)的幾個(gè)架構(gòu),首先是傳感層,然后是傳輸層,然后是信息處理層,然后是綜合應(yīng)用層,這樣四層的架構(gòu)。我剛才提到只有把網(wǎng)絡(luò)力量實(shí)現(xiàn)起來(lái)之后,才能體現(xiàn)出這個(gè)網(wǎng)的價(jià)值,我剛才說(shuō)的視覺標(biāo)簽分析,或者說(shuō)是視覺標(biāo)簽的提取,如果只是單路的話,它的作用是比較有限的。如何把這個(gè)在大范圍內(nèi)實(shí)現(xiàn)出綜合視覺標(biāo)簽內(nèi)容的挖掘與關(guān)聯(lián)呢?一個(gè)例子就是流動(dòng)人群行蹤挖掘,這個(gè)也是從公共安全實(shí)際應(yīng)用中提出來(lái)的。假設(shè)我們有很多攝象頭在各個(gè)地點(diǎn)部署,每一個(gè)攝象頭都對(duì)流動(dòng)人群進(jìn)行視覺標(biāo)簽提取,識(shí)別他的身份,這些攝象頭分析的視覺標(biāo)簽信息送到一個(gè)中央服務(wù)器,我們可以把在不同時(shí)間、地點(diǎn)和跨攝像機(jī)提取出來(lái)的人物從這個(gè)數(shù)據(jù)庫(kù)當(dāng)中進(jìn)行關(guān)聯(lián)和挖掘,從而分析出流動(dòng)人群的行蹤,這樣就更能體現(xiàn)視覺物聯(lián)網(wǎng)的價(jià)值。目前的核心技術(shù)已經(jīng)用到了北京奧運(yùn),用到了上海世博,用到了邊檢通關(guān),包括深圳和珠海和北京T3航站樓,大家出入境的時(shí)候可以看到兩邊有這樣一個(gè)閘機(jī)。另外剛才提到在北京天安門,從去年國(guó)慶節(jié)開始實(shí)施,也是對(duì)流動(dòng)人群進(jìn)行監(jiān)控。
最后總結(jié)一下,視覺感知是物聯(lián)網(wǎng)應(yīng)用當(dāng)中一個(gè)非常重要的部分,視覺標(biāo)簽系統(tǒng)是視覺物聯(lián)網(wǎng)的核心技術(shù)所在,通過(guò)三網(wǎng)融合,我們可以實(shí)現(xiàn)視覺物聯(lián)網(wǎng)的應(yīng)用,就是物聯(lián)網(wǎng)的應(yīng)用并不僅僅是停留在現(xiàn)在這樣一個(gè)框架的描述上面,我們已經(jīng)把它變成了一個(gè)現(xiàn)實(shí),物聯(lián)網(wǎng)的應(yīng)用的話,剛才趙總說(shuō)是從高端向低端輻射,現(xiàn)在我們主要是應(yīng)用在高端,包括公共安全,智能交通,人口管理等等一些方面。隨著這個(gè)技術(shù)不斷進(jìn)步,隨著這個(gè)成本的不斷降低,我相信他會(huì)滲透到我們生活的方方面面。(本文為作者在“2010中國(guó)數(shù)字電視產(chǎn)業(yè)高峰論壇主題演講”) |