http://www.iipl.fudan.edu.cn/research/mt.html
在當(dāng)今網(wǎng)絡(luò)技術(shù)高速發(fā)展、各種媒體信息大量涌現(xiàn)的背景下,為了實現(xiàn)對多媒體信息的高效訪問,多媒體信息處理和檢索工具的研制成為當(dāng)務(wù)之急。視頻實際上是集圖像序列、圖像、文字等為一體的、被人們廣泛使用的一種綜合性媒體,視頻信息處理和檢索已成為當(dāng)前研究熱點。
視頻是在時間上連續(xù)的一系列圖像幀的集合,是一種沒有結(jié)構(gòu)的圖像流。我們可以把視頻看作一本沒有目錄和索引的書,那么一幅圖像幀就相當(dāng)于書中的一頁。由于視頻這部書缺乏目錄和索引信息,人們就無法對它進(jìn)行高效瀏覽和檢索,無法快速閱讀。為尋找感興趣的視頻片段,人們只能采取“快進(jìn)”和“快倒”這種耗時的閱讀方式線性瀏覽。
隨著數(shù)字視頻數(shù)據(jù)量迅速增加,傳統(tǒng)的“線性”瀏覽方式已遠(yuǎn)不能滿足人們對視頻內(nèi)容的訪問和查詢需求。用慣了文本搜索引擎的用戶越來越希望能在海量視頻庫中快速找到自己感興趣的視頻片段,因此就需要為視頻建立有效的目錄結(jié)構(gòu),以方便查找。一般來說,按照視頻內(nèi)容粒度可以把視頻分為多個層次,從高到低依次為:節(jié)目、場景(故事)、鏡頭組、鏡頭和關(guān)鍵幀。
鏡頭是指攝像機從打開到關(guān)閉的過程中記錄下來的一組連續(xù)圖像幀。鏡頭邊界是客觀存在的,可以采用一定的方法自動檢測鏡頭邊界。在實際應(yīng)用中,用戶瀏覽一個鏡頭中所有圖像幀是非常耗時的,因此常用關(guān)鍵幀技術(shù)實現(xiàn)快速瀏覽。關(guān)鍵幀是指代表鏡頭中最重要的、有代表性的一幅或多幅圖像。依據(jù)鏡頭內(nèi)容的復(fù)雜程度,可以從一個鏡頭中提取一個或多個關(guān)鍵幀或構(gòu)造一個關(guān)鍵幀。為了在語義層建立視頻結(jié)構(gòu)模型,需要對視頻進(jìn)行場景劃分。場景定義為語義上相關(guān)、時間上相鄰的一組鏡頭,它們能夠表達(dá)視頻的高層次概念或故事等。鏡頭是組成視頻的基本物理單位,而場景(又稱故事)則是視頻在語義層的單位,通常只有場景才能向觀看者傳達(dá)相對完整的語義。鏡頭組是一組在時間上相鄰并在內(nèi)容上相似的一組鏡頭,它是界于鏡頭和場景之間的一組連續(xù)的物理實體,是聯(lián)系鏡頭和場景的橋梁。節(jié)目則是由時間上有序的場景組成,例如新聞節(jié)目、娛樂節(jié)目、體育節(jié)目、天氣預(yù)報等。
基于上述的視頻內(nèi)容的結(jié)構(gòu)化分析框架,自動鏡頭邊界檢測和關(guān)鍵幀提取技術(shù)的研究是視頻內(nèi)容分析中的重要研究課題,也是場景構(gòu)造的基礎(chǔ)。在鏡頭邊界檢測之后,就要提取相應(yīng)的關(guān)鍵幀。提取關(guān)鍵幀的方法有很多,最簡單的方法是提取每個鏡頭的第一幀和最后一幀作為關(guān)鍵幀。更好的方法是根據(jù)鏡頭的視覺內(nèi)容和運動提取關(guān)鍵幀,甚至可以用拼接方法生成一個全景圖作為關(guān)鍵幀。
一旦鏡頭和關(guān)鍵幀提取出來后,一種簡單且直觀的方法就是用關(guān)鍵幀的順序排列來表示或展現(xiàn)視頻內(nèi)容。用戶可以通過瀏覽關(guān)鍵幀序列來了解視頻內(nèi)容,并可根據(jù)自己感興趣的關(guān)鍵幀來選擇性播放或下載視頻片段。當(dāng)視頻長度較短且內(nèi)容簡單時,少量的關(guān)鍵幀就可以較好地表示整段視頻;然而當(dāng)鏡頭和關(guān)鍵幀數(shù)量巨大時,這種方法對用戶檢索和瀏覽來說仍是困難的和繁瑣的。例如,一部故事片可能包含數(shù)千個鏡頭和更多的關(guān)鍵幀,如果僅用這些關(guān)鍵幀序列來表示節(jié)目內(nèi)容是沒有意義的,因為人們更關(guān)心的是故事情節(jié)而不是鏡頭和關(guān)鍵幀。為了使用戶更好地訪問視頻數(shù)據(jù)庫,人們提出了視頻摘要技術(shù)。顧名思義,視頻摘要是對視頻內(nèi)容的高度概括,是視頻中最重要、最精彩的總結(jié)。如何為視頻構(gòu)造良好的摘要是視頻處理和檢索中的另一個重要研究課題。目前,對視頻摘要的研究主要集中在場景分割上,人們試圖通過對視頻場景的分析來實現(xiàn)視頻摘要。
在視頻流的層次性結(jié)構(gòu)建立后,就可以對視頻內(nèi)容進(jìn)行快速瀏覽和檢索了。在視頻瀏覽中,用戶可以通過對視頻摘要的瀏覽來確定是否觀看某段視頻,并可直接定位到感興趣的關(guān)鍵幀,從而免去“快進(jìn)”和“快倒”的煩惱。除了方便瀏覽外,還應(yīng)為用戶提供高效檢索手段。通過檢索,用戶可以快速查找到自己感興趣的視頻內(nèi)容。實現(xiàn)檢索的關(guān)鍵是為視頻內(nèi)容建立有效索引結(jié)構(gòu),其中視頻片段、關(guān)鍵幀、關(guān)鍵詞、目錄結(jié)構(gòu)、特定對象(例如人臉、汽車等)、疊加字符、伴音和特定運動等都是建立索引的重要內(nèi)容。建好索引的視頻數(shù)據(jù)庫相當(dāng)于一個層次式的語義網(wǎng)絡(luò),用戶可以根據(jù)需要采用多種不同的方式提出查詢請求,實現(xiàn)多模態(tài)的人機查詢界面。
視頻信息處理和檢索技術(shù)具有非常廣闊的應(yīng)用前景,目前世界上很多著名的研究機構(gòu)在研究視頻信息檢索技術(shù)及其應(yīng)用,并開發(fā)了一些原型系統(tǒng),如UIUC的MARS系統(tǒng)、IBM的CueVideo系統(tǒng)、Microsoft的新聞視頻瀏覽系統(tǒng)、Columbia大學(xué)的VideoQ系統(tǒng)以及CMU的IDVLS系統(tǒng)等等。
視頻信息處理和檢索是一個內(nèi)容非常廣泛的、交叉性很強的研究領(lǐng)域,涉及到多方面關(guān)鍵技術(shù)。一個高效的視頻處理和檢索系統(tǒng)需要由各個處理模塊的相互配合,而其中每一個模塊的實現(xiàn)都是一項細(xì)致的、復(fù)雜的工程。從目前的研究來看,要實現(xiàn)真正實用的視頻處理和檢索系統(tǒng),還需要做很多工作。相信隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的發(fā)展,在研究人員的共同努力下,視頻處理和檢索技術(shù)的研究將跨上一個新的臺階。