圖片檢索技術論文(2)
圖片檢索技術論文
圖片檢索技術論文篇二
網(wǎng)絡信息檢索中的圖像檢索技術
[摘 要] 圖像檢索是網(wǎng)絡信息檢索中的重要的組成部分,而其檢索技術卻相對滯后?;趦?nèi)容的圖像檢索已成為網(wǎng)絡信息檢索技術的研究熱點。本文分析并總結(jié)了圖像檢索的概念,綜述了基于內(nèi)容的圖像檢索系統(tǒng)和相關技術。
[關鍵詞] 網(wǎng)絡信息檢索; 基于內(nèi)容; 圖像檢索技術
[中圖分類號] G354.47 [文獻標識碼] A [文章編號] 1673 - 0194(2013)03- 0073- 02
隨著網(wǎng)絡信息資源的迅速增加,信息多樣化的程度不斷加大,諸如圖形、圖像、音頻、視頻、動畫等多媒體信息日漸豐富,其中圖像信息的需求尤為大量,而當前主要以文本方式進行檢索的技術已不能滿足人們對信息的需求。
基于文本的檢索是搜索引擎將網(wǎng)站、網(wǎng)頁的內(nèi)容索引為一系列的關鍵字,當用戶輸入相應關鍵字后,系統(tǒng)根據(jù)數(shù)據(jù)庫中的倒排文檔將關鍵字映射為網(wǎng)站或網(wǎng)頁的地址。圖像信息基于文本的檢索技術,即根據(jù)圖像信息的文件名、路徑名、ALT標簽等,將其標注為一系列關鍵字的描述,然后通過檢索這些描述以達到檢索圖像信息的目的。這種檢索技術很不實用。首先,由于目前的計算機視覺和人工智能技術都無法自動對圖像進行標注,要由人工完整地標注網(wǎng)絡上的所有圖像,不但費時費力,而且往往是不準確或不完整的;其次,不同用戶對于同一張圖像的看法不盡相同,導致對圖像的標注沒有一個統(tǒng)一標準;再次,這種方法將注意力局限在圖像的著錄特征,即文字描述上,不能充分揭示和描述圖像中有代表性的畫面內(nèi)容特征。所以基于內(nèi)容的圖像檢索技術應用而生。
1 基于內(nèi)容的圖像檢索技術
基于內(nèi)容的圖像檢索一般是指靜止圖像的檢索。這種圖像檢索技術通過分析圖像的內(nèi)容,提取其顏色、形狀、紋理等可視特征,建立特征索引存儲于特征庫中,在檢索時,用戶只需把自己對圖像的模糊印象描述出來(繪制的草圖或通過掃描儀等在線輸入的圖像),就可以通過多次的近似匹配,在大容量圖像庫中查詢到所需圖像?;趦?nèi)容的圖像檢索具有較強的客觀性。
基于內(nèi)容的圖像檢索算法涉及的相關技術比較多,主要有:圖像的分析與特征向量的提取技術、特征向量數(shù)據(jù)的組織與存儲技術、圖像數(shù)據(jù)的組織與存儲技術等。
1.1 基于顏色特征的圖像檢索
顏色特征是圖像檢索中最基礎的一種檢索依據(jù),顏色是人識別圖像的主要感知特征之一。在基于顏色特征的檢索算法中,通常用顏色直方圖來表示圖像的顏色特征。直方圖能較好地反映圖像中各顏色的頻率分布,橫軸表示顏色等級,縱軸表示在一個顏色等級上,具有該顏色的像素在整幅圖像中所占的比例。直方圖可以對整幅圖像進行最大匹配度檢索。目前關于色彩的索引方法有兩類:基于全局色彩的索引與基于局部色彩的索引。
全局色彩的索引就是按全局色彩的分布來索引圖像,計算每種顏色的像素,檢索出具有相同顏色內(nèi)容的像素的圖像。其中最為簡單有用的工具是灰度直方圖。利用圖像的灰度直方圖作為特征指標來描述圖像,一般是利用二維直方圖,如紅—藍直方圖,它是紅光圖像的灰度值和藍光圖像的灰度值的函數(shù)。利用色彩直方圖進行檢索的方法有許多,如:比例直方圖法、累加直方圖法等。
色彩直方圖還不能為像素在圖像中的位置提供線索,為了盡可能少地丟失信息,提出了局部色彩方法。局部色彩的索引對象是局部相似的顏色區(qū)域,它考慮了顏色的分類和一些初級的顏色特征。用形狀面積、圓度、離心率等來描述形狀的特征矢量。
1.2 基于形狀特征的檢索
形狀是刻劃物體的本質(zhì)特征之一,利用形狀來檢索可提高檢索的準確性和效率?;谛螤畹臋z索不僅包括傳統(tǒng)意義的基于二維形狀的檢索,還包括三維形狀的檢索。
基于圖像內(nèi)物體形狀的檢索,首要問題是采用合適的圖像分割算法把不同對象從圖像中分割出來,關鍵是尋找符合人眼感知特性的形狀特征。目前,較好的方法是采用圖像的自動分割方法結(jié)合識別目標的前景和背景模型來得到比較精確的形狀特征。圖像自動分割方法的具體思路是:將圖像分塊后,將每個塊看成是一幅小圖像,計算每個小圖像的顏色直方圖特征,則每個塊間的直方圖是不一樣的,為分析邊緣特征,將相鄰兩個塊構成一個比較對,將每個塊間的差值記錄下來,同時記錄差值在一定范圍內(nèi)的數(shù)目,這樣就形成一個顏色特征差值表。圖像對象空間位置發(fā)生變化,其特征差值表也就不同。
1.3 基于紋理特征的檢索
紋理是指圖像在局部區(qū)域內(nèi)可能呈現(xiàn)出不規(guī)則性而在整體上卻表現(xiàn)出某種規(guī)律性。紋理特征是圖像中難以描述的特征,它是一種反映圖像像素灰度級空間分布的屬性。如果一個物體內(nèi)部以灰度級變化明顯而又不是簡單的色調(diào)變化,那么該物體就有紋理。
紋理分析的方法基本可以分為統(tǒng)計法、結(jié)構法、模型法和空間法/頻率域聯(lián)合分析法等4類?;诮y(tǒng)計的方法是對圖像中的顏色強度的空間分布信息進行統(tǒng)計,主要用于分析像木紋、沙地、草坪等細致而不規(guī)則的物體;基于結(jié)構的方法將重點放在分析紋理元之間的相互關系和排列規(guī)則上,適用于像布料或磚瓦等一類元素組成的紋理以及排列比較規(guī)則的物體;基于模型的方法是假設紋理按某種類型分布,如Markov隨機場模型、分形模型等?;诳臻g/頻率域聯(lián)合分析法主要包括Cabor變換法和小波變換法等。
1.4 基于知識的圖像檢索
基于知識的圖像檢索也是基于內(nèi)容檢索的重要方法之一。圖像本身是一定數(shù)量的顏色像素點的集合,人類能夠識別出像素點集合的含義是人類以自身的知識賦予圖像意義的過程?;谥R的圖像檢索系統(tǒng)為用戶提供知識庫,針對一個圖像需求,搜索引擎依次調(diào)入每一幅圖像的內(nèi)容描述,結(jié)合知識庫中的相關知識,以圖像需求為目標進行推理,如果需求目標得到滿足,則確定這幅圖像符合檢索要求。
2 基于內(nèi)容的圖像信息檢索系統(tǒng)
目前,基于內(nèi)容的圖像檢索技術的研究取得了很大的突破,較有影響力的有以下幾個: 2.1 QBIC系統(tǒng)
QBIC(Query By Image Content)是IBM公司于20世紀90年代研制的圖像和動態(tài)影像檢索系統(tǒng),其含意是“根據(jù)圖像的內(nèi)容進行查詢”。由IBM Almaden研究中心開發(fā),是基于內(nèi)容的檢索系統(tǒng)的典型代表。QBIC在檢索過程中用戶無須提供文字檢索詞(它也提供關鍵詞檢索),只要輸入以圖像形式表達的檢索要求,即可檢索出一系列相似的圖像。QBIC系統(tǒng)允許使用示例圖像、用戶構建的草圖、選擇的顏色與紋理模式、鏡頭與目標運動等,對大型圖像和視頻數(shù)據(jù)庫進行查詢。
2.2 Photobook系統(tǒng)
Photobook系統(tǒng)是由美國麻省理工學院(MIT)的媒體實驗室于1994年開發(fā)研制的用于瀏覽和搜索圖像的一套交互式工具,圖像在存儲時按人臉、形狀或紋理特性自動分類,圖像根據(jù)類別通過顯著語義特征壓縮編碼。
2.3 Virage系統(tǒng)
Virage是由Virage公司開發(fā)的基于內(nèi)容的圖像搜索引擎。與QBIC相似,Virage支持基于顏色、顏色布局、紋理和結(jié)構(對象邊界信息)的可視化查詢,但Virage比QBIC更進一步,它也支持由4個原子查詢的任意組合,用戶可以根據(jù)他們自己的側(cè)重調(diào)整4個原子查詢的權重。
2.4 CORE系統(tǒng)
CORE是新加坡國立大學開發(fā)的一個基于內(nèi)容的檢索系統(tǒng)。其顯著的技術特色包括:多種特征提取方法、多種基于內(nèi)容檢索方法、使用自組織神經(jīng)網(wǎng)絡對復雜特征度量、建立基于內(nèi)容索引的新方法以及對多媒體信息進行模糊檢索的新技術。
2.5 VisualSEEK系統(tǒng)
由美國哥倫比亞大學圖像和高級電視實驗室開發(fā)。它實現(xiàn)了互聯(lián)網(wǎng)上基于內(nèi)容的圖像/視頻檢索系統(tǒng),提供了一套工具供人們在Web上檢索圖像和視頻信息。用戶可以把頂部為紅橙黃色區(qū)域、底部為藍綠色區(qū)域,這樣的圖像作為查詢“日出”的草圖,使人們在Web上可以方便地搜索和檢索圖像和視頻。
3 基于內(nèi)容的圖像檢索體系結(jié)構
基于內(nèi)容的圖像檢索系統(tǒng)與傳統(tǒng)基于文本的檢索系統(tǒng)完全不同?;趦?nèi)容的檢索系統(tǒng)一般通過可視化界面和用戶進行頻繁的交互,以便用戶能夠方便地構造查詢和改進檢索結(jié)果,用戶通過選擇具有代表性的一幅或多幅例子圖像來構造查詢,然后由系統(tǒng)查找與例子圖像在視覺內(nèi)容上較相似的圖像,按相似度大小排列返回給用戶,即所謂的通過例子圖像的檢索(Query By Image Example)。
基于內(nèi)容的圖像查詢和檢索是一個逐步求精的循環(huán)過程。其過程及各個模塊如下:
3.1 圖像的預處理
在特征抽象子模塊里,首先要進行圖像的預處理,包括圖像格式的轉(zhuǎn)換,尺寸的統(tǒng)一,圖像的增強與去噪,圖像的邊緣提取,經(jīng)過邊緣提取獲得圖像的輪廓特征,對其進行進一步輪廓清晰化處理等功能,為圖像的特征提取打下基礎。
3.2 圖像的目標標識
圖像預處理后,要進行圖像的目標標識。目標標識為用戶提供一種工具,以全自動或半自動(需要用戶干預)的方式標識圖像中用戶感興趣的區(qū)域或目標對象,以便針對目標進行特征提取并查詢。當進行整體內(nèi)容檢索時,利用全局特征,這時不用目標標識功能。目標標識是可選的。
3.3 圖像的特征提取與表達
圖像特征的提取與表達是基于內(nèi)容的圖像檢索技術的基礎。對圖像數(shù)據(jù)庫進行特征提取,提取用戶感興趣的、適合檢索要求的特征。特征提取可以是全局性的,即整幅圖像,也可以是針對某個目標的,即圖像中的子區(qū)域,如人的面部特征或指紋特征等。
3.4 圖像數(shù)據(jù)庫
作為圖像查詢的后臺基地,生成的數(shù)據(jù)庫由圖像庫、特征庫和知識庫組成。圖像庫為數(shù)字化的圖像信息,特征庫包含用戶輸入的特征和預處理自動提取的內(nèi)容特征。知識庫包含專門和通用知識,有利于查詢優(yōu)化和快速匹配,知識庫中知識表達可以更換以適用各種不同的應用領域。
3.5 圖像的查詢接口
在基于內(nèi)容檢索中,由于特征值為高維向量,不具有直觀性,因此必須為其提供一個可視化的輸入手段。友好的人機交互界面是一個成功檢索系統(tǒng)不可缺少的條件,可采用的方式有3種:操縱交互輸入方式、模板選擇輸入方式和用戶提交特征樣板的輸入方式。另外,查詢返回的結(jié)果需要瀏覽,應在用戶界面提供瀏覽功能。
3.6 圖像的檢索引擎
檢索是利用特征之間的距離函數(shù)進行相似性匹配,模仿人的認知過程,近似得到數(shù)據(jù)庫的認知排隊,存在一些不同的相似性測度算法,檢索引擎中包括一個較為有效可靠的相似性測度函數(shù)集。
3.7 圖像的索引/過濾
索引是用來提供快速、有選擇性地存取數(shù)據(jù)庫的一種機制,它相當于一種映射機制,將屬性的值轉(zhuǎn)換為相應數(shù)據(jù)地址域的地址集。過濾器作用于全部數(shù)據(jù),過濾出的數(shù)據(jù)集合再用高維特征匹配來檢索。索引用于低維特征,可以用R樹來索引以加快檢索速度。
基于內(nèi)容的圖像檢索技術為用戶提供了一個在網(wǎng)絡上搜索感興趣的圖像信息資源的有效手段,但基于內(nèi)容的圖像檢索技術目前還存在許多有待發(fā)掘的內(nèi)容,因而,基于內(nèi)容的圖像檢索技術也需要隨著網(wǎng)絡技術、信息技術的發(fā)展而發(fā)展。
主要參考文獻
[1] 何惠芬. 圖書館中基于內(nèi)容的圖像數(shù)據(jù)庫檢索技術[J]. 情報雜志,2002(7).
[2] 劉偉成,孫吉紅. 基于內(nèi)容的圖像信息檢索綜述[J]. 情報科學,2002(4).
看了“圖片檢索技術論文”的人還看:
1.搜索引擎技術論文