搜索引擎關(guān)鍵技術(shù)論文
搜索引擎關(guān)鍵技術(shù)論文
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人們要在互聯(lián)網(wǎng)的海量信息中查找自己所需的信息,就要使用搜索引擎,搜索引擎已經(jīng)成為人們獲取信息的重要手段。下面是學(xué)習(xí)啦小編整理的搜索引擎關(guān)鍵技術(shù)論文,希望你能從中得到感悟!
搜索引擎關(guān)鍵技術(shù)論文篇一
淺談元搜索引擎的關(guān)鍵技術(shù)
摘 要:元搜索引擎可以很好解決傳統(tǒng)搜索引擎的覆蓋率不全的問題,并且可以綜合多個(gè)傳統(tǒng)搜索引擎的優(yōu)勢。專門建立一個(gè)基于多個(gè)傳統(tǒng)的搜索引擎的結(jié)果集之上的搜索引擎,以提高搜索服務(wù)質(zhì)量,元搜索引擎通過整合多個(gè)成員搜索引擎的搜索結(jié)果來提供自己的搜索結(jié)果,在這個(gè)過程中就涉及到查詢轉(zhuǎn)換、成員搜索引擎調(diào)度、搜索結(jié)果排序合成等一系列關(guān)鍵技術(shù)。
關(guān)鍵詞:元搜索引擎;查詢轉(zhuǎn)換;引擎調(diào)度
中圖分類號:TP393
元搜索引擎又稱集合型搜索引擎。它并沒有自己的索引數(shù)據(jù)庫,也沒有抓取機(jī)器人,僅僅只是充當(dāng)中間代理的作用。元搜索引擎將多個(gè)單一的搜索引擎集成在一起,提供統(tǒng)一的檢索界面,將用戶的檢索請求分別提交給多個(gè)獨(dú)立的搜索引擎,同時(shí)檢索多個(gè)數(shù)據(jù)庫;并根據(jù)多個(gè)獨(dú)立搜索引擎的檢索結(jié)果進(jìn)行二次加工,如對檢索結(jié)果去重、排序等;然后再輸出給用戶由于元搜索引擎整合了多個(gè)搜索引擎的搜索結(jié)果。元搜索引擎通常具有比傳統(tǒng)的搜索引擎更大的信息覆蓋面,可以有效的提高查全率。
元搜索引擎可以劃分為三個(gè)模塊部分:用戶請求端、后臺業(yè)務(wù)邏輯處理模塊、結(jié)果重新顯示模塊。用戶請求端負(fù)責(zé)與用戶的交互,接收用戶的請求,并把請求傳至后臺的服務(wù)模塊處理。用戶請求端還負(fù)責(zé)處理用戶的個(gè)性化配置,如配置成員搜索引擎的信任權(quán)重值等等用戶個(gè)性化配置。后臺業(yè)務(wù)邏輯處理模塊的主要功能是負(fù)責(zé)將用戶的請求轉(zhuǎn)化為成員搜索引擎所能理解的模式,并在接收成員搜索引擎所返回來的結(jié)果后,對搜索結(jié)果進(jìn)行解析、提取、排序合成等處理。結(jié)果顯示主要負(fù)責(zé)最終結(jié)果的顯示,同時(shí)提供一些額外的效果以提供更好的用戶體驗(yàn),如將用戶檢索關(guān)鍵字分詞后高亮顯示等等[1]。
元搜索引擎雖然可以方便用戶同時(shí)檢索多個(gè)搜索引擎,但是提高查全率的同時(shí),也引入了新的問題:對于特定的用戶搜索,有的成員搜索引擎有較高的準(zhǔn)確率,而有的則具有極低的準(zhǔn)確率,即成員搜索引擎的有效性存在較大的差異。如果排序合成算法處理的不當(dāng),則容易淹沒滿足用戶檢索需求的搜索結(jié)果。另外元搜索引擎需要同時(shí)向多個(gè)成員搜索引擎發(fā)送請求并獲取檢索結(jié)果,然后再對搜索結(jié)果進(jìn)行整合,增加了時(shí)間損耗,也增加了用戶的檢索等待時(shí)間。所以如何解決好這兩個(gè)問題,是構(gòu)建一個(gè)成功的元搜索引擎的關(guān)鍵。由于元搜索引擎的結(jié)果集成了多個(gè)成員搜索引擎的搜索結(jié)果,信息量通常比較大。用戶通常不會對所有的結(jié)果進(jìn)行遍歷,而是僅僅關(guān)注前幾條或者前幾頁的信息。如何將用戶需要的結(jié)果盡可能的排在前面就顯得尤為重要。元搜索引擎的排序合成正是完成對多個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行整合的模塊,排序合成算法的優(yōu)劣將直接影響到元搜索引擎的效率。因此如何對成員搜索引擎的結(jié)果進(jìn)行有效的整合成為元搜索引擎的核心問題。
1 元搜索引擎關(guān)鍵技術(shù)
元搜索引擎通過整合多個(gè)成員搜索引擎的搜索結(jié)果來提供自己的搜索結(jié)果,在這個(gè)過程中就涉及到查詢轉(zhuǎn)換、成員搜索引擎調(diào)度、搜索結(jié)果排序合成等一系列關(guān)鍵技術(shù)[25,26]。
1.1 查詢轉(zhuǎn)換
由于不同的成員搜索引擎對于查詢的格式要求往往是不一樣的,因此元搜索引擎系統(tǒng)在向成員搜索引擎發(fā)送檢索請求之前,先要將用戶輸入的檢索關(guān)鍵字轉(zhuǎn)換為各個(gè)成員搜索引擎所規(guī)定的格式。例如編碼的轉(zhuǎn)換、特殊字符的處理等。
除了提供最基本的查詢轉(zhuǎn)換之外,有的元搜索引擎為了提高查詢的準(zhǔn)確率,還提供了一些擴(kuò)展的操作符和查詢語法以擴(kuò)充用戶的查詢請求。這通常需要預(yù)先對用戶的檢索關(guān)鍵字進(jìn)行處理,然后根據(jù)預(yù)定義的操作符和查詢語法的格式,將用戶的檢索關(guān)鍵字轉(zhuǎn)換為新的檢索關(guān)鍵字。例如有的搜索引擎提供了“與”和“或”操作。為了提供更加專門化的檢索,有的搜索引擎還會對用戶的檢索關(guān)鍵字進(jìn)行分詞,然后根據(jù)每個(gè)分詞單元所屬的類別的信息,來確定所要調(diào)用的成員搜索引擎[1]。
1.2 成員搜索引擎調(diào)度
每個(gè)搜索引擎所擅長的領(lǐng)域通常有所不同,例如百度擅長中文搜索,谷歌和必應(yīng)擅長英文搜索。而且每多調(diào)用一個(gè)成員搜索都會消耗一定的系統(tǒng)資源,同時(shí)也會增加查詢延遲,增加用戶的等待時(shí)間。因此需要選擇合適的成員搜索引擎來獲取滿足用戶檢索需求的搜索結(jié)果。
目前常用的成員搜索引擎調(diào)度有兩種:一種是由用戶自定義所要調(diào)用的成員搜索引擎。這種方式的優(yōu)點(diǎn)是給予了用戶較大限度的選擇權(quán),同時(shí)也免去了系統(tǒng)計(jì)算成員搜索引擎調(diào)度信息的損耗。但是每當(dāng)用戶檢索不同類別的關(guān)鍵字時(shí),往往需要重新指定成員搜索引擎。但是大部分互聯(lián)網(wǎng)用戶通常不知道自己所檢索的關(guān)鍵字應(yīng)該選擇那些成員搜索引擎,因此具有較差的用戶體驗(yàn)。另外一種是由系統(tǒng)決定選擇那些成員搜索引擎。這種方式的優(yōu)點(diǎn)是用戶檢索時(shí)不必預(yù)先指定成員搜索引擎,具有較好的用戶體驗(yàn)。但是系統(tǒng)往往需要大量的計(jì)算以確定每次用戶搜索所需要調(diào)度的成員搜索引擎。例如通過學(xué)習(xí)的策略來確定所要調(diào)度的成員搜索引擎,往往需要預(yù)先用大量的資料來訓(xùn)練算法。這往往需要消耗大量的系統(tǒng)資源[2,3]。
1.3 搜索結(jié)果排序合成
搜索結(jié)果排序合成,就是對元搜索引擎系統(tǒng)中集成的各個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行合成、去重和重排序的過程,這也是現(xiàn)在大多數(shù)元搜索引擎系統(tǒng)的核心。搜索結(jié)果排序合成一般分為三個(gè)過程:去重、合成、重排序。合并,就是將元搜索引擎中各個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行整合的過程,在這個(gè)過程中,往往還要記錄一些其他的信息,例如對于每個(gè)成員搜索引擎可能需要記錄抓取的搜索結(jié)果的總數(shù)、抓取到的搜索結(jié)果總數(shù)等信息,對于每條搜索結(jié)果可能需要記錄所在的成員搜索引擎、在原成員搜索引擎中的位置等信息。去重,就是將元搜索引擎系統(tǒng)中集成的各個(gè)成員搜索引擎中重復(fù)的搜索結(jié)果進(jìn)行去除的過程,在這個(gè)過程中往往也需要記錄一些其他的信息,例如每條搜索結(jié)果的“共識度”,即包含它的成員搜索引擎的個(gè)數(shù),不同的元搜索引擎系統(tǒng)可能會采用不同的去重算法,常見的去重方式有兩種,一種是僅僅根據(jù)搜索結(jié)果的URL信息來判斷是否是重復(fù)的,另一種除了根據(jù)URL信息判斷之外,還根據(jù)具體的內(nèi)容信息來判斷是否是重復(fù)的信息,例如對于原創(chuàng)和重載的文章,就認(rèn)為是重復(fù)的。重排序,就是對于去重后的搜索結(jié)果進(jìn)行重新排序的過程。重排序往往采用重新計(jì)算每條搜索結(jié)果的權(quán)重信息,然后再根據(jù)權(quán)重信息來重新排序。不同的元搜索引擎系統(tǒng)往往考慮不同的因素和采取不同的算法來進(jìn)行權(quán)重的計(jì)算。常見的影響權(quán)重的因素有成員搜索引擎的有效性、搜索結(jié)果在原成員搜索引擎中的位置、搜索結(jié)果的摘要信息和描述信息與用戶檢索關(guān)鍵字之間的匹配度、搜索結(jié)果在元搜索引擎系統(tǒng)集成的成員搜索引擎中的共識度等。常見的權(quán)重計(jì)算方式有兩種,一種是由用戶自定義相應(yīng)的權(quán)重信息,另一種是由元搜索引擎系統(tǒng)本身根據(jù)相關(guān)信息來計(jì)算每條搜索結(jié)果的權(quán)重,例如機(jī)器學(xué)習(xí)算法就是一種常被用來計(jì)算權(quán)重的算法,通過采用大量的數(shù)據(jù)來訓(xùn)練算法以確定相應(yīng)的參數(shù),然后采用訓(xùn)練后的算法來進(jìn)行權(quán)重信息的計(jì)算[4]。
參考文獻(xiàn):
[1]強(qiáng)弓,喻國寶,廖湖聲.一種元搜索引擎的查詢結(jié)果處理模型[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,32:47-51,57.
[2]李村合,孟文杰.基于分類評價(jià)的元搜索引擎調(diào)度策略[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(5):1065-1066,1119.
[3]張衛(wèi)豐,徐寶文,周曉宇.基于遺傳算法的搜索引擎調(diào)度[J].微電子學(xué)與計(jì)算機(jī),2001(4):34-38.
[4]楊春明,何天翔.元搜索引擎的結(jié)果去重及排序研究[J].軟件,2012,33(6):51-53.
作者單位:湖南鐵道職業(yè)技術(shù)學(xué)院,湖南株洲 412001
點(diǎn)擊下頁還有更多>>>搜索引擎關(guān)鍵技術(shù)論文