六月丁香五月婷婷,丁香五月婷婷网,欧美激情网站,日本护士xxxx,禁止18岁天天操夜夜操,18岁禁止1000免费,国产福利无码一区色费

學(xué)習(xí)啦 > 論文大全 > 技術(shù)論文 > 搜索引擎關(guān)鍵技術(shù)論文

搜索引擎關(guān)鍵技術(shù)論文

時(shí)間：2017-03-06 16:30:30 家文952由分享

搜索引擎關(guān)鍵技術(shù)論文

　　隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，人們要在互聯(lián)網(wǎng)的海量信息中查找自己所需的信息，就要使用搜索引擎，搜索引擎已經(jīng)成為人們獲取信息的重要手段。下面是學(xué)習(xí)啦小編整理的搜索引擎關(guān)鍵技術(shù)論文，希望你能從中得到感悟!

　　搜索引擎關(guān)鍵技術(shù)論文篇一

　　淺談元搜索引擎的關(guān)鍵技術(shù)

　　摘要：元搜索引擎可以很好解決傳統(tǒng)搜索引擎的覆蓋率不全的問(wèn)題，并且可以綜合多個(gè)傳統(tǒng)搜索引擎的優(yōu)勢(shì)。專門建立一個(gè)基于多個(gè)傳統(tǒng)的搜索引擎的結(jié)果集之上的搜索引擎，以提高搜索服務(wù)質(zhì)量，元搜索引擎通過(guò)整合多個(gè)成員搜索引擎的搜索結(jié)果來(lái)提供自己的搜索結(jié)果，在這個(gè)過(guò)程中就涉及到查詢轉(zhuǎn)換、成員搜索引擎調(diào)度、搜索結(jié)果排序合成等一系列關(guān)鍵技術(shù)。

　　關(guān)鍵詞：元搜索引擎;查詢轉(zhuǎn)換;引擎調(diào)度

　　中圖分類號(hào)：TP393

　　元搜索引擎又稱集合型搜索引擎。它并沒有自己的索引數(shù)據(jù)庫(kù)，也沒有抓取機(jī)器人，僅僅只是充當(dāng)中間代理的作用。元搜索引擎將多個(gè)單一的搜索引擎集成在一起，提供統(tǒng)一的檢索界面，將用戶的檢索請(qǐng)求分別提交給多個(gè)獨(dú)立的搜索引擎，同時(shí)檢索多個(gè)數(shù)據(jù)庫(kù);并根據(jù)多個(gè)獨(dú)立搜索引擎的檢索結(jié)果進(jìn)行二次加工，如對(duì)檢索結(jié)果去重、排序等;然后再輸出給用戶由于元搜索引擎整合了多個(gè)搜索引擎的搜索結(jié)果。元搜索引擎通常具有比傳統(tǒng)的搜索引擎更大的信息覆蓋面，可以有效的提高查全率。

　　元搜索引擎可以劃分為三個(gè)模塊部分：用戶請(qǐng)求端、后臺(tái)業(yè)務(wù)邏輯處理模塊、結(jié)果重新顯示模塊。用戶請(qǐng)求端負(fù)責(zé)與用戶的交互，接收用戶的請(qǐng)求，并把請(qǐng)求傳至后臺(tái)的服務(wù)模塊處理。用戶請(qǐng)求端還負(fù)責(zé)處理用戶的個(gè)性化配置，如配置成員搜索引擎的信任權(quán)重值等等用戶個(gè)性化配置。后臺(tái)業(yè)務(wù)邏輯處理模塊的主要功能是負(fù)責(zé)將用戶的請(qǐng)求轉(zhuǎn)化為成員搜索引擎所能理解的模式，并在接收成員搜索引擎所返回來(lái)的結(jié)果后，對(duì)搜索結(jié)果進(jìn)行解析、提取、排序合成等處理。結(jié)果顯示主要負(fù)責(zé)最終結(jié)果的顯示，同時(shí)提供一些額外的效果以提供更好的用戶體驗(yàn)，如將用戶檢索關(guān)鍵字分詞后高亮顯示等等[1]。

　　元搜索引擎雖然可以方便用戶同時(shí)檢索多個(gè)搜索引擎，但是提高查全率的同時(shí)，也引入了新的問(wèn)題：對(duì)于特定的用戶搜索，有的成員搜索引擎有較高的準(zhǔn)確率，而有的則具有極低的準(zhǔn)確率，即成員搜索引擎的有效性存在較大的差異。如果排序合成算法處理的不當(dāng)，則容易淹沒滿足用戶檢索需求的搜索結(jié)果。另外元搜索引擎需要同時(shí)向多個(gè)成員搜索引擎發(fā)送請(qǐng)求并獲取檢索結(jié)果，然后再對(duì)搜索結(jié)果進(jìn)行整合，增加了時(shí)間損耗，也增加了用戶的檢索等待時(shí)間。所以如何解決好這兩個(gè)問(wèn)題，是構(gòu)建一個(gè)成功的元搜索引擎的關(guān)鍵。由于元搜索引擎的結(jié)果集成了多個(gè)成員搜索引擎的搜索結(jié)果，信息量通常比較大。用戶通常不會(huì)對(duì)所有的結(jié)果進(jìn)行遍歷，而是僅僅關(guān)注前幾條或者前幾頁(yè)的信息。如何將用戶需要的結(jié)果盡可能的排在前面就顯得尤為重要。元搜索引擎的排序合成正是完成對(duì)多個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行整合的模塊，排序合成算法的優(yōu)劣將直接影響到元搜索引擎的效率。因此如何對(duì)成員搜索引擎的結(jié)果進(jìn)行有效的整合成為元搜索引擎的核心問(wèn)題。

　　1 元搜索引擎關(guān)鍵技術(shù)

　　元搜索引擎通過(guò)整合多個(gè)成員搜索引擎的搜索結(jié)果來(lái)提供自己的搜索結(jié)果，在這個(gè)過(guò)程中就涉及到查詢轉(zhuǎn)換、成員搜索引擎調(diào)度、搜索結(jié)果排序合成等一系列關(guān)鍵技術(shù)[25，26]。

　　1.1 查詢轉(zhuǎn)換

　　由于不同的成員搜索引擎對(duì)于查詢的格式要求往往是不一樣的，因此元搜索引擎系統(tǒng)在向成員搜索引擎發(fā)送檢索請(qǐng)求之前，先要將用戶輸入的檢索關(guān)鍵字轉(zhuǎn)換為各個(gè)成員搜索引擎所規(guī)定的格式。例如編碼的轉(zhuǎn)換、特殊字符的處理等。

　　除了提供最基本的查詢轉(zhuǎn)換之外，有的元搜索引擎為了提高查詢的準(zhǔn)確率，還提供了一些擴(kuò)展的操作符和查詢語(yǔ)法以擴(kuò)充用戶的查詢請(qǐng)求。這通常需要預(yù)先對(duì)用戶的檢索關(guān)鍵字進(jìn)行處理，然后根據(jù)預(yù)定義的操作符和查詢語(yǔ)法的格式，將用戶的檢索關(guān)鍵字轉(zhuǎn)換為新的檢索關(guān)鍵字。例如有的搜索引擎提供了“與”和“或”操作。為了提供更加專門化的檢索，有的搜索引擎還會(huì)對(duì)用戶的檢索關(guān)鍵字進(jìn)行分詞，然后根據(jù)每個(gè)分詞單元所屬的類別的信息，來(lái)確定所要調(diào)用的成員搜索引擎[1]。

　　1.2 成員搜索引擎調(diào)度

　　每個(gè)搜索引擎所擅長(zhǎng)的領(lǐng)域通常有所不同，例如百度擅長(zhǎng)中文搜索，谷歌和必應(yīng)擅長(zhǎng)英文搜索。而且每多調(diào)用一個(gè)成員搜索都會(huì)消耗一定的系統(tǒng)資源，同時(shí)也會(huì)增加查詢延遲，增加用戶的等待時(shí)間。因此需要選擇合適的成員搜索引擎來(lái)獲取滿足用戶檢索需求的搜索結(jié)果。

　　目前常用的成員搜索引擎調(diào)度有兩種：一種是由用戶自定義所要調(diào)用的成員搜索引擎。這種方式的優(yōu)點(diǎn)是給予了用戶較大限度的選擇權(quán)，同時(shí)也免去了系統(tǒng)計(jì)算成員搜索引擎調(diào)度信息的損耗。但是每當(dāng)用戶檢索不同類別的關(guān)鍵字時(shí)，往往需要重新指定成員搜索引擎。但是大部分互聯(lián)網(wǎng)用戶通常不知道自己所檢索的關(guān)鍵字應(yīng)該選擇那些成員搜索引擎，因此具有較差的用戶體驗(yàn)。另外一種是由系統(tǒng)決定選擇那些成員搜索引擎。這種方式的優(yōu)點(diǎn)是用戶檢索時(shí)不必預(yù)先指定成員搜索引擎，具有較好的用戶體驗(yàn)。但是系統(tǒng)往往需要大量的計(jì)算以確定每次用戶搜索所需要調(diào)度的成員搜索引擎。例如通過(guò)學(xué)習(xí)的策略來(lái)確定所要調(diào)度的成員搜索引擎，往往需要預(yù)先用大量的資料來(lái)訓(xùn)練算法。這往往需要消耗大量的系統(tǒng)資源[2，3]。

　　1.3 搜索結(jié)果排序合成

　　搜索結(jié)果排序合成，就是對(duì)元搜索引擎系統(tǒng)中集成的各個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行合成、去重和重排序的過(guò)程，這也是現(xiàn)在大多數(shù)元搜索引擎系統(tǒng)的核心。搜索結(jié)果排序合成一般分為三個(gè)過(guò)程：去重、合成、重排序。合并，就是將元搜索引擎中各個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行整合的過(guò)程，在這個(gè)過(guò)程中，往往還要記錄一些其他的信息，例如對(duì)于每個(gè)成員搜索引擎可能需要記錄抓取的搜索結(jié)果的總數(shù)、抓取到的搜索結(jié)果總數(shù)等信息，對(duì)于每條搜索結(jié)果可能需要記錄所在的成員搜索引擎、在原成員搜索引擎中的位置等信息。去重，就是將元搜索引擎系統(tǒng)中集成的各個(gè)成員搜索引擎中重復(fù)的搜索結(jié)果進(jìn)行去除的過(guò)程，在這個(gè)過(guò)程中往往也需要記錄一些其他的信息，例如每條搜索結(jié)果的“共識(shí)度”，即包含它的成員搜索引擎的個(gè)數(shù)，不同的元搜索引擎系統(tǒng)可能會(huì)采用不同的去重算法，常見的去重方式有兩種，一種是僅僅根據(jù)搜索結(jié)果的URL信息來(lái)判斷是否是重復(fù)的，另一種除了根據(jù)URL信息判斷之外，還根據(jù)具體的內(nèi)容信息來(lái)判斷是否是重復(fù)的信息，例如對(duì)于原創(chuàng)和重載的文章，就認(rèn)為是重復(fù)的。重排序，就是對(duì)于去重后的搜索結(jié)果進(jìn)行重新排序的過(guò)程。重排序往往采用重新計(jì)算每條搜索結(jié)果的權(quán)重信息，然后再根據(jù)權(quán)重信息來(lái)重新排序。不同的元搜索引擎系統(tǒng)往往考慮不同的因素和采取不同的算法來(lái)進(jìn)行權(quán)重的計(jì)算。常見的影響權(quán)重的因素有成員搜索引擎的有效性、搜索結(jié)果在原成員搜索引擎中的位置、搜索結(jié)果的摘要信息和描述信息與用戶檢索關(guān)鍵字之間的匹配度、搜索結(jié)果在元搜索引擎系統(tǒng)集成的成員搜索引擎中的共識(shí)度等。常見的權(quán)重計(jì)算方式有兩種，一種是由用戶自定義相應(yīng)的權(quán)重信息，另一種是由元搜索引擎系統(tǒng)本身根據(jù)相關(guān)信息來(lái)計(jì)算每條搜索結(jié)果的權(quán)重，例如機(jī)器學(xué)習(xí)算法就是一種常被用來(lái)計(jì)算權(quán)重的算法，通過(guò)采用大量的數(shù)據(jù)來(lái)訓(xùn)練算法以確定相應(yīng)的參數(shù)，然后采用訓(xùn)練后的算法來(lái)進(jìn)行權(quán)重信息的計(jì)算[4]。

　　參考文獻(xiàn)：

　　[1]強(qiáng)弓，喻國(guó)寶，廖湖聲.一種元搜索引擎的查詢結(jié)果處理模型[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版)，2004，32：47-51，57.

　　[2]李村合，孟文杰.基于分類評(píng)價(jià)的元搜索引擎調(diào)度策略[J].計(jì)算機(jī)工程與設(shè)計(jì)，2008，29(5)：1065-1066，1119.

　　[3]張衛(wèi)豐，徐寶文，周曉宇.基于遺傳算法的搜索引擎調(diào)度[J].微電子學(xué)與計(jì)算機(jī)，2001(4)：34-38.

　　[4]楊春明，何天翔.元搜索引擎的結(jié)果去重及排序研究[J].軟件，2012，33(6)：51-53.

　　作者單位：湖南鐵道職業(yè)技術(shù)學(xué)院，湖南株洲 412001

點(diǎn)擊下頁(yè)還有更多>>>搜索引擎關(guān)鍵技術(shù)論文

相關(guān)文章

熱門文章

2751889