搜索技術(shù)在人工智能領(lǐng)域的實(shí)際應(yīng)用_第1頁(yè)
搜索技術(shù)在人工智能領(lǐng)域的實(shí)際應(yīng)用_第2頁(yè)
搜索技術(shù)在人工智能領(lǐng)域的實(shí)際應(yīng)用_第3頁(yè)
搜索技術(shù)在人工智能領(lǐng)域的實(shí)際應(yīng)用_第4頁(yè)
搜索技術(shù)在人工智能領(lǐng)域的實(shí)際應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、搜索技術(shù)在人工智能領(lǐng)域的實(shí)際應(yīng)用摘要:介紹了搜索引擎的分類、工作原理,并具體分析了搜索引擎的體系結(jié)構(gòu),包括信息的搜集系統(tǒng)、索引系統(tǒng)以及查詢接口?;诂F(xiàn)在人工智能技術(shù)的迅速發(fā)展,對(duì)于在搜索引擎中運(yùn)用的人工智能技術(shù)進(jìn)行了研究,且著重分析了搜索引擎重要模塊:Robot的智能化、智能代理技術(shù)以及查詢接口的智能化,有力地描述了搜索引擎發(fā)展的智能化方向與方法,對(duì)智能型搜索引擎所面臨的挑戰(zhàn)以及未來(lái)發(fā)展進(jìn)行了展望。關(guān)鍵字:人工智能;搜索技術(shù);應(yīng)用;ThepracticalapplicationofsearchtechnologyinartificialintelligencefieldLiaoYongqi(i

2、nstitutionofMechanicalEngineeringandshanghaiinstitutionoftechnologyandshanghai)Abstracts:Theclassificationandoperatingprinciplesofthesearchengineareintroducedinthispaper,anditssystematicstructureisanalyzedconcretely,includingthesystemsofcollectionandindexandtheinputofinquiries.TheapplicationofArtifi

3、cialIntelligence(AI)technologytosearchengineisstudied,especiallytheintelligentizationoftheimportantmodulesofthesearchenginesuchasRobot,agents,andtheinputofinquires,andthedirectionandmeansoftheintelligentizationaredescribed.Thefuturedevelopmentoftheintelligentsearchengineandthechallengesarealsodiscus

4、sed.KeyWords:Artificialintelligence;searchtechnology;application;0引言隨著Internet的發(fā)展,網(wǎng)絡(luò)已經(jīng)是信息發(fā)布和傳輸?shù)闹匾绞?,Web已經(jīng)發(fā)展成為擁有幾億頁(yè)面的分布式信息空間,而且仍以每120240d翻一倍的速度增加。雖然Internet上蘊(yùn)藏著巨大的信息資源,但是要從這個(gè)信息海洋中準(zhǔn)確快速地找到并獲得自己所需的信息,往往比較困難。為了解決這個(gè)問(wèn)題,人們開(kāi)發(fā)了各種檢索工具,以期望能提供這種信息服務(wù)。隨著各種技術(shù)的日漸成熟,網(wǎng)絡(luò)搜索引擎開(kāi)始迅速發(fā)展起來(lái)。網(wǎng)絡(luò)搜索引擎是以一定的策略在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,并對(duì)信息進(jìn)行理解、提

5、取、組織和處理,為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的作用。1搜索引擎技術(shù)1.1 搜索引擎的分類1.1.1 目錄式搜索引擎目錄式搜索引擎的特點(diǎn)是以人工方式或半自動(dòng)方式搜集信息,編輯人員在訪問(wèn)了某個(gè),把站點(diǎn)的Web站點(diǎn)后形成信息摘要,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別URL和描述放在這個(gè)類別中,當(dāng)用戶查詢某個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會(huì)將之添加到合適的類別中。目錄式搜索引擎的優(yōu)點(diǎn)是信息準(zhǔn)確、導(dǎo)航質(zhì)量高。以Yahoo為主要代表。這類搜索引擎的缺點(diǎn)也是顯而易見(jiàn)的,由于人工的介入,使得費(fèi)用增加,而且

6、維護(hù)量大、信息量少、信息更新不及時(shí)。1.1.2基于Robot的搜索引擎這類搜索引擎的特點(diǎn)是由一個(gè)稱為Robot(也叫做Spider、WebCrawler或WebWanderer)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引系統(tǒng)為搜集到的信息建立索引,由查詢接口根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。它的一個(gè)重要特征是,搜索引擎要定期訪問(wèn)大多數(shù)以前搜集的網(wǎng)頁(yè),刷新索引,以反映出網(wǎng)頁(yè)的更新情況,去除一些死鏈接,網(wǎng)頁(yè)的部分內(nèi)容和變化情況將會(huì)反映到用戶查詢的結(jié)果中?;赗obot的搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù)?,F(xiàn)在的許多搜索引擎都屬于此類,例如Goog

7、le,AltaVista等。它的缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。1.1.3Meta搜索引擎Meta搜索引擎也叫做元搜索引擎(MultipleSearchEngine),它的特點(diǎn)是本身并沒(méi)有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù),當(dāng)用戶查詢一個(gè)關(guān)鍵詞時(shí),它把用戶的查詢請(qǐng)求轉(zhuǎn)換成其它搜索引擎能夠接受的命令格式,并行地訪問(wèn)數(shù)個(gè)搜索引擎來(lái)查詢這個(gè)關(guān)鍵詞,并把搜索引擎返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后再返回給用戶。在目前所存在的搜索引擎中,沒(méi)有一個(gè)搜索引擎能夠覆蓋所有的WWW資源,大部分的搜索引擎都只能涉及到整個(gè)資源的一小部分,并且各類搜索引擎的信息來(lái)源差異較大,因此集成多個(gè)搜索引擎而

8、產(chǎn)生的Meta搜索引擎具有比傳統(tǒng)引擎覆蓋面大,搜索效果更好且具有可擴(kuò)展性等優(yōu)點(diǎn)。它的缺點(diǎn)是有一定的局限性,不能夠充分使用所使用搜索引擎的功能。1.2搜索引擎的工作原理與主要技術(shù)搜索引擎的工作原理是:由一個(gè)Robot盡可能多地收集WWW上的網(wǎng)頁(yè),按照每個(gè)網(wǎng)頁(yè)的文本內(nèi)容建立單詞到網(wǎng)頁(yè)的反向索引,用戶在查詢感興趣的主題時(shí),輸入該主題的關(guān)鍵字作為查詢條件,搜索引擎利用事先建立好白網(wǎng)頁(yè)庫(kù)和單詞索引,檢索出符合條件的網(wǎng)頁(yè)返回給用戶。搜索引擎一般由3個(gè)部分組成,如圖1所示。圖1搜索引擎組成示意圖1. 2.1信息搜集系統(tǒng)信息搜集系統(tǒng)是通過(guò)Robot來(lái)自動(dòng)完成的,Robot在Internet中漫游,盡可能多、盡

9、可能快地搜集各種類型的新信息。由于Internet上的信息量十分巨大,而且更新很快,因此,為了保證搜索引擎上的信息的完整性和時(shí)效性,就要求Robot具有理想的搜索策略和很高的搜索效率。目前主要有2種搜集信息的策略:(1)從一個(gè)起始URL集合開(kāi)始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo!)。(2)將Web空間按照域名、IP地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。1.2.2索引系統(tǒng)Robot搜集信息后,由分析索引系統(tǒng)程序?qū)κ占貋?lái)的

10、網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等,根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。1. 2.3查詢接口當(dāng)用戶提出查詢要求時(shí),搜索引擎根據(jù)用戶的查詢?cè)谒饕龜?shù)據(jù)庫(kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。查詢

11、接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。2人工智能技術(shù)的應(yīng)用研究Internet迅速的發(fā)展,使得網(wǎng)上的信息呈現(xiàn)指數(shù)級(jí)增長(zhǎng),Internet的問(wèn)題已經(jīng)從“提供信息”O(jiān)現(xiàn)有的搜索引擎存在著返回轉(zhuǎn)到“如何從浩如煙海的信息中提取對(duì)自己有用的信息資源”的無(wú)用信息太多、搜索效率低下、信息組織混亂等缺陷。起源于20世紀(jì)50年代的人工智能(AI)技術(shù),可以在Internet中導(dǎo)引用戶,不僅在用戶進(jìn)行搜索、瀏覽時(shí)給予直接的支持,而且能夠提供具有獨(dú)立搜索功能的智能體的幕后支持。因此人工智能已經(jīng)在Internet中扮演越來(lái)越重要的角色。2. 1Robot的智能化3. 1.1人工智能技術(shù)基

12、于Robot的搜索引擎中已經(jīng)使用了大量人工智能的技術(shù)。Robot的核心目的是獲取Internet上的信息資源,它是利用主頁(yè)中的超文本鏈接遍歷Web,通過(guò)URL引用從一個(gè)HTML文檔爬行到另一個(gè)HTML文檔。一般步驟如下:(1) Robot從起始URL列表中取出URL并從網(wǎng)上讀取其內(nèi)容。(2)從每一個(gè)文檔中提取某些信息并放入索引數(shù)據(jù)庫(kù)中。(3)從文檔中提取指向其它文檔的URL,并加入到URL列表中。(4)重復(fù)上述3個(gè)步驟,直到再?zèng)]有新的URL發(fā)現(xiàn)或超出了某些限制(時(shí)間或磁盤空間)。(5)給索引數(shù)據(jù)庫(kù)加上查詢接口,向網(wǎng)上用戶發(fā)布。其算法一般采用人工智能的搜索策略中的深度優(yōu)先和廣度優(yōu)先2種基本的策略

13、。廣度優(yōu)先策略可以跟蹤當(dāng)前頁(yè)面中的每一個(gè)URL,所以能覆蓋盡可能多的網(wǎng)頁(yè)。而深度優(yōu)先策略則能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結(jié)構(gòu),即找到最大數(shù)目的交叉引用。兩種算法都是通過(guò)對(duì)網(wǎng)頁(yè)的內(nèi)容的分析判斷與用戶查詢是否符合來(lái)檢索出用戶需要的網(wǎng)頁(yè),缺乏對(duì)檢索后的網(wǎng)頁(yè)進(jìn)行進(jìn)一步分析的能力,而且一次遍歷往往需要花費(fèi)很長(zhǎng)的時(shí)間,檢索到的信息存在大量的冗余和噪音。因此,為了提高搜索效率,運(yùn)用啟發(fā)式搜索策略來(lái)進(jìn)行對(duì)網(wǎng)頁(yè)的搜集,即Robot通過(guò)啟發(fā)式學(xué)習(xí)采取最有效的搜索策略,選擇最佳時(shí)機(jī)獲取從Internet上自動(dòng)收集、整理的信息。2. 1.2啟發(fā)式搜索算法常用有2種啟發(fā)式搜索算法:(1)加權(quán)的啟發(fā)式搜索算法:用

14、加權(quán)的啟發(fā)式搜索算法控制信息資源的搜集,系統(tǒng)根據(jù)用戶配置的領(lǐng)域?qū)蛟~和資源服務(wù)器所在的地域信息,以啟發(fā)式函數(shù)計(jì)算每個(gè)URL的權(quán)值,并選擇權(quán)彳1高的URL優(yōu)先訪問(wèn)。(2)用相關(guān)度及用戶興趣作為評(píng)價(jià)函數(shù)的啟發(fā)式搜索算法,對(duì)于系統(tǒng)中維護(hù)的一個(gè)超鏈隊(duì)列,根據(jù)評(píng)價(jià)函數(shù)值,按照由小到大的順序?qū)⒊滉?duì)排序,然后選擇具有最小評(píng)價(jià)函數(shù)值的超鏈作為下一個(gè)要擴(kuò)展的結(jié)點(diǎn)。2.2智能代理技術(shù)智能代理又稱智能體,是人工智能研究的新成果,近幾年的發(fā)展非常迅速。它使用自動(dòng)獲得的領(lǐng)域模型、用戶知識(shí)進(jìn)行信息搜集、索引、過(guò)濾,并自動(dòng)地將用戶感興趣的、對(duì)用戶有用的信息提交給用戶。智能代理的特點(diǎn)是具有不斷學(xué)習(xí)、適應(yīng)信息和適應(yīng)用戶興趣動(dòng)

15、態(tài)變化的能力,從而能夠提供個(gè)性化的服務(wù)。2.2.1智能代理的優(yōu)勢(shì)(1)智能性。具有豐富的知識(shí)和一定的推理能力,能分析用戶的需求和揣測(cè)用戶的意圖,以便能完成較復(fù)雜的任務(wù),而且它可以從經(jīng)驗(yàn)中不斷學(xué)習(xí),以提高自己處理問(wèn)題的能力。(2)代理性。顧名思義智能代理是用戶的某種代理,它可以代替用戶完成一些任務(wù),并主動(dòng)將結(jié)果反饋給用戶。(3)主動(dòng)性。它能根據(jù)用戶的需求和環(huán)境的變化,主動(dòng)向用戶報(bào)告并提供服務(wù)。(4)協(xié)作性。它能通過(guò)各種通信協(xié)議和其他智能代理進(jìn)行信息交流,并可以相互協(xié)調(diào)共同完成復(fù)雜的任務(wù)。2.2.2客戶端智能代理和服務(wù)器端智能代理(1)客戶端智能代理技術(shù)以智能搜索代理技術(shù)為主,結(jié)合搜索引擎“面向主

16、題”的檢索模式,在密切關(guān)注個(gè)體需求、提高信息與用戶需求相關(guān)系統(tǒng)級(jí)此間可以通過(guò)統(tǒng)一的傳輸協(xié)議進(jìn)行溝通,交換信息,從而使更多的信息得以挖掘,以彌補(bǔ)智能代理信息搜索范圍有限的缺陷。(2)服務(wù)器端智能代理引入用戶反饋機(jī)制來(lái)完善檢索機(jī)制,提高檢索命中率,同時(shí)也可以提供面向個(gè)人的特殊檢索服務(wù)。這種方式是記錄該用戶的查詢蹤跡,從而在用戶再次登錄時(shí)結(jié)合以往的用戶檢索記錄來(lái)配合提供相關(guān)的檢索服務(wù)。并且可以通過(guò)對(duì)用戶的反饋意見(jiàn)進(jìn)行跟蹤,獲取用戶對(duì)結(jié)果的評(píng)價(jià),以便提高檢索質(zhì)量。2.3查詢接口的智能化2.3.1基于關(guān)鍵詞匹配搜索技術(shù)當(dāng)用戶提出查詢請(qǐng)求時(shí),用戶最關(guān)心的是搜索結(jié)果是否能夠滿足自己的需要。目前采取,根據(jù)這些

17、關(guān)鍵詞計(jì)算Web文檔跟的一種常見(jiàn)的策略是將用戶的查詢請(qǐng)求分解成若干關(guān)鍵詞用戶請(qǐng)求的匹配程度,從而挑出若干匹配的文檔。匹配程度的衡量準(zhǔn)則很多:一種是根據(jù)關(guān)鍵詞在文檔中出現(xiàn)的頻率確定它對(duì)用戶請(qǐng)求的匹配程度;一種是計(jì)算關(guān)鍵詞出現(xiàn)次數(shù)和頁(yè)面總詞數(shù)之比。但是基于關(guān)鍵詞匹配的搜索技術(shù)有較大的局限性。它不能區(qū)分同形異義,也不能聯(lián)想到關(guān)鍵詞的同義詞。2.3.2自然語(yǔ)言查詢?yōu)榱颂岣咚阉饕鎸?duì)用戶查詢請(qǐng)求的理解,就必須有一個(gè)好的檢索提問(wèn)語(yǔ)言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),應(yīng)用自然語(yǔ)言理解技術(shù)進(jìn)行自然語(yǔ)言智能答詢。它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面,對(duì)知識(shí)有一定的理解與處理能力,能夠

18、實(shí)現(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。因而具有信息服務(wù)的智能化、人性化特征。它允許用戶采用自然語(yǔ)言進(jìn)行信息的檢索,為用戶提供更方便、更確切的搜索服務(wù)。與傳統(tǒng)的目錄查詢、關(guān)鍵詞查詢模式相比,自然語(yǔ)言查詢的優(yōu)勢(shì)體現(xiàn)在:(1)由于自然語(yǔ)言查詢具有智能分詞功能,因此使得查詢變得更為簡(jiǎn)單、易于操作。(2)采用知識(shí)(概念)檢索技術(shù),明確和縮小了搜索范圍,減少了對(duì)無(wú)用信息的搜索。(3)由于有綜合知識(shí)庫(kù)為背景,使得信息檢索與導(dǎo)航服務(wù)更具有智能性。利用自然語(yǔ)言理解技術(shù)進(jìn)行智能搜索主要分為語(yǔ)義理解、知識(shí)管理和知識(shí)檢索。其中,知識(shí)庫(kù)是其基礎(chǔ)和核心。在語(yǔ)義理解的過(guò)程中,智能分詞技術(shù)是重要的一

19、個(gè)環(huán)節(jié),它將組成語(yǔ)句的核心詞提煉出來(lái)供語(yǔ)義分析模塊使用。在分詞的過(guò)程中,如何能夠恰當(dāng)?shù)靥峁┳銐虻脑~來(lái)供分析程序處理,并且過(guò)濾掉冗余的信息,這是提高語(yǔ)義分析的質(zhì)量和速度的重要前提。知識(shí)檢索可以利用語(yǔ)義分析的結(jié)果,對(duì)知識(shí)庫(kù)進(jìn)行概念級(jí)的檢索,對(duì)用戶提出的問(wèn)題給出準(zhǔn)確度最高、相關(guān)度最強(qiáng)的檢索結(jié)果。3結(jié)束語(yǔ)Internet已經(jīng)發(fā)展為當(dāng)今世界上最大的信息庫(kù)和全球范圍內(nèi)傳播信息的主要渠道,擁有大量結(jié)構(gòu)復(fù)雜且分散的信息資源。將人工智能技術(shù)應(yīng)用于搜索引擎提高Internet資源利用率,正日益得到廣泛的重視和研究。本文簡(jiǎn)單探討和研究了搜索引擎的工作原理,研究了人工智能在搜索引擎中應(yīng)用方法,但是,由于人工智能技術(shù)發(fā)展還遠(yuǎn)遠(yuǎn)不夠成熟,網(wǎng)絡(luò)信息組織無(wú)序性、信息媒體多樣化,要建立真正的基于自然語(yǔ)言理解的智能答詢系統(tǒng),理解自然語(yǔ)言及所代表的實(shí)際含義,根據(jù)問(wèn)題找出用戶實(shí)際想要的答案,還有很多的理論和應(yīng)用難題。Internet網(wǎng)絡(luò)技術(shù)的快速發(fā)展,使網(wǎng)絡(luò)已經(jīng)成為了人們?nèi)粘I畈豢苫蛉钡囊徊糠?,它作為信息發(fā)布、傳播的主要方式,Web擁有幾億頁(yè)面的分布式信息空間,目前仍然以130200d翻一番的速度增加。Int

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論