下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
電子商務的智能搜索引擎技術的研究
一、搜索引擎的現(xiàn)狀當前搜索引擎數(shù)據(jù)庫檢索和應用性差,不利于用戶使用;排序技術指標單一,查找到的信息有效性低;信息分類類目和標準不統(tǒng)一,導致界而友好性低;自身搜索技術不成熟,誤檢率高,不利于電子商務使用。搜索引擎主要由搜索器、索引器、檢索器和用戶接口四部分組成。搜索器一般采用一種被稱為Spider的網(wǎng)絡自動跟蹤索引程序。索引器的功能是理解搜索器所索引的信息,從中抽取索引項、建立起自己的物理索引數(shù)據(jù)庫。檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢索出文檔,進行文檔與查詢的相關度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關性反饋機制。用戶接口的作用是輸人用戶查詢,顯示查詢結(jié)果,提供用戶相關性反饋機制。目前搜索引擎根據(jù)構(gòu)建時的不同策略,大致可以分為三種模式:一、建立在分類基礎上的搜索引擎,優(yōu)點是準確率比較高,不足是查全率不是很好。二、建立在索引文檔基礎上的搜索引擎,優(yōu)點是搜索網(wǎng)絡信息效率高,查全率好于第一種,但查準率不及第一種;三、建立在概念的基礎上,突破了傳統(tǒng)搜索引擎中相對比較簡單的基于關鍵詞的匹配,它借助數(shù)據(jù)字典擴展條件,通過模式的提取和識別抽象化搜索條件與文檔之間的聯(lián)系,這種搜索引擎的查準率較差,而查全率是三者中最高的。利用人工智能先進技術重新設計搜索引擎,使搜索引擎更具智能化,使檢索結(jié)果更能反映用戶的需求,這類搜索引擎稱為智能搜索引擎。把信息檢索從目前基于關鍵詞層面提高到基于知識層面,是解決問題的根本和關鍵。二、智能檢索技術的分析研究1.網(wǎng)絡Robot的智能技術分析研究網(wǎng)絡Robot是一種軟件,它完成任務必須具備一定的智能,可以概括為以下幾個方面:(1)提取網(wǎng)頁中的有效鏈接智能Robot從分析一組指定的URL開始,按照電子商務的電子詞典對文檔的相關性進行判斷提取超鏈,濾去不適宜的文檔,降低索引的混亂程度,滿足條件的超鏈按照標題或單詞建立索引并產(chǎn)生本地數(shù)據(jù)庫,使搜索結(jié)果更加純凈。(2)識別訪問過的鏈接,剔除廣告等無意義的鏈接智能Robot排除掉那些在目標URL中已被訪問過的URL;由于WWW的巨大規(guī)模,為避免Robot搜索得太深,從而回不到原處的情況發(fā)生,必須對搜索的深度進行限制;剔除圖像、音頻、視頻等無法進行索引的文檔。(3)確定搜索策略Robot的搜索策略是指當Robot搜索到一個文檔后,下一步應當轉(zhuǎn)移到哪個文檔的方法問題。它主要有以下幾種搜索策略:①IP地址搜索策略。它實現(xiàn)的方法是先賦予Robot一個起始的IP地址,然后根據(jù)IP地址遞增的方式搜索本IP地址段后的每一個WWW地址中的文檔。優(yōu)點是搜索全面,缺點是不適宜大規(guī)模的搜索。②深度優(yōu)先搜索策略。它是從起始節(jié)點出發(fā),一直搜索到那些不包含任何超級鏈接的文件為止,然后再返回某一文檔,再繼續(xù)選擇該文檔中的其他超級鏈接。優(yōu)點是便于發(fā)現(xiàn)新的站點,但信息面增長相對慢一些。③廣度優(yōu)先搜索策略。它是先搜索完一個Web頁面中所有的超級鏈接,然后再繼續(xù)下一層的搜索,直到最底層為止。它能夠很好地解決搜索面的問題,缺點是對于深層Web文檔要花很長的時間才能到達。我們采取深度與廣度相結(jié)合的策略來采集文檔,滿足條件的文檔放到搜索數(shù)據(jù)庫并建立索引數(shù)據(jù)庫,針對鏈接內(nèi)容發(fā)生變化,采取迅速、及時的更新機制,建立的索引庫供檢索數(shù)據(jù)使用。2.搜索條件的獲取和智能分析研究通常搜索引擎支持最多的是關鍵詞搜索和在此基礎上的邏輯運算,在初步搜索結(jié)果中再搜索和限制條件較為復雜的高級搜索,這種簡單的用戶信息獲取方式勢必直接影響著搜索結(jié)果的準確性和相關性。目前,由于各類電子商務站點使用的搜索引擎都是基于關系數(shù)據(jù)庫的檢索引擎,它無法處理在用戶看來是非常普通的常識性知識,更不能處理個性化知識、區(qū)域性知識以及專業(yè)性知識等。造成上述種種信息檢索困難的原因在于搜索引擎缺乏知識處理能力和理解能力,對要檢索的信息僅僅采用機械的關鍵詞匹配來實現(xiàn)。智能搜索引擎檢索的內(nèi)容應該是知識而不是信息,它對查詢條件的智能分析主要包括以下兩種:(1)提取查詢條件中的有效成分,包括詞匯和邏輯關系。(2)建立電子商務知識庫來獲取關鍵詞的同義詞、近義詞及相關詞,如計算機、電腦和微機是同義關系,建立概念之間復雜的語義關系及常識上的聯(lián)系,如相機與膠卷存在常識上的聯(lián)系。根據(jù)語義關系和常識性聯(lián)系對用戶查詢進行相關性聯(lián)想,提供引導用戶進行下一步查詢的線索。這樣一步步地在與用戶交互過程中誘導用戶“表達”出他真正想找的東西,從而實現(xiàn)對查詢的智能導航。三、結(jié)論互聯(lián)網(wǎng)智能搜索是一個新興的極具魅力的研究領域,它不但為商務主體提供了迅速接人Internet搜索自己所需商品的智能技術,而且也免除了交易雙方對象尋找進
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大學外貿(mào)英語chapter 1 The Global Economic Crisis
- 《機電一體化》課件 項目一 走進機電一體化
- 古詩詞誦讀《將進酒》課件 2024-2025學年統(tǒng)編版高中語文選擇性必修上冊
- 績效考核培訓課件檢驗科
- 《保險客戶服務》課件
- 陜西省西安市高新一中、交大附中2025屆高考數(shù)學考前最后一卷預測卷含解析
- 廣東省東莞市六校2025屆高考沖刺押題(最后一卷)語文試卷含解析
- 【培訓課件】財務報表審計簡介
- 現(xiàn)代學徒制課題:多元治理視角下的中國特色學徒制制度建設(附:研究思路模板、可修改技術路線圖)
- 2025屆福建省泉州市永春一中高考仿真模擬英語試卷含解析
- 第六單元 平移、旋轉(zhuǎn)和軸對稱(單元測試)-2024-2025學年三年級上冊數(shù)學蘇教版
- 軍事理論課學習通超星期末考試答案章節(jié)答案2024年
- 小火龍大冒險(教學設計)六年級下冊信息技術粵教版(B版)
- 文學名著《水滸傳》語段閱讀練習與答案
- 2024年度陜西延長石油(集團)限責任公司高校畢業(yè)生招聘(春招)高頻500題難、易錯點模擬試題附帶答案詳解
- 陸運貨物運輸合同2024年
- 實驗:用打點計時器測量小車的速度+實驗報告 高一上學期物理教科版(2019)必修第一冊
- 中廣核社會招聘筆試
- 音樂的美及其鑒賞智慧樹知到答案2024年湖南師范大學
- 人教版七年級地理上冊《多樣的文化》居民與文化課件
- DB2101T 0108-2024 工程建設招標代理機構(gòu)公共信用綜合評價規(guī)范
評論
0/150
提交評論