




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Web信息檢索技術(shù)信息檢索課程介紹寫在授課之前授課學(xué)時(shí)實(shí)驗(yàn)學(xué)時(shí)-10學(xué)時(shí)-30學(xué)時(shí)2信息檢索課程介紹Quiz下面場景中,按回車鍵,會(huì)發(fā)生什么?瀏覽器地址欄里輸入之后Google搜索框里輸入”黑龍江大學(xué)”之后3信息檢索課程介紹本課程的內(nèi)容(1)信息及信息資源信息檢索概述信息檢索模型信息檢索評價(jià)檢索的改進(jìn)技術(shù)4信息檢索課程介紹本課程的內(nèi)容(2)文本分類和聚類信息過濾Web信息檢索基于內(nèi)容的圖像及音頻檢索問答系統(tǒng)及自動(dòng)文摘5信息檢索課程介紹信息及信息資源信息的涵義信息的種類、特征信息資源電子信息資源電子信息資源的特征、類型6信息檢索課程介紹信息檢索概述概念及意義體系結(jié)構(gòu)研究現(xiàn)狀與發(fā)展趨勢相關(guān)領(lǐng)域主要搜索引擎分類與評價(jià)信息檢索的應(yīng)用7信息檢索課程介紹信息檢索模型布爾模型向量空間模型(VSM)概率模型8信息檢索課程介紹信息檢索評價(jià)相關(guān)性問題信息檢索性能評價(jià)信息檢索性能評價(jià)指標(biāo)信息檢索評價(jià)試驗(yàn)平臺(tái)TREC9信息檢索課程介紹檢索的改進(jìn)詞(Term)處理Stemming(詞干提?。┘夹g(shù),詞法分析、形態(tài)還原,停用詞表的構(gòu)建,語義詞典的構(gòu)建,分詞、詞性標(biāo)注和詞義消歧等索引技術(shù)倒排文檔(InvertedList),Signature文件,PAT樹等提問(Query)處理提問理解,提問的語義擴(kuò)展(包括基于局部聚類的提問擴(kuò)展,基于局部上下文分析的提問擴(kuò)展,基于相似語義詞典的提問擴(kuò)展,基于統(tǒng)計(jì)詞典的語義擴(kuò)展)相關(guān)反饋(包括Term權(quán)重的重新計(jì)算,相關(guān)反饋策略的評價(jià)等)10信息檢索課程介紹文本分類和聚類特征詞抽取TFIDF信息增益方法文本表示文本相似度計(jì)算文本分類算法文本聚類算法11信息檢索課程介紹文本過濾過濾系統(tǒng)中的Profile的表示與管理各種匹配算法BruteForce算法Knuth-Morris-Pratt算法Boyer-Moore算法Karp-Rabin過濾系統(tǒng)在信息安全中的應(yīng)用12信息檢索課程介紹Web信息檢索Web檢索的歷史與現(xiàn)狀WebInformationDiscovery
搜索技術(shù)(Crawling)排序算法PageRankHitsWebNoisesDetection13信息檢索課程介紹*基于內(nèi)容的圖像及音頻檢索*圖像的特征表示圖像相似度計(jì)算相關(guān)反饋基于音頻的信息檢索計(jì)算14信息檢索課程介紹*問答系統(tǒng)及自動(dòng)文摘*問答系統(tǒng)問題的理解與分類轉(zhuǎn)述(Paraphrasing)答案抽取問答式信息檢索的應(yīng)用自動(dòng)文摘自動(dòng)摘錄基于理解的自動(dòng)文摘基于信息抽取的自動(dòng)文摘基于篇章結(jié)構(gòu)的自動(dòng)文摘15信息檢索課程介紹課程目的發(fā)現(xiàn)了什么問題?Web信息的數(shù)量,內(nèi)容豐富程度(龐雜)↑人們訪問信息的效率↓課程目的介紹面對web信息過載問題挑戰(zhàn)的各種研究和嘗試,具體為大規(guī)模Web信息搜集、分析與處理方法與技術(shù)認(rèn)識(shí)這個(gè)激動(dòng)人心領(lǐng)域的導(dǎo)論16信息檢索課程介紹研究對象——Web1980年TimBerners-Lee負(fù)責(zé)的Enquire(EnquireWithinUponEverything的簡稱)項(xiàng)目。1990年11月,第一個(gè)Web服務(wù)器nxoc01.cern.ch開始運(yùn)行,TimBerners-Lee在自己編寫的圖形化Web瀏覽器“WorldWideWeb”上看到了最早的Web頁面。1991年,CERN(EuropeanParticlePhysicsLaboratory)正式發(fā)布了Web技術(shù)標(biāo)準(zhǔn)。目前,與Web相關(guān)的各種技術(shù)標(biāo)準(zhǔn)都由著名的W3C組織(WorldWideWebConsortium)管理和維護(hù)。17信息檢索課程介紹Web的支撐技術(shù)用超文本技術(shù)(HTML)實(shí)現(xiàn)信息與信息的連接用統(tǒng)一資源定位技術(shù)(URI)實(shí)現(xiàn)全球信息的精確定位用新的應(yīng)用層協(xié)議(HTTP)實(shí)現(xiàn)分布式的信息共享。這三個(gè)特點(diǎn)無一不與信息的分發(fā)、獲取和利用有關(guān)。TimBerners-Lee說:"Web是一個(gè)抽象的(假想的)信息空間。"也就是說,作為Internet上的一種應(yīng)用架構(gòu),Web的首要任務(wù)就是向人們提供信息和信息服務(wù)。18信息檢索課程介紹Web技術(shù)的發(fā)展客戶端技術(shù)GIF第一次為HTML頁面引入了動(dòng)感元素JavaApplets和JavaScript的支持CSS(CascadingStyleSheets)和DHTML(DynamicHTML)技術(shù)插件、ActiveX控件技術(shù)服務(wù)端技術(shù)CGI允許服務(wù)端的應(yīng)用程序根據(jù)客戶端的請求,動(dòng)態(tài)生成HTML頁面,動(dòng)態(tài)信息交換Perl,PHP、ASP、JSP企業(yè)級開發(fā)平臺(tái)--J2EE和.NET19信息檢索課程介紹Web增長LoadonthefirstWebserver(info.cern.ch)1000timeswhatithasbeen3yearsearlier
20信息檢索課程介紹Web增長網(wǎng)站數(shù)目↑↑↑1993-1996,from130to600.000sitesNetcraftsaidthatithascounted85,541,228websitesatthebeginningof2006/06,Thenumberrepresentsagainof3.96millionsitesoverthepreviousmonth用戶數(shù)目↑↑↑Thenwhathappened?……21信息檢索課程介紹瀏覽器大戰(zhàn)1993,MarkAndreessen編寫Mosaic“ThegreatthingabouttheInternet--thethingthatcatalyzeditinthefirstplaceandrenewsiteveryday--isthattherearesomanypeopleabletouseit,abletodoamilliondifferentthings.It'sanopenplatformthatanybodycandevelopandcreateapplicationsfor.Alotofpeopleareabletoapplytheirenergy,andseeitbearfruit.”
22信息檢索課程介紹瀏覽器大戰(zhàn)1994,MarkAndreessen發(fā)布Netscape,成為當(dāng)時(shí)的事實(shí)標(biāo)準(zhǔn)1995,Microsoft開始全面轉(zhuǎn)向Internet,發(fā)布InternetExplorer1.0,三個(gè)月后發(fā)布2.01997,IE4.0發(fā)布,引入DHTML,Winner1998,Netscape開放源碼2004,在Netscape源碼基礎(chǔ)上開發(fā)發(fā)布Firefox,比IE有更多新功能和更好安全性,開始了新一輪瀏覽器大戰(zhàn)。Why?
WebBrowser成為爭奪的焦點(diǎn)?23信息檢索課程介紹豐富的web應(yīng)用(電子港灣):在線拍賣和購物1995年用戶:1.68億(維基百科):免費(fèi)百科全書2001年用戶:每天91.2萬人次訪問(納帕斯特):音樂共享
1999年用戶:50萬個(gè)付費(fèi)用戶
:視頻共享
2005年用戶:每天1億人次視頻瀏覽(博客網(wǎng))
1999年用戶:1850萬固定訪客24信息檢索課程介紹豐富的web應(yīng)用(友聚網(wǎng)):校友錄1999年用戶:1500萬(德拉吉報(bào)道):個(gè)人媒體1994年用戶:每天800萬到1000萬頁次瀏覽(我的空間):社交網(wǎng)絡(luò)
2003年用戶:1億(亞馬遜書店):網(wǎng)上書店
1994年用戶:超過250個(gè)國家和地區(qū)3500多萬用戶
:科技論壇
1997年用戶:每月5500萬25信息檢索課程介紹豐富的web應(yīng)用(沙龍網(wǎng)):在線雜志
1995年用戶:每月2500萬至3500萬訪客(克雷格列表):分類廣告
1995年用戶:每月4萬億頁次瀏覽(谷歌):搜索引擎1998年用戶:每天10億個(gè)搜索請求(雅虎):門戶網(wǎng)站1994年用戶:4億(易航網(wǎng)):廉價(jià)航空1995年用戶:去年乘客3000萬人次26信息檢索課程介紹27信息檢索課程介紹Web的未來W3C:Web的未來是語義化的Web(SemanticWeb)-2001XML—信息本身的格式和數(shù)據(jù)內(nèi)容SOAP協(xié)議,WSDL協(xié)議—WebServiceRDF(ResourceDescriptionFramework)元數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)和相關(guān)的技術(shù)標(biāo)準(zhǔn)OWL(OWLWebOntologyLanguage)28信息檢索課程介紹Web1.0Web2.0DoubleClickGoogleAdSenseOfotoFlickrAkamaiBitTorrentNapster大英百科全書在線(BritannicaOnline)維基百科全書(Wikipedia)個(gè)人網(wǎng)站personalwebsites博客(blogging)evite和EVDB域名投機(jī)搜索引擎優(yōu)化SEO頁面瀏覽數(shù)pageviews每次點(diǎn)擊成本costperclick屏幕抓取(screenscraping)網(wǎng)絡(luò)服務(wù)(webservices)發(fā)布publishing參與participation內(nèi)容管理系統(tǒng)contentmanagement維基wikis目錄(分類)directories標(biāo)簽(tagging,folksonomy)粘性stickiness聚合syndication29信息檢索課程介紹我們關(guān)心的角度Theworldwideweb(web)isanetworkofinformationresources.Web圖:節(jié)點(diǎn)代表webpages,邊是hyperlinks大規(guī)模、動(dòng)態(tài)、分布式的圖反映了人們組織信息的方式研究人們訪問web的方式信息資源:主要關(guān)注文本資源(htmlwebpages)arecentstudyindicatedthat80%of
acompany’sinformationiscontainedintextdocuments.[1]如何更有效訪問這些信息資源?用戶信息:站點(diǎn)訪問日志反映了用戶訪問信息的方式30信息檢索課程介紹我們關(guān)注的中心…DragonmetaphorGatekeepersofoursociety’streasuretroveofinformationmagic,powerful,independent,andunpredictable.SearchEngine31信息檢索課程介紹TheSuperStarofWebApplicationis…SearchEngine!Google2005年8月19日上市,以85美元的價(jià)格籌集到了16.7億美元百度2005年8月5日晚在美國納斯達(dá)克上市,融資1.09億美元。發(fā)行價(jià)27美元,最高達(dá)151美元Microsoft,Yahoo,等公司對websearch的巨大投入國內(nèi)門戶網(wǎng)站紛紛推出自己研發(fā)的searchengine,sohu,netease,qq…Googlesaysit’sgoalis“toorganizetheworld’sinformationandmakeituniversally
accessibleanduseful”32信息檢索課程介紹WhoWhosearchtheWeb?Everybody33信息檢索課程介紹WhereSearchEngineServiceSearchbox也成為網(wǎng)站的信息入口:Ebay,amazon,taobao,china-pub,…34信息檢索課程介紹WhatWhatarepeoplesearchingfor?15%for“agoodcollectionoflinksonasubject”25%for“aspecificWebsitethatalreadyhadinmind”36%for“intenttoperformsomeWeb-mediatedactivity”35信息檢索課程介紹HowHowdoesthesearchenginework?CrawlingPreprocess&indexingRetrievingwww36信息檢索課程介紹When1994年7月,MichaelMauldin將JohnLeavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos,成為第一個(gè)現(xiàn)代意義的搜索引擎。ExciteYahooInfoseekInktomiAltavista
->Overture->yahooAskJeevesGoogle國內(nèi)1997北大天網(wǎng)搜索,清華指南針?biāo)阉鳎A南木棉搜索2000年baidu37信息檢索課程介紹Pre-GoogleFirstTrulyGoodSearchEngine:AltavistaLouisMonier@DEC’sWesternLab1995,10M網(wǎng)頁;1995/12/15發(fā)布時(shí)已經(jīng)索引了16M網(wǎng)頁1997,25Mqueries/day,$50Mrevenue核心技術(shù)大規(guī)模資源搜集crawling:效率、存儲(chǔ)、組織從keyword怎樣找到相關(guān)的網(wǎng)頁?(信息檢索)38信息檢索課程介紹GoogleGoogleLarryPageandSergeyBrin@StandfordSpamskillthesearchengine,so…2005年索引80Billions網(wǎng)頁,每日查詢1Billion!核心技術(shù)基于鏈接分析的排序技術(shù):pagerank基于搜索的廣告:AdWords,AdSense海量數(shù)據(jù)處理基礎(chǔ)設(shè)施:tensofthousandsofpcs39信息檢索課程介紹FutureoftheSearchIsGoogleperfect?搜索數(shù)據(jù)資源種類不斷增加SearchEverywhereMp3,pictures,bbs,forum,literature,blog…本地化、個(gè)性化Local&PersonalClickstream!Y!Q面向特定領(lǐng)域的垂直搜索酷訊,愛幫,(信息提取)結(jié)果可視化Vivisimo,(結(jié)果聚類)QuestionAnswer百度知道,IBMWebFountain,WebDigest……????40信息檢索課程介紹Morethansearch?QueryLikethis:“GivemeallthedocumentsonthewebthathaveatleastonepageofcontentinArabic,arelocatedintheMidwest,andareconnectedtoatleasttwosimilardocumentsbutarenotconnectedtotheofficialAlJazeeraWe
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 通信接入管理制度電力
- 食品倉庫司機(jī)管理制度
- 黨支部財(cái)產(chǎn)管理制度
- 酒店管理前臺(tái)管理制度
- 農(nóng)村廢棄物資源化利用創(chuàng)新設(shè)計(jì)方案
- 城區(qū)市政燃?xì)夤艿栏脑焯嵘桨赋醪皆O(shè)計(jì)
- 2025至2030年中國耐磨堆焊焊條行業(yè)投資前景及策略咨詢報(bào)告
- 2025至2030年中國羧酸有機(jī)錫行業(yè)投資前景及策略咨詢報(bào)告
- 2025至2030年中國缸體行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2030年中國組合折疊臺(tái)市場分析及競爭策略研究報(bào)告
- 2025年中國工業(yè)X射線檢測設(shè)備行業(yè)市場集中度、企業(yè)競爭格局分析報(bào)告-智研咨詢發(fā)布
- 職工維權(quán)知識(shí)培訓(xùn)課件
- 2024銀行春招招聘解析試題及答案
- 2025陜西核工業(yè)工程勘察院有限公司招聘21人筆試參考題庫附帶答案詳解
- 2024中國核工業(yè)集團(tuán)公司招聘(300人)筆試參考題庫附帶答案詳解
- 第15課《青春之光》課件-2024-2025學(xué)年統(tǒng)編版語文七年級下冊
- 初中網(wǎng)絡(luò)安全教育
- 浙江省杭州市金麗衢十二校2024-2025學(xué)年高三下學(xué)期(3月)第二次聯(lián)考數(shù)學(xué)試題 含解析
- 直流斬波電路-升壓斬波電路(電力電子技術(shù)課件)
- 2024年上海楊浦區(qū)社區(qū)工作者筆試真題
- 2025年1月浙江省高考物理試卷(含答案)
評論
0/150
提交評論