信息檢索 第01章 緒論專業(yè)課課件_第1頁
信息檢索 第01章 緒論專業(yè)課課件_第2頁
信息檢索 第01章 緒論專業(yè)課課件_第3頁
信息檢索 第01章 緒論專業(yè)課課件_第4頁
信息檢索 第01章 緒論專業(yè)課課件_第5頁
已閱讀5頁,還剩90頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信息檢索

第01章緒論軟件學院教研室陳鄞課程考核隨堂考核:20%大作業(yè):30%試卷:50%隨堂考核(20%)課堂回答問題課堂討論形式小組討論過程每個學生簡要發(fā)表一下自己的觀點組內展開較深入的討論整理形成組內觀點,由一位組員代表發(fā)言(輪流發(fā)言)成績評定其他組成員可以進行提問和評論(提問和進行評論在考核個人成績時是加分的因素)發(fā)言提綱需交給教師,作為考核的重要依據(jù)提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結構1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢1.6信息檢索的當前研究熱點1.1什么是信息檢索TheWebWebspiderIndexerIndexesSearchUser在IR中,“相關性”是一個關鍵性的基礎概念信息檢索(InformationRetrieval,IR)廣義:“信息存儲與檢索”將信息按一定的方式組織和存儲起來,并根據(jù)用戶需求從信息集合中找出相關信息的過程和技術狹義:“信息查找”或“信息搜索”信息檢索的本質是排序問題信息檢索系統(tǒng)vs.數(shù)據(jù)庫系統(tǒng)信息檢索系統(tǒng)與傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)有什么不同?處理的對象不同數(shù)據(jù)庫處理的是結構化的數(shù)據(jù)信息檢索處理的是非結構化的信息查詢結果的準確性不同數(shù)據(jù)庫查詢的結果一定是準確的;信息檢索的結果不一定是準確的提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結構1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢1.6信息檢索的當前研究熱點1.2信息檢索的發(fā)展歷史19世紀下半葉:開始發(fā)展過去,信息檢索一直被人們稱為“情報檢索”,這一術語產生于圖書情報領域。檢索的主要目的是為了獲取有價值的情報或對科學研究有幫助的資料1.2信息檢索的發(fā)展歷史19世紀下半葉:開始發(fā)展20世紀中期以前:手工式檢索檢索工具:書本或卡片式的索引和目錄檢索方式:手翻、眼看、大腦判斷缺點:檢索者負擔沉重、效率低、容易漏檢1.2信息檢索的發(fā)展歷史19世紀下半葉:開始發(fā)展20世紀中期以前:手工式檢索20世紀中期:機械式檢索檢索工具:穿孔卡片優(yōu)點:不需人工判斷、卡片不需排序缺點:難以適應巨大規(guī)模信息庫的要求1.2信息檢索的發(fā)展歷史19世紀下半葉:開始發(fā)展20世紀中期以前:手工式檢索20世紀中期:機械式檢索20世紀60年代:脫機批量檢索1954年,美國海軍軍械試驗站圖書館利用IBM-701計算機建立了世界上第一個信息檢索系統(tǒng),用于情報服務。1959年,H.P.Luhn(盧恩)利用IBM-650對文獻進行統(tǒng)計分析,實現(xiàn)定題情報檢索服務1.2信息檢索的發(fā)展歷史19世紀下半葉:開始發(fā)展20世紀中期以前:手工式檢索20世紀中期:機械式檢索20世紀60年代:脫機批量檢索20世紀70年代到80年代:聯(lián)機檢索利用通信線路將設在各處的終端與計算機檢索系統(tǒng)連接以提供情報檢索服務的系統(tǒng)ORBIT(On-LineRetrievalofBibliographicInfomation-Timeshared)MEDLINE(美國國家醫(yī)學圖書館)DIALOG國際聯(lián)機情報檢索系統(tǒng)(美國洛克希德公司)ESA-IRS(歐洲空間組織情報檢索中心)1.2信息檢索的發(fā)展歷史19世紀下半葉:開始發(fā)展20世紀中期以前:手工式檢索20世紀中期:機械式檢索20世紀60年代:脫機批量檢索20世紀70年代到80年代:聯(lián)機檢索20世紀90年代以后:Web信息檢索互聯(lián)網用戶在網絡終端,通過特定的網絡搜索工具或是通過瀏覽的方式,查找并獲取信息的行為計算機檢索Web檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網絡剛剛誕生的時候Archie,加拿大麥吉爾大學(UniversityofMcGill),1990定期搜集并分析FTP服務器中的文件名信息,然后在本地建立索引用戶通過交互界面輸入查詢詞,系統(tǒng)自動在索引中查找相關的文件名和所在的FTP服務器的地址,并將查詢結果返回給用戶雖然Archie搜集的信息資源不是網頁(HTML文件),但和搜索引擎的基本工作方式是一樣的:自動搜集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現(xiàn)代搜索引擎的鼻祖Web檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網絡剛剛誕生的時候目錄式信息服務網站——互聯(lián)網發(fā)展初期1994年,Stanford大學博士生DavidFilo和楊致遠(JerryYang)創(chuàng)建的雅虎“Yahoo!”網站Web檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網絡剛剛誕生的時候目錄式信息服務網站——互聯(lián)網發(fā)展初期1994年,Stanford大學博士生DavidFilo和楊致遠(JerryYang)創(chuàng)建的雅虎“Yahoo!”網站1996年,中國,搜狐Web檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網絡剛剛誕生的時候目錄式信息服務網站——互聯(lián)網發(fā)展初期現(xiàn)代網絡搜索引擎集中式搜索引擎——早期整個搜索引擎系統(tǒng)的所有子系統(tǒng)都運行在同一臺服務器上實現(xiàn)簡單,占用資源比較少,投入資金少海量數(shù)據(jù)的處理能力比較弱,支持同時訪問的用戶數(shù)量比較少升級系統(tǒng)硬件,使用大型機和并行機提高處理能力擴展性有限,性價比也不高Web檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網絡剛剛誕生的時候目錄式信息服務網站——互聯(lián)網發(fā)展初期現(xiàn)代網絡搜索引擎集中式搜索引擎——早期分布式搜索引擎——現(xiàn)在用網絡連接多臺微機組成一個分布式的機群系統(tǒng)提供的分布式網絡服務一些著名的搜索引擎Excite,1993年6個斯坦福大學學生開發(fā)WebCrawler,1994年華盛頓大學學生BrianPinkerton創(chuàng)建WebCrawler是互聯(lián)網上第一個支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要一般來自人工評論或程序自動取正文的前100個字Lycos,1994年卡內基·梅隆大學MichaelMauldin創(chuàng)建Lycos(CarnegieMellonUniversity)是搜索引擎史上又一個重要的進步。除了相關性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個在搜索結果中使用了網頁自動摘要,而最大的優(yōu)勢還是它遠勝過其它搜索引擎的數(shù)據(jù)量?!癓ycos”是Lycosidae(一種很善于捕捉獵物的狼蛛)的縮寫。

Infoseek,1994年允許站長提交網址AltaVista,1995年AltaVista是第一個支持自然語言搜索的搜索引擎,第一個實現(xiàn)高級搜索語法的搜索引擎(如AND,OR,NOT等)Google,1998年斯坦福大學博士生LarryPage等主要的進步在于應用鏈接分析根據(jù)權威性對部分結果排序

北大天網,1997年北大天網是國家“九五”重點科技攻關項目“中文編碼和分布式中英文信息發(fā)現(xiàn)”的研究成果,由北大計算機系網絡與分布式系統(tǒng)研究室開發(fā),于1997年10月29日正式在CERNET(中國教育和科研計算機網)上提供服務百度,2000年前Infoseek資深工程師李彥宏創(chuàng)建搜狗,2004年2004年8月3日,搜狐公司推出中文搜索引擎LiveSearch,2006年2006年9月,微軟公司正式推出了擁有自主研發(fā)技術的LiveSearch,宣布進軍搜索引擎市場,挑戰(zhàn)Google在網絡搜索領域的霸主地位有道,2006年2006年12月,網易公司推出中文搜索引擎MicrosoftAcademicSearch,2009年2009年11月,微軟學術搜索MicrosoftAcademicSearchbeta版啟用,該搜索引擎目前主要提供計算機學科及相關領域的學術論文、作者、會議和學術期刊提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結構1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢1.6信息檢索的當前研究熱點文本數(shù)據(jù)庫數(shù)據(jù)庫管理建索引索引查詢處理搜索排序排序后的文檔用戶反饋文本處理用戶界面匹配的文檔用戶需求文本提問邏輯視圖倒排文檔詞條化Stemming(詞干提?。┟麑嶓w識別信息標引為文檔建立倒排索引表根據(jù)倒排索引表檢索出與提問相關的文檔將檢索出的文檔根據(jù)相關性排序對query進行變換,以改進檢索結果1.3

信息檢索系統(tǒng)的體系結構將用戶輸入的Query提交給系統(tǒng)將返回的文檔輸出給用戶結果的可視化表示相關反饋提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結構1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢1.6信息檢索的當前研究熱點1.4信息檢索的現(xiàn)狀搜索結果重復率高,搜索到的網頁打不開等令人煩惱個性化內容少,結果雷同也是不可以忍受的專業(yè)搜索功能差信息更新速度慢73.3%54.1%48.3%49.1%多媒體搜索功能弱30.1%搜索引擎用戶的抱怨不準、不全、不簡潔、……提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結構1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢1.6信息檢索的當前研究熱點1.5信息檢索的發(fā)展趨勢智能化個性化移動化商務化垂直化社區(qū)化多媒體化1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)oror“蘋果”:

“病毒”:NLP中的詞義消歧(WSD)技術用戶檢索上下文分析1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果利用分詞詞典改善檢索效果1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果利用同義詞典改善檢索效果“計算機”?“電腦”“China”?“PRC”“嗓子”?“咽喉”?“喉嚨”“互聯(lián)網”?“萬維網”?“因特網”… 1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識層面(概念層面)通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,進行輔助查詢,給予用戶智能知識提示

藝術電影舞蹈繪畫…故事片紀錄片文藝片…1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識層面(概念層面)通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,進行輔助查詢,給予用戶智能知識提示例如,對于用戶輸入的查詢“計算機”,可以進一步縮小查詢范圍至“微機”、“服務器”或擴大查詢至“信息技術”或查詢相關的“電子技術”、“軟件”、“計算機應用”等范疇1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識層面(概念層面)通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,進行輔助查詢,給予用戶智能知識提示推測用戶的搜索意圖,給予智能提示當輸入城市名的時候,很可能要找:當?shù)氐木频?、地圖、名勝等;當輸入電影名時,很可能要找:影評、主要演員、在線觀看的地址;當輸入手機型號時,很可能要找:評測對比、性能等;當輸入某些癥狀時,很可能找的是疑似病的特征、原因、治愈方法、專家醫(yī)院等等。1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識層面(概念層面)通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,進行輔助查詢,給予用戶智能知識提示檢索結果聚類,使用可視化技術顯示分類結構1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識層面(概念層面)通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,進行輔助查詢,給予用戶智能知識提示檢索結果聚類,使用可視化技術顯示分類結構1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識層面(概念層面)通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,進行輔助查詢,給予用戶智能知識提示檢索結果聚類,使用可視化技術顯示分類結構1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識層面(概念層面)通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,進行輔助查詢,給予用戶智能知識提示檢索結果聚類,使用可視化技術顯示分類結構1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識層面(概念層面)通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,進行輔助查詢,給予用戶智能知識提示檢索結果聚類,使用可視化技術顯示分類結構1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關鍵詞匹配的信息檢索技術,往往存在查不全、查不準、不夠簡潔、檢索質量不高等現(xiàn)象解決方案從自然語言處理技術入手,進行更加深入的內容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識層面(概念層面)通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,進行輔助查詢,給予用戶智能知識提示檢索結果聚類,使用可視化技術顯示分類結構引入直接或間接的相關反饋機制,更準確地理解用戶的需求相關反饋機制Imagesearchengine/imsearch/imsearch.htmlResultsforInitialQueryRelevanceFeedbackResultsafterRelevanceFeedback問答系統(tǒng)允許用戶以自然語言方式詢問,系統(tǒng)從單語或多語文檔集中查找并返回確切答案或者蘊含答案文本片斷世界上最大的宮殿是什么宮殿?紫禁城/故宮誰發(fā)現(xiàn)了北美洲?茉莉花每年能開花幾次?黃山在哪個省?中國人口有多少?參加希臘奧運會的國家都有哪些?……容錯式檢索通配符查詢實用場景用戶對查詢的拼寫不太確定例:“Sydney”or“Sidney”→“S*dney”用戶想查找某個查詢詞的所有變形例:“automat*”→automatic

automation

automated容錯式檢索通配符查詢拼寫校正1.5.2個性化信息檢索文檔……傳統(tǒng)搜索引擎GRE紅寶書毛主席語錄考研紅寶書個性化搜索引擎信息過濾計算機根據(jù)用戶提供的一個過濾需求(UserProfile),從動態(tài)變化的信息流(比如Web)中自動檢索出滿足用戶個性化需求的信息選擇有用的信息推送(例如新聞定制)濾除無用的(有害的)信息過濾計算機根據(jù)用戶提供的一個過濾需求(UserProfile),從動態(tài)變化的信息流(比如Web)中自動檢索出滿足用戶個性化需求的信息選擇有用的信息推送(例如新聞定制)濾除無用的(有害的)信息過濾計算機根據(jù)用戶提供的一個過濾需求(UserProfile),從動態(tài)變化的信息流(比如Web)中自動檢索出滿足用戶個性化需求的信息選擇有用的信息推送(例如新聞定制)濾除無用的(有害的)垃圾郵件過濾反動言論、色情內容信息過濾vs.信息檢索信息過濾與信息檢索有許多共同的特征,Belkin和Croft認為信息過濾是一種特殊的信息檢索,因為它們的目的都是搜索相關的信息但是,二者還是有一些區(qū)別信息檢索信息過濾用戶需求描述“Query”“UserProfile”用戶需求動態(tài)靜態(tài)信息資源靜態(tài)動態(tài)需要了解用戶的情況否是信息過濾的重要意義克服重復查詢改變信息獲取方式,“信息找人”節(jié)省網絡資源、提高網絡傳輸效率提高信息安全提高獲取信息的效率1.5.3移動化1.5.4商務化1.5.5垂直化1.5.6社區(qū)化“社區(qū)化搜索”幫助用戶獲得其他用戶所保存的同主題相關內容,使得用戶既是搜索內容的使用者,又是搜索內容的創(chuàng)造者百度貼吧新浪愛問雅虎“知識堂”…1.5.7多媒體化基于內容的多媒體檢索視頻圖像音頻語音音樂…基于內容的圖像查詢

基于內容的圖像查詢:顏色、紋理、形狀、空間結構等圖像數(shù)據(jù)庫/互聯(lián)網用戶的提問查詢搜索引擎基于文本的圖像查詢提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結構1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢1.6信息檢索的當前研究熱點1.6信息檢索的當前研究熱點信息抽取信息過濾文本數(shù)據(jù)挖掘問答系統(tǒng)異構信息檢索分布式信息檢索1.6.1信息抽取信息抽?。↖nformationExtraction:IE)是把文本里包含的信息進行結構化處理,變成表格一樣的組織形式從網頁中提取有用的信息

根據(jù)郵件內容自動生成日程表(Calendar)Subject:curriculummeetingDate:January15,2012To:DanJurafskyHiDan,we’venowscheduledthecurriculummeeting.ItwillbeinGates159tomorrowfrom10:00-11:30.-ChrisCreatenewCalendarentryEvent:CurriculummtgDate:Jan-16-2012Start:10:00amEnd:11:30amWhere:Gates1591.6.2文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘(TextMining)是指從文本數(shù)據(jù)中抽取有價值的信息和知識的計算機處理技術話題檢測與跟蹤對新聞媒體等信息源進行新話題的自動識別和已知話題的持續(xù)跟蹤應用領域信息安全金融證券市場分析行業(yè)調研…1.6.2文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘(TextMining)是指從文本數(shù)據(jù)中抽取有價值的信息和知識的計算機處理技術話題檢測與跟蹤微博數(shù)據(jù)挖掘非常事件的檢測興趣、偏好建模觀點挖掘(情感分析)①基于微博的區(qū)域性非常事件檢測

②基于微博的興趣、偏好建模SCIR微博飲食地圖不同地區(qū)的飲食習慣上海重慶湖北黑龍江不同性別的飲食習慣女性男性不同時間段的飲食習慣早上中午晚上交叉分析北京人晚上喜歡吃的食品廣東男性的飲食習慣消費行為分析閱讀習慣分析……③觀點挖掘(情感分析)情感分析(Sentimentanalysis)又稱傾向性分析,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程從電影評論中識別用戶對電影的褒貶評價太令人失望了充滿滑稽的人物、幽默的諷刺和曲折的情節(jié)有史以來最偉大的喜劇影片太可悲了。最糟糕的是拳擊場面商業(yè)領域的情感分析niceandcompacttocarry!sincethecameraissmallandlight,Iwon'tneedtocarryaroundthoseheavy,bulkyprofessionalcameraseither!thecamerafeelsflimsy,isplasticandverylightinweightyouhavetobeverydelicateinthehandlingofthiscameraSizeandweightAttributes:zoomaffordabilitysizeandweightflasheaseofuse???TwitterSentimentAppTwitter情感分析與傳統(tǒng)的民調、投票等方法結果有高度的一致性預測股票走勢、電影票房、選舉結果等1.6.3異構信息檢索異構信息檢索發(fā)展的基點檢索和整合不同來源和結構的信息涉及內容支持各種格式化文件的檢索TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等支持多語種的信息檢索支持結構化數(shù)據(jù)、半結構化數(shù)據(jù)及非結構化數(shù)據(jù)的統(tǒng)一處理和關系數(shù)據(jù)庫檢索的無縫集成以及其他開放檢索接口的集成1.6.4分布式信息檢索IR系統(tǒng)面臨的效率方面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論