




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1Web ges-Weblinks– →Web2BroadSearchEngines:2WhotoWebsearch中詞 E.g.服裝 Whatisthe“best”answertoaspecific 網(wǎng)頁,(e.g.,foraqueryNosingleright4RankingNodesontheWeb56THE“FLOW”7Linkas8Example:Pagerank基本想
’sIdeaof 網(wǎng)頁內(nèi)容的判 ’s要性取值(pagerank),據(jù)此對(duì)網(wǎng)頁排序SimpleRecursiveEachlink’svoteisproportionaltoimportanceofitssourceIfpagejwithimportancerjhasnout-links,eachlinkgetsrj/nvotesPagej’sownimportanceisthesumofthevotesonitsin-linksFlowModelSolvingtheFlow方程組無唯一解(無窮多解增加約束條件,唯一ry+ra+rm=ry=2/5,ra=2/5,rm= NewPagerank:MatrixMisacolumnstochasticmatrix,i.e.,columnssumtoLetpage??has????out-Ifij,thenMji=1/diElseRankvector????istheimportancescoreofpage∑i????=Theflowr=MExample:FlowEquation&Eigenvector1 例例 .. 用隨 解設(shè)想用戶隨機(jī)瀏覽 任意時(shí)刻t,停留在頁面 設(shè)頁面停留概率分布矢量平穩(wěn)分t+1時(shí)刻用戶在哪里p(t+1)=如果隨 的狀態(tài)滿p(t+1)=Mp(t)=p(t)為stationaryRankvectorrr Existenceand 關(guān)于PageRank的3個(gè)疑DoesthisDoesitconvergetowhatweAreresults收斂
來看兩個(gè)例 收斂得有意義PageRank遭遇的2個(gè)問Problem:Spidermisaspider .. Iteration0,1,2,AllthePageRankscoregets“trapped”innode Solution: solutionforspiderAteachtimestep,therandomsurferhastwoWithprob.β,followalinkatWithprob.1-β,jumptosomerandomCommonvaluesforβareintherange0.8toSurferwill eportoutofspidertrapwithinafewtimesteps隨機(jī)跳轉(zhuǎn) Y
yyyyyya 0A
1/21/201/31/3 0+1/31/3011/31/3yam隨機(jī)跳轉(zhuǎn)
1/31/21/2 0 + 0 yyamy1 a=1 .. m1 Problem:Dead路的網(wǎng)頁(死胡同Solution1Web刪除 Solution2: eports:Followrandom eportlinkswithprobability1.0fromdead-endsAdjustmatrix eportSolvetheSpider-trapsarenotaproblem,butPageRankscoresarenotwhatwewantSolution:NevergetstuckinaspidertrapbyeportingoutofitinafinitenumberofstepsDead-endsareaproblem.ThematrixisnotcolumnstochasticsoourinitialassumptionsarenotmetSolution:MakematrixcolumnstochasticbyalwayseportingatdeadendsSolution: Thisformulationassumesthat??hasnodeadends.Wecaneitherpreprocessmatrix??toremovealldeadendsorexplicitlyfollowrandom eportlinkswithprobability1.0fromdead-ends. Sample: ComputingPageMatrixRearrangingtheSparseMatrixSparseMatrix僅用非零項(xiàng)表示稀疏矩
destination031,5,1517,64,113,117,2213, (E.g.10N4*10*1billionBasicAlgorithm:UpdateBlock- 小PageRank的定PageRank的迭代計(jì)針對(duì)終止點(diǎn) 陷阱的措 稀疏矩陣表塊更塊條更新(分布式計(jì)算PageRank的一些問衡量頁面的流行 單一的重要性測(cè)Topic-SpecificInsteadofgenericpopularity,canwemeasurepopularitywithinatopic?dependingonwhetheryouareinterestedinsports,historyandcomputersecurityGoal:EvaluateWgesnotjustaccordingtotheirpopularity,butbyhowclosetheyaretoaparticulartopic,e.g.“sports”or“history”AllowssearchqueriestobeansweredbasedoninterestsoftheuserTopic-SpecificeportcangoStandardPageRank:Anypagewithequalprobability.(Toavoiddead‐endandspider‐trapproblems)“relevant”pages eportIdea:BiastherandomWhen eports,shepicksapagefromasetScontainsonlypagesthatarerelevanttothetopic.(E.g.,OpenDirectorypagesforagiventopic/query)For eportsetS,wegetadifferentvectorMatrixA為不 建立不同的16個(gè)DMOZ頂 分e.g.,arts,business,WhichtopicrankingtoUsercanpickfromUsercontext,e.g.,user’susethecontextoftheE.g.,Historyofqueriese.g.,“basketball”followedbyFindingrelatedorsimilar Theproblemofmeasuring“similarity”ofobjectsarisesinmanyapplications.ExistingSim(a,b):similarityscoreof geaandI(a):in-linkneighborsof geO(a):out-linkneighborsof geCommonneighborSim(a,b)==|(c,d)|=CocitationSim(a,b)==|(c,d)|=ExistingSimRank(naive“twopagesaresimilariftheyarereferenced(cited,orlinkedto)bysimilarpages”(1)Sim(u,u)=1;(2)Sim(u,v)=0if|I(u)||I(v)|=,whereCisaconstantbetween0andTheiterationstartswithSim(u,u)=1,Sim(u,v)=0ifu≠v.SimRank(RandomworkPageRank:TRUSTRANK:WhatisWeb行為網(wǎng)頁 WebFirstAspeoplebegantousesearchenginestofindthingsontheWeb,thosewithcommercialintereststriedtoexploitsearchenginestobringpeopletotheirownsite–whethertheywantedtobethereornotShirt‐sellermightpretendtobeaboutTechniquesforachievinghighrelevance/importanceforaw TermBelievewhatpeoplesayaboutyou,ratherthanwhatyousayaboutyourselfPageRankasatooltomeasure“importance” WhyitShirt‐sellersayheisaboutmoviesdoesn’thelp,becauseothersdon’tsayheisaboutmoviesHispageisn’tveryimportant,soitwon’tberankedhighforshirtsormoviesvs.Spammers:Round becamethedominantsearchengine,spammersbegantoworkoutwaystoSpamfarmsweredevelopedtoconcentratePageRankonasinglepageLinkspam:CreatinglinkstructuresthatboostPageRankofaparticularpageLink 者觀點(diǎn)看,有3類網(wǎng)e.g LinkSpammer’s pageGetasmanylinksfromaccessiblepagesaspossibleto pagetConstruct“l(fā)inkfarm”togetPageRankmultipliereffectLink最常見和有效 農(nóng)場(chǎng)組織方式之采用統(tǒng)計(jì)方法分析文本e.gNa?veBayes類 郵件過濾的方檢查幾乎重復(fù)的頁檢測(cè) 農(nóng)場(chǎng)的頁Hidingvs.detectingspamfarms…(itisaTrustRank:topic-specificPageRankwitha eportsetof“trusted”pagesE.g. s, sfornon-USTrustRank:Basicprinciple:Approximate從web網(wǎng)上抽取一 網(wǎng)頁“seed這個(gè)任務(wù)很艱巨,somustmakeseedsetassmallaspossibleTrustSimpleModel:TrustWhyisitagood信 選 集集合大小的權(quán)需要人工檢查,所以保證所有好網(wǎng)頁以最短路徑抵達(dá)與集合;所以集合越大越好挑 集合的方 根據(jù)pagerank選擇k個(gè)頁面。原因 如.edu,.mil,.SpamIntheTrustRankmodel,westartwithgoodpagesandpropagatetrustComplementaryWhatfractionofapage’sPageRankcomesfromspampages?Inpractice,wedon’tknowallthespampages,soweneedtoestimateSpamMass HUBSANDHubsandHITS(Hypertext-InducedTopic目標(biāo):假設(shè)我們想要找到好報(bào) Idea:Linkas In-link?Out-FindingHITS頁Authorities:報(bào)紙主課程主汽車制造商的主 報(bào)紙列表頁課程列表頁每個(gè)汽車廠商 頁Countingin-links:Countingin-links:ExpertQuality:聯(lián)合迭代定Hubsand
[KleinbergHubsandHubsand存在性與唯一ExampleofPageRankandPageRank和HITS是一個(gè)問題的兩種方ThedestiniesofPageRankandHITSpost-1998wereverydifferent本章小 HITS:導(dǎo)航頁 Pagerank稀疏矩條塊更面 的對(duì) 的ComputethePageRankofeachpage,assumingβ=0.8.eComputethetopic-sensitivPageRank,assumingtheeeportset(a)A(b)AandSupposetwospamfarmersagreetolinktheirspamfarms.How
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 云南錫業(yè)職業(yè)技術(shù)學(xué)院《網(wǎng)絡(luò)路由與交換》2023-2024學(xué)年第二學(xué)期期末試卷
- 大連大學(xué)《兒童文學(xué)作品欣賞》2023-2024學(xué)年第二學(xué)期期末試卷
- 貴陽職業(yè)技術(shù)學(xué)院《獸藥殘留分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 河南農(nóng)業(yè)職業(yè)學(xué)院《中學(xué)數(shù)學(xué)教學(xué)設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 曹妃甸職業(yè)技術(shù)學(xué)院《舞臺(tái)美術(shù)設(shè)計(jì)與技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 北京電影學(xué)院《刑法(二)》2023-2024學(xué)年第二學(xué)期期末試卷
- 雅安職業(yè)技術(shù)學(xué)院《中級(jí)財(cái)務(wù)會(huì)計(jì)(上)》2023-2024學(xué)年第二學(xué)期期末試卷
- 南京審計(jì)大學(xué)《醫(yī)學(xué)微生物學(xué)理論》2023-2024學(xué)年第二學(xué)期期末試卷
- 白城醫(yī)學(xué)高等??茖W(xué)?!陡唠妷号c絕緣技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 齊齊哈爾理工職業(yè)學(xué)院《廣告策劃與新媒體設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024年百聯(lián)集團(tuán)有限公司招聘筆試沖刺題(帶答案解析)
- 以案促改學(xué)習(xí)研討發(fā)言材料
- 手術(shù)室常用藥物
- 安防監(jiān)控系統(tǒng)維保表格完整
- 服飾項(xiàng)目經(jīng)濟(jì)效益分析報(bào)告
- 數(shù)字貿(mào)易學(xué) 課件 第18、19章 全球數(shù)字經(jīng)濟(jì)治理概述、包容性發(fā)展與全球數(shù)字鴻溝
- 學(xué)校護(hù)蕾行動(dòng)工作方案及計(jì)劃書
- 武漢美食介紹PPT
- 化工原理第三章過濾
- 房屋抵押個(gè)人借款標(biāo)準(zhǔn)合同
- 國家職業(yè)技術(shù)技能標(biāo)準(zhǔn) 4-07-02-05 商務(wù)數(shù)據(jù)分析師S 2024年版
評(píng)論
0/150
提交評(píng)論