




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第十章Web數(shù)據(jù)庫集成系統(tǒng)分布式數(shù)據(jù)庫系統(tǒng)原理與應(yīng)用動機Web,我們廣泛應(yīng)用著,但還存在許多挑戰(zhàn)性問題?結(jié)構(gòu)化數(shù)據(jù)
豐富,然而卻很少被利用!Web信息分類Web上的信息可分為:SurfaceWeb和DeepWeb。SurfaceWeb是指可以通過超鏈接被傳統(tǒng)的搜索引擎索引到的頁面的集合;而DeepWeb是指Web中不能被傳統(tǒng)的搜索引擎索引到的那部分內(nèi)容,只能通過查詢接口動態(tài)提交查詢來訪問Web中的內(nèi)容。
TheDeepWeb:Web上的數(shù)據(jù)庫目前,有關(guān)Web的挑戰(zhàn)是“雙重的”
Getting
access
tothe
structured
information!AccessStructure
SurfaceWebDeepWeb
以前Web上:
搜索通常是基于爬蟲和索引(crawlandindex)
當(dāng)前Web上:
搜索的最終目標(biāo)是實現(xiàn)數(shù)據(jù)集成DeepWeb數(shù)據(jù)集成案例應(yīng)用案例:Web信息集成系統(tǒng)
動機:
Web上信息以多種形式存在,但目前主要基于Google、yahoo、百度等搜索引擎進行查詢,返回含有關(guān)鍵字的URI導(dǎo)航信息頁面(包括無用信息)。用戶通過逐一點擊獲取需要的信息,需要人們繁瑣的信息收集和識別過程,給人們帶來了許多不便。盡管如此,用戶得到的還是零散的、不完備的且非系統(tǒng)的信息。
目標(biāo):人們希望通過一個統(tǒng)一的獲取信息的門戶,能按需為用戶提供整合的信息??纱蟠蠊?jié)省大量的人力,提高查詢的效率和知識的利用率。購買一本書?Google上找書店對比最后確定要買的書太繁瑣!分別查詢各書店網(wǎng)頁返回優(yōu)化的結(jié)果自動查找和集成多查詢統(tǒng)一界面人們希望:存在許多挑戰(zhàn)問題:!!!DeepWeb數(shù)據(jù)集成關(guān)鍵問題主要科學(xué)問題
如何從豐富的Web頁面中按需并正確地發(fā)現(xiàn)和抽取實體資源;
非結(jié)構(gòu)化信息、包含噪聲、存在異構(gòu)
如何發(fā)現(xiàn)不同類型實體資源的關(guān)聯(lián)關(guān)系;
各種類型資源獨立、異構(gòu)、自治存在
如何整合不同類型的資源;
多種類型資源、大數(shù)據(jù)量、資源質(zhì)量不同如:一本書,一輛車,一個人等如:同類書、同一作者的書、同事、合作者等如:按書的價值高低排序;找該書相關(guān)的資料,如出版社、作者、作者的單位等國內(nèi)外研究現(xiàn)狀-1
國內(nèi)外研究現(xiàn)狀-1
深層數(shù)據(jù)源模式抽取技術(shù)Web數(shù)據(jù)庫查詢接口模式抽取研究
基本思想:基于查詢頁面的標(biāo)簽布局確定接口模式,如書名:Web數(shù)據(jù)庫結(jié)果模式抽取研究
基本思想:基于結(jié)果標(biāo)簽布局和基于實例探測確定結(jié)果數(shù)據(jù)的模式,如“書名:數(shù)據(jù)庫原理”
國內(nèi)外研究現(xiàn)狀-2
國內(nèi)外研究現(xiàn)狀-2深層數(shù)據(jù)源發(fā)現(xiàn)技術(shù)
DeepWeb發(fā)現(xiàn)研究
基本思想:針對查詢接口頁面布局信息并結(jié)合查詢探測確定是否為DeepWeb資源,如具有文本框的頁面DeepWeb數(shù)據(jù)源分類研究
基本思想:基于文檔分類的算法對Web數(shù)據(jù)庫查詢結(jié)果頁面分類
基本思想:查詢接口所在頁面上的特征,如有書名為圖書類數(shù)據(jù)源DeepWeb選擇的研究
基本思想:主要考慮接口模式屬性和用戶查詢屬性間的匹配關(guān)系,沒有涉及數(shù)據(jù)源質(zhì)量、數(shù)據(jù)源的查詢選擇度等
國內(nèi)外研究現(xiàn)狀-3國內(nèi)外研究現(xiàn)狀-3實體關(guān)聯(lián)關(guān)系發(fā)現(xiàn)基于屬性文本特征獲取實體間的關(guān)聯(lián)關(guān)系
基本思想:若兩個實體記錄在描述屬性上越相似,它們就越有可能相互等價,二者的語義關(guān)聯(lián)也就越強。基于上下文語義信息獲取實體間的關(guān)聯(lián)關(guān)系
基本思想:若實體的上下文語義信息之間存在著較多的聯(lián)系,則它們將具有較強的語義關(guān)聯(lián)。
國內(nèi)外研究現(xiàn)狀-4
國內(nèi)外研究現(xiàn)狀-4
DeepWeb數(shù)據(jù)整合技術(shù):主要是對相似重復(fù)記錄的識別半結(jié)構(gòu)化的XML模式上展開
基本思想:考慮樹結(jié)構(gòu)和節(jié)點內(nèi)容;基于實體表示形式轉(zhuǎn)換
基本思想:歸納出實體規(guī)則,并以DBLP和Wikipedia為標(biāo)準(zhǔn)進行匹配;用聚類算法基本思想:基于聚類方法實現(xiàn)國內(nèi)外研究現(xiàn)狀-5
國內(nèi)外研究現(xiàn)狀-5
查詢松弛技術(shù)基于查詢屬性松弛
基本思想:依次去除不重要的查詢屬性基于實例的查詢松弛
基本思想:擴大查詢謂詞的選擇范圍國內(nèi)外研究現(xiàn)狀-6
國內(nèi)外研究現(xiàn)狀-6
在DeepWeb研究領(lǐng)域中,已展開了相關(guān)的工作,典型的有:DeepWeb數(shù)據(jù)源發(fā)現(xiàn)與分類、查詢頁面接口抽取與查詢接口間映射和響應(yīng)頁面實例信息抽取等,并取得了一定的進展。但總的來說,目前人們對DeepWeb的研究還只是處于探索性階段,還不存在一個比較成熟的DeepWeb數(shù)據(jù)庫集成和檢索系統(tǒng),付諸于應(yīng)用還有一段距離。可見,為支持DeepWeb信息整合,還存在許多挑戰(zhàn)性工作。一個DeepWeb數(shù)據(jù)庫集成系統(tǒng)在該集成系統(tǒng)下的相關(guān)研究內(nèi)容DeepWeb集成系統(tǒng)框架結(jié)構(gòu)數(shù)據(jù)源分類數(shù)據(jù)源選擇接口模式抽取數(shù)據(jù)抽取與模式識別松弛查詢
重復(fù)記錄識別結(jié)果實體Top-k一個面向圖書的DeepWeb數(shù)據(jù)庫集成系統(tǒng)18現(xiàn)有DeepWeb集成框架模型數(shù)據(jù)供應(yīng)模式(DataFeed)數(shù)據(jù)收集模式(DataCollection)元搜索模式(Metasearch)19Web數(shù)據(jù)庫集成框架設(shè)計思想面向特定領(lǐng)域應(yīng)用領(lǐng)域知識解決全局抽象和語義信息支持提供查詢探測實例基于元搜索模式能夠提供即時更新的數(shù)據(jù)記錄具有較好的伸縮性具有較低的維護代價20一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫21一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫接口模式抽取文本輸入框<inputtype=“text”name=“tn”>下拉框<selectnme=“sn”>單選按鈕<inputtype=“radio”name=“rn”>復(fù)選按鈕<inputtype=“checkbox”name=“rn”>值標(biāo)簽屬性標(biāo)簽HTML表單介紹接口模式抽取查詢接口設(shè)計規(guī)律-屬性標(biāo)簽匹配方向LeftUp接口模式抽取查詢接口設(shè)計規(guī)律-范圍詞的連接作用接口模式抽取查詢接口設(shè)計規(guī)律-元素與文本的分布規(guī)律按行分布接口模式抽取查詢接口設(shè)計規(guī)律-元素分組與標(biāo)簽匹配規(guī)律元素C1C2C3C4UpDownLeftRightQE-Extractor模型接口模式抽取28一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫29基于領(lǐng)域主題的數(shù)據(jù)源分類Web數(shù)據(jù)庫分類的意義高效管理Web數(shù)據(jù)庫資源,輔助用戶搜索其所需的資源?;舅枷敫鶕?jù)領(lǐng)域中記錄的某一屬性將其分為不同的內(nèi)容主題,如圖書可以分為“計算機”,“小說”等;為每個內(nèi)容主題選擇匹配的樣本實例;使用內(nèi)容主題的樣本實例探測Web數(shù)據(jù)庫,根據(jù)返回的查詢結(jié)果數(shù)量判斷。要注意的特性對于不同的Web數(shù)據(jù)庫所包含的數(shù)據(jù)規(guī)模不同;不同主題包含的數(shù)據(jù)記錄數(shù)量存在很大的差異;查詢接口對應(yīng)的查詢方式不同30基于查詢探測的矩陣分類法基于領(lǐng)域主題的數(shù)據(jù)源分類31基于樣本實例的查詢探測樣本實例的訓(xùn)練在內(nèi)容主題內(nèi):去除關(guān)鍵字重復(fù)的樣本實例在內(nèi)容主題間:去除主題區(qū)分度低的樣本實例查詢結(jié)果數(shù)量的估計數(shù)據(jù)源的不同查詢處理類型AandB(A&B)AorB(A|B)Q(A&B)=Q(A)+Q(B)-Q(A|B)基于領(lǐng)域主題的數(shù)據(jù)源分類32例:在領(lǐng)域中包含三個主題分類分別標(biāo)記為C1、C2和C3,以及四個Web數(shù)據(jù)庫標(biāo)記為S1至S4
基于領(lǐng)域主題的數(shù)據(jù)源分類
基于主題的數(shù)據(jù)源分類例主題相對分區(qū)矩陣數(shù)據(jù)源相對規(guī)模矩陣主題規(guī)模數(shù)據(jù)源規(guī)?;陬I(lǐng)域主題的數(shù)據(jù)源分類34查詢結(jié)果矩陣的二值化與合并基于參數(shù)
對矩陣單元二值化:
xij<xik
合并規(guī)則若x’ij=y’ij
,則Fij=x’ij=y’ij;若x’ij
y’ij
,則Fij=-1對于Fij=-1的項,通過重新的查詢探測確認(rèn)其分類關(guān)系&基于領(lǐng)域主題的數(shù)據(jù)源分類35一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫數(shù)據(jù)源選擇基于主要屬性的數(shù)據(jù)源Top-k基本思想:
AttributebasedFrequentPatterngrowth(AFP-growth)algorithm(獲得主要屬性集)
產(chǎn)生主要屬性矩陣:用Top-k算法基于互信息捕獲屬性關(guān)聯(lián)關(guān)系產(chǎn)生混合矩陣:數(shù)據(jù)源選擇構(gòu)建基于屬性的支配模式樹ADP-tree-找主要屬性DSID Attribute (ordered)frequentitems100 {f,a,c,d,g,i,m,p}
{f,c,a,m,p}200 {a,b,c,f,l,m,o}
{f,c,a,b,m}300
{b,f,h,j,o,w}
{f,b}400
{b,c,k,s,p}
{c,b,p}500
{a,f,c,e,l,p,m,n}
{f,c,a,m,p}{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1HTableItemfrequencyheadf 4c 4a 3b 3m 3p 3min_support=3HashTabled1d1
TOP-kInvertedIndexs(dsij1,wj1)=0.7…s(dsijk,wjk)=0.2…Repositoryds1,…,dsnQueryQA=(transportation,tunnel,disaster)……transportds780.9ds10.7ds880.2ds10.2ds780.1ds990.2ds340.1ds230.8ds100.8ds1tunnelds640.8ds230.6ds100.6disasterds100.7ds780.5ds640.4k=1Sortandrankds10Aggregatescores數(shù)據(jù)源選擇數(shù)據(jù)源選擇模式級接口模式搜索模式(全文or題目or摘要)實例級類別覆蓋度(主題)搜索準(zhǔn)確度(依據(jù)以前的查詢)質(zhì)量級用戶評價值平均響應(yīng)時間40一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫結(jié)果數(shù)據(jù)抽取基于查詢結(jié)果模式的記錄抽取方法將查詢結(jié)果頁面轉(zhuǎn)換為DOM樹結(jié)構(gòu);利用查詢結(jié)果模式中的記錄節(jié)點路徑DA,在DOM中匹配符合路徑DA的節(jié)點集合;針對查詢結(jié)果模式中每個屬性RA的屬性值的訪問路徑P,抽取其中內(nèi)容作為查詢結(jié)果記錄在屬性RA上的屬性值?;诠?jié)點聚類的抽取方法基本方法查詢結(jié)果頁面DOM樹建模識別數(shù)據(jù)區(qū)域與查詢結(jié)果記錄
結(jié)果數(shù)據(jù)抽取復(fù)雜結(jié)構(gòu)頁面記錄識別屬性集合
{RA1,RA2,…,RAn}
屬性節(jié)點集合{RAx.1,RAx.2,…,RAx.m}
查詢結(jié)果記錄Ni={RA1.i,RA2.i,…,RAn.i}
結(jié)果數(shù)據(jù)抽取
基于關(guān)鍵字的數(shù)據(jù)抽取結(jié)果數(shù)據(jù)抽取結(jié)果數(shù)據(jù)抽取包裝器目的使用相同的規(guī)則抽取多個查詢結(jié)果頁面中的數(shù)據(jù)記錄;連續(xù)地訪問結(jié)果頁面并抽取記錄。方法:基于節(jié)點路徑規(guī)則對記錄抽取
查詢結(jié)果頁面
查詢結(jié)果記錄
自底向上的抽取方法結(jié)果數(shù)據(jù)抽取多頁面訓(xùn)練單頁面訓(xùn)練Web頁面集待抽取頁面集頁面中的同一位置可能是“折扣”或者“艙位”同種結(jié)構(gòu)包含不同屬性的數(shù)據(jù)構(gòu)成數(shù)據(jù)使用不同的結(jié)構(gòu)作為載體“出版時間”缺失結(jié)構(gòu)化數(shù)據(jù)類型不唯一頁面中兩種結(jié)構(gòu)的結(jié)構(gòu)化數(shù)據(jù)自底向上的抽取方法-結(jié)構(gòu)化數(shù)據(jù)異構(gòu)結(jié)果數(shù)據(jù)抽取嵌套結(jié)構(gòu)表結(jié)構(gòu)動態(tài)增長重復(fù)結(jié)構(gòu)重復(fù)結(jié)構(gòu)自底向上的抽取方法-衍生結(jié)構(gòu)結(jié)果數(shù)據(jù)抽取使用純文本表示結(jié)構(gòu)化數(shù)據(jù)使用特殊的文本符號分隔不同屬性的結(jié)構(gòu)化數(shù)據(jù)自底向上的抽取方法-結(jié)構(gòu)化數(shù)據(jù)文本化結(jié)果數(shù)據(jù)抽取實體抽取重復(fù)模式抽取數(shù)據(jù)抽取自底向上的抽取方法-數(shù)據(jù)抽取模型結(jié)果數(shù)據(jù)抽取對比項自底向上的抽取方法自頂向下的抽取方法核心思想基于頁面的語義特征基于頁面的結(jié)構(gòu)特征核心技術(shù)實體分析技術(shù)結(jié)構(gòu)解析技術(shù)訓(xùn)練方式重復(fù)模式抽取結(jié)構(gòu)相似性、相異性抽取方式抽取模式樹頁面定位(模板,包裝器)屬性標(biāo)注時機開始結(jié)束適合頁面包含結(jié)構(gòu)化數(shù)據(jù)的主題頁面結(jié)構(gòu)簡單的記錄型頁面自底向上的抽取方法-自底向上與自頂向下對比結(jié)果數(shù)據(jù)抽取52一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫查詢松弛當(dāng)用戶的原始查詢沒有結(jié)果或者只有很少的結(jié)果返回時,應(yīng)該如何處理?
直接告訴用戶沒有查詢結(jié)果或者把很少量的查詢結(jié)果返回給用戶?
No.
在用戶原始查詢上進行修改,進行查詢松弛,將查詢松弛所得到的結(jié)果返回給用戶?Yes.
現(xiàn)有的查詢松弛方法大多數(shù)系統(tǒng)采用屬性松弛方法,然而,多關(guān)鍵字屬性采用值松弛的方法更好,若像其他屬性一樣采用屬性松弛方法,則會出現(xiàn)一些問題優(yōu)點缺點屬性松弛效率高某些情況下松弛粒度過粗值松弛松弛粒度較細,可以得到更多合適的結(jié)果查詢探測花費較大;且對于多關(guān)鍵字屬性,沒有較好的值松弛方法現(xiàn)有的查詢松弛方法問題1不支持多關(guān)鍵字搜索功能的數(shù)據(jù)源舉例
查詢q:書名=數(shù)據(jù)庫系統(tǒng)問題2需要刪減查詢詞的舉例查詢q:書名=數(shù)據(jù)庫系統(tǒng)實現(xiàn),作者=王珊現(xiàn)有的查詢松弛方法查詢松弛思想松弛查詢思想:Foramultiplekeywordsquery(1)ExtendingQueryWords
forsinglekeywordsquery
(2)PruningtrivialwordsfromQueryWords
(3)ResultPageEvaluation
decidewhethertofetchthenextpageornot
BookName:DatabasesystemBookName:DatabasemanagementsystemBookName:Database查詢松弛執(zhí)行策略詳述數(shù)據(jù)源關(guān)系圖(DRG)的生成ABCDABCABDACDBCDABACADBCBDCDADBC屬性集{A,B,C,D}的全局?jǐn)?shù)據(jù)源關(guān)系圖
只包含屬性{A,B,C}的查詢Q的數(shù)據(jù)源關(guān)系圖查詢松弛執(zhí)行策略詳述轉(zhuǎn)移數(shù)據(jù)源ABCDABCABDACDBCDABACADBCBDCDADBC帶有確定屬性B的查詢Q的最終DRG查詢松弛執(zhí)行策略詳述確保查全率的查詢松弛過程ABBCBABC查詢Qscore∈(low,high)?查詢Q’查詢Q{A,B,C}查詢Q’{A,B}值松弛中的擴展查詢詞方法方法
利用支持多關(guān)鍵字查詢的數(shù)據(jù)源的返回結(jié)果,統(tǒng)計出現(xiàn)的除原始查詢詞之外的詞,記錄出現(xiàn)在詞組之間的位置和詞頻,選出top-k個詞,插入原始詞組中例:查詢Q{書名=數(shù)據(jù)庫概論}書名作者出版社數(shù)據(jù)庫系統(tǒng)概論王珊,薩師煊高等教育出版社數(shù)據(jù)庫系統(tǒng)概論:學(xué)習(xí)指導(dǎo)與習(xí)題解析王珊高等教育出版社數(shù)據(jù)庫系統(tǒng)概論楊開英武漢理工大學(xué)出版社數(shù)據(jù)庫系統(tǒng)概論知識要點與習(xí)題解析徐樂竹,張澤寶哈爾濱工程大學(xué)出版社數(shù)據(jù)庫系統(tǒng)概論史嘉權(quán)清華大學(xué)出版社數(shù)據(jù)庫系統(tǒng)概論與應(yīng)用蘇中濱水利水電出版社數(shù)據(jù)庫系統(tǒng)概論—習(xí)題、實驗與考試輔導(dǎo)史嘉權(quán),史紅星清華大學(xué)出版社大型數(shù)據(jù)庫系統(tǒng)概論朱輝生高等教育出版社值松弛中的刪減查詢詞方法通用的無領(lǐng)域限制的方法
基于詞庫中查詢詞的語義重要度,選出最重要的詞進行保留查詢過程中的結(jié)果評價方法獲取下一頁的結(jié)果頁面評價
結(jié)果頁面評價,是在查詢所返回的結(jié)果為多頁時,對數(shù)據(jù)源的當(dāng)前結(jié)果頁進行評價估計,以評價值來決定是否獲取下一頁結(jié)果頁。頁面評價步驟:計算原始查詢和當(dāng)前結(jié)果頁中各結(jié)果記錄的相似度根據(jù)相似度為每個結(jié)果打分根據(jù)結(jié)果記錄得分計算當(dāng)前結(jié)果頁面得分,統(tǒng)計高分的結(jié)果數(shù)量當(dāng)結(jié)果頁面得分足夠高;或高分結(jié)果數(shù)量達到一定值時,查詢結(jié)束64一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫重復(fù)記錄識別目的:對重復(fù)記錄進行識別,減少用戶對結(jié)果頁面的篩選和分類的負(fù)擔(dān)。
重復(fù)記錄識別離線與在線相結(jié)合離線獲取知識在線相似度估算二者相輔相成
重復(fù)記錄識別-實體關(guān)聯(lián)知識構(gòu)建三階段逐步求精策略文本匹配模型:語義分析模型:分組統(tǒng)計模型:多相似度估算器優(yōu)勢采用多相似度估算器使相似度計算更具有針對性采用多相似度估算器將有利于系統(tǒng)的擴展
構(gòu)成估算器匹配算法相關(guān)函數(shù)文本類型相似度估算器編輯距離N-GramSmith-Waterman距離Jaro距離多相似度估算器估算器匹配算法相關(guān)函數(shù)數(shù)字類型相似度估算器精確距離、范圍距離日期類型相似度估算器日期匹配算法TimeSpan()價格類型相似度估算器價格匹配算法重復(fù)實體記錄的識別策略實體記錄相似度的衡量不確定重復(fù)記錄的處理重復(fù)記錄集生成算法71一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫數(shù)據(jù)清洗-問題的提出Web數(shù)據(jù)庫集成數(shù)據(jù)的數(shù)據(jù)質(zhì)量數(shù)據(jù)中重復(fù)記錄記錄不完全、不精確、不正確等臟數(shù)據(jù)問題
數(shù)據(jù)源查詢結(jié)果模式的異構(gòu)性記錄抽取錯誤基本思想利用數(shù)據(jù)質(zhì)量高的記錄修復(fù)數(shù)據(jù)質(zhì)量低的記錄解決方案分析全局模式中屬性間函數(shù)依賴關(guān)系。查詢結(jié)果記錄中基于模式屬性的實體識別。數(shù)據(jù)質(zhì)量的評估。數(shù)據(jù)清洗集成數(shù)據(jù)清洗流程全局模式分析階段數(shù)據(jù)源分析階段數(shù)據(jù)清洗階段全局模式分析階段基于函數(shù)依賴判斷集成模式可被修復(fù)的屬性對于一個給定的屬性Ai,如果記錄中在屬性Ai上的內(nèi)容可以被修復(fù),則全局模式GS中必須滿足:存在屬性集合X,有X
A,X
Ai;數(shù)據(jù)源分析查詢結(jié)果模式質(zhì)量屬性完整性函數(shù)依賴完整性查詢結(jié)果記錄集質(zhì)量數(shù)據(jù)規(guī)模每個屬性列中,具有完整屬性值的記錄數(shù)量查詢結(jié)果模式屬性值質(zhì)量屬性值精確度與分布數(shù)值類型文本類型集成數(shù)據(jù)記錄修復(fù)算法
增量式集成數(shù)據(jù)清洗算法高數(shù)據(jù)質(zhì)量低數(shù)據(jù)質(zhì)量排序高低修復(fù)修復(fù)前各
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 媒體廣告分公司設(shè)立及運營協(xié)議樣本
- 農(nóng)村集體土地拆遷安置補償協(xié)議范本
- 申請書(確認(rèn)無民事行為能力并指定監(jiān)護人)
- 乳品夏季活動策劃方案
- 雷家溝中橋施工組織方案
- 培訓(xùn)學(xué)員上課管理制度
- 公園培訓(xùn)機構(gòu)管理制度
- 工地施工考勤管理制度
- 噴砂除銹防腐管理制度
- 固定電話安裝管理制度
- 中考數(shù)學(xué)復(fù)習(xí)-中檔題訓(xùn)練(四)(含答案)
- 醫(yī)學(xué)實驗室質(zhì)量控制知識試題及答案
- 駕駛員消防安全培訓(xùn)
- 2025中國新型儲能行業(yè)發(fā)展白皮書
- 2025初中地理會考知識點
- 設(shè)備定制技術(shù)協(xié)議書
- 個人借款公司擔(dān)保借款合同7篇
- 第十五講新時代與中華民族共同體建設(shè)2012- -中華民族共同體概論專家大講堂課件
- 數(shù)學(xué)(上海高考01)(答題卡)A4版
- 小學(xué)語文教材選用中的問題及解決措施
- 實習(xí)帶教護理教學(xué)大賽課件
評論
0/150
提交評論