![Web數(shù)據(jù)挖掘技術(shù)_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/15/0984aa04-8b69-4bf5-9e6e-a39bbc3a427c/0984aa04-8b69-4bf5-9e6e-a39bbc3a427c1.gif)
![Web數(shù)據(jù)挖掘技術(shù)_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/15/0984aa04-8b69-4bf5-9e6e-a39bbc3a427c/0984aa04-8b69-4bf5-9e6e-a39bbc3a427c2.gif)
![Web數(shù)據(jù)挖掘技術(shù)_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/15/0984aa04-8b69-4bf5-9e6e-a39bbc3a427c/0984aa04-8b69-4bf5-9e6e-a39bbc3a427c3.gif)
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘技術(shù) 摘要 隨著Internet的發(fā)展,Web數(shù)據(jù)挖掘有著越來(lái)越廣泛的應(yīng)用,Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web信息集合上的應(yīng)用。本文闡述了Web數(shù)據(jù)挖掘的定義、特點(diǎn)和分類(lèi),并對(duì)Web數(shù)據(jù)挖掘中使用的技術(shù)及應(yīng)用前景進(jìn)行了探討。 關(guān)鍵詞 數(shù)據(jù)挖掘Web挖掘路徑分析電子商務(wù) 一、引言 近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。數(shù)據(jù)挖掘是面向發(fā)現(xiàn)的數(shù)據(jù)分析技術(shù),通過(guò)對(duì)大型的數(shù)據(jù)集進(jìn)行探查??梢园l(fā)現(xiàn)有用的知識(shí),從而為決策支持提供有力的依據(jù)。 Web目前已成為信息
2、發(fā)布、交互和獲取的主要工具,它是一個(gè)巨大的、分布廣泛的、全球性的信息服務(wù)中心。它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和其他許多信息服務(wù)。面向Web的數(shù)據(jù)挖掘就是利用數(shù)據(jù)挖掘技術(shù)從Web文檔及Web服務(wù)中自動(dòng)發(fā)現(xiàn)并提取人們感興趣的、潛在的有用模型或隱藏的信息。 二、概述 1.數(shù)據(jù)挖掘的基本概念 數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、電子表格或其他信息庫(kù)中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過(guò)程。數(shù)據(jù)挖掘基于的數(shù)據(jù)庫(kù)類(lèi)型主要有: 關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、演繹數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、主動(dòng)數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、遺留數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、文本型、Internet 信息庫(kù)以
3、及新興的數(shù)據(jù)倉(cāng)庫(kù)等。 2.Web數(shù)據(jù)挖掘 Web上有少量的數(shù)據(jù)信息,相對(duì)傳統(tǒng)的數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)性很強(qiáng),即其中的數(shù)據(jù)為完全結(jié)構(gòu)化的數(shù)據(jù)。Web上的數(shù)據(jù)最大特點(diǎn)就是半結(jié)構(gòu)化。所謂半結(jié)構(gòu)化是相對(duì)于完全結(jié)構(gòu)化的傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)而言。由于Web的開(kāi)放性、動(dòng)態(tài)性與異構(gòu)性等固有特點(diǎn),要從這些分散的、異構(gòu)的、沒(méi)有統(tǒng)一管理的海量數(shù)據(jù)中快速、準(zhǔn)確地獲取信息也成為Web挖掘所要解決的一個(gè)難點(diǎn),也使得用于Web的挖掘技術(shù)不能照搬用于數(shù)據(jù)庫(kù)的挖掘技術(shù)。因此,開(kāi)發(fā)新的Web挖掘技術(shù)以及對(duì)Web文檔進(jìn)行預(yù)處理以得到關(guān)于文檔的特征表示,便成為Web挖掘的重點(diǎn)。 三、Web數(shù)據(jù)挖掘分類(lèi) Web 數(shù)據(jù)有三種類(lèi)型, 它們分別是:
4、HTML 標(biāo)記的Web 文檔數(shù)據(jù)、Web 文檔內(nèi)的廉潔的結(jié)構(gòu)數(shù)據(jù)和用戶(hù)訪(fǎng)問(wèn)數(shù)據(jù), 相應(yīng)地,Web 數(shù)據(jù)挖掘可分為三類(lèi): 內(nèi)容挖掘(Web content mining) 、結(jié)構(gòu)挖掘(Web structure mining) 和用戶(hù)訪(fǎng)問(wèn)模式挖掘(Web usage mining)。如下圖所示。 1.Web內(nèi)容挖掘 Web內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取有用信息的過(guò)程,Web內(nèi)容挖掘按實(shí)現(xiàn)方法分為兩大類(lèi):信息檢索(IR)方法和數(shù)據(jù)庫(kù)方法。且有兩種策略:直接挖掘文檔的內(nèi)容和在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。 IR方法主要處理非結(jié)構(gòu)數(shù)據(jù)和Web中由HTML標(biāo)記的半結(jié)構(gòu)化數(shù)據(jù)。前者一般采用詞集方法,用
5、一組組詞條來(lái)表示無(wú)結(jié)構(gòu)的文本。后者主要利用傳統(tǒng)的數(shù)據(jù)挖掘技術(shù):如關(guān)聯(lián)規(guī)則、分類(lèi)算法、演繹邏輯和規(guī)則學(xué)習(xí)等。 2.Web結(jié)構(gòu)挖掘 Web結(jié)構(gòu)挖掘是從Web組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。挖掘頁(yè)面的結(jié)構(gòu)和Web結(jié)構(gòu),可以用來(lái)指導(dǎo)對(duì)頁(yè)面進(jìn)行分類(lèi)和聚類(lèi),找到權(quán)威頁(yè)面、中心頁(yè)面,從而提高檢索的性能。同時(shí)還可以用來(lái)指導(dǎo)頁(yè)面采集工作,提高采集效率。Web結(jié)構(gòu)挖掘可以分為Web文檔內(nèi)部結(jié)構(gòu)挖掘和文檔問(wèn)的超鏈接結(jié)構(gòu)挖掘。 Web結(jié)構(gòu)挖掘的基本思想是將Web 看作一個(gè)有向圖,他的頂點(diǎn)是Web頁(yè)面,頁(yè)面間的超鏈就是圖的邊。然后利用圖論對(duì)Web 的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。常見(jiàn)的算法有HITS (Hypertext Induc
6、ed Topic Search), PageRank,發(fā)現(xiàn)虛擬社區(qū)的算法、發(fā)現(xiàn)相似頁(yè)面的算法、發(fā)現(xiàn)地理位置的算法和頁(yè)面分類(lèi)算法。Web 結(jié)構(gòu)挖掘的算法一般可分為查詢(xún)相關(guān)算法和查詢(xún)無(wú)關(guān)算法兩類(lèi)。查詢(xún)相關(guān)算法需要為每一個(gè)查詢(xún)進(jìn)行一次超鏈分析從而進(jìn)行一次值的指派;而查詢(xún)獨(dú)立算法則為每個(gè)文檔僅進(jìn)行一次值的指派,對(duì)所有的查詢(xún)都使用此值。HITS和PageRank分別是查詢(xún)相關(guān)算法和查詢(xún)獨(dú)立算法的代表。 3.Web訪(fǎng)問(wèn)挖掘 Web訪(fǎng)問(wèn)挖掘是從服務(wù)器端記錄的用戶(hù)訪(fǎng)問(wèn)日志或從用戶(hù)的瀏覽信息中抽取感興趣的模式,通過(guò)分析這些數(shù)據(jù)可以幫助理解用戶(hù)隱藏在數(shù)據(jù)中的行為模式,做出預(yù)測(cè)性分析,從而改進(jìn)站點(diǎn)的結(jié)構(gòu)或?yàn)橛脩?hù)提供
7、個(gè)性化的服務(wù)。 Web訪(fǎng)問(wèn)挖掘一般分為兩種:一般訪(fǎng)問(wèn)模式跟蹤和定制使用跟蹤。一般訪(fǎng)問(wèn)模式跟蹤通過(guò)分析Web日志來(lái)理解用戶(hù)的訪(fǎng)問(wèn)模式和傾向;定制使用跟蹤分析單個(gè)用戶(hù)的偏好,根據(jù)其訪(fǎng)問(wèn)模式為每個(gè)用戶(hù)定制符合其個(gè)人特色的Web站點(diǎn)。Web的log數(shù)據(jù)包括:senrer log,proxy serverlog,client端的cookie log等。Web使用記錄挖掘通常需要經(jīng)過(guò)三個(gè)階段:數(shù)據(jù)預(yù)處理階段(主要包括數(shù)據(jù)清洗和事物識(shí)別兩個(gè)部分):模式識(shí)別階段(采用統(tǒng)計(jì)法、機(jī)器學(xué)習(xí)等成熟技術(shù)從Web使用記錄中挖掘知識(shí)):模式分析階段(采用合適的成熟的技術(shù)和工具進(jìn)行模式的分析,從而輔助分析人員理解使采用各種工
8、具挖掘出的模式得到很好利用)。對(duì)Web使用記錄挖掘采用的算法有:路徑分析、關(guān)聯(lián)規(guī)則和有字模式的發(fā)現(xiàn)、聚類(lèi)分類(lèi)等,為了提高精度,使用記錄挖掘也用到站點(diǎn)結(jié)構(gòu)和頁(yè)面內(nèi)容等信息。 四、Web數(shù)據(jù)挖掘中的關(guān)鍵技術(shù) Web數(shù)據(jù)挖掘中常用的技術(shù)有Web使用的特有的路徑分析技術(shù),數(shù)據(jù)挖掘領(lǐng)域常用的關(guān)聯(lián)規(guī)則、序列模式、分類(lèi)聚類(lèi)技術(shù)等。 1.路徑分析技術(shù) 用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí),最常用的是圖,因?yàn)閃eb可以用一個(gè)有向圖來(lái)表示,G=(V,E),V是頁(yè)面的集合,E是頁(yè)面之間的超連接集合,頁(yè)面定義為圖中的頂點(diǎn),而頁(yè)面之間的超連接定義為圖中的有向邊。頂點(diǎn)v的入邊表示對(duì)v的引用,出邊表示v引用了其他的頁(yè)面,這樣
9、形成網(wǎng)站結(jié)構(gòu)圖,從圖中確定最頻繁的訪(fǎng)問(wèn)路徑。 2.關(guān)聯(lián)規(guī)則挖掘技術(shù) 關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶(hù)訪(fǎng)問(wèn)序列數(shù)據(jù)庫(kù)的序列項(xiàng)中挖掘出相關(guān)的規(guī)則,就是要挖掘出用戶(hù)在一個(gè)訪(fǎng)問(wèn)期間(SESSION),從服務(wù)器上訪(fǎng)問(wèn)的頁(yè)面文件之間的聯(lián)系,這些頁(yè)面之間可能并不存在直接的參引(RIFERENCE)關(guān)系最常用的是用APRIOR算法,從事務(wù)數(shù)據(jù)庫(kù)中挖掘出最大頻繁訪(fǎng)問(wèn)項(xiàng)集,這個(gè)項(xiàng)集就是關(guān)聯(lián)規(guī)則挖掘出來(lái)的用戶(hù)訪(fǎng)問(wèn)模式。 3.序列模式挖掘技術(shù) 序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時(shí)間序列關(guān)系的模式它與關(guān)聯(lián)挖掘技術(shù)都是從用戶(hù)訪(fǎng)問(wèn)下的日志中尋找用戶(hù)普遍訪(fǎng)問(wèn)的規(guī)律,關(guān)聯(lián)挖掘技術(shù)更注重事務(wù)內(nèi)的關(guān)系,序列模式技術(shù)則注重事務(wù)
10、間的關(guān)系。 4.聚類(lèi)分類(lèi)技術(shù) 分類(lèi)規(guī)則可以挖掘出某些共同的特性,這個(gè)特性可以用來(lái)對(duì)新添到數(shù)據(jù)庫(kù)里的數(shù)據(jù)項(xiàng)進(jìn)行分類(lèi)。在Web數(shù)據(jù)挖掘中,分類(lèi)技術(shù)可以根據(jù)訪(fǎng)問(wèn)這些用戶(hù)而得到的個(gè)人信息或共同的訪(fǎng)問(wèn)模式得出訪(fǎng)問(wèn)某一服務(wù)器文件的用。特征。聚類(lèi)技術(shù)則是對(duì)符合某一訪(fǎng)問(wèn)規(guī)律特征的用戶(hù)進(jìn)行用戶(hù)特征挖掘。最后進(jìn)行模式分析,挖掘出人們可理解的知識(shí)的模式解釋。 五、Web數(shù)據(jù)挖掘的應(yīng)用 隨著中國(guó)經(jīng)濟(jì)的高速發(fā)展,數(shù)據(jù)挖掘?qū)⒃谥袊?guó)形成一個(gè)產(chǎn)業(yè),目前Web數(shù)據(jù)挖掘已廣泛地應(yīng)用于金融業(yè)、遠(yuǎn)程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務(wù)以及體育事業(yè)中,基于Web的數(shù)據(jù)挖掘技術(shù)已經(jīng)成為一個(gè)熱點(diǎn),下面主要介紹Web數(shù)據(jù)挖掘的三個(gè)應(yīng)用前景。
11、1.在電子商務(wù)中的應(yīng)用 在電子商務(wù)中,運(yùn)用Web挖掘技術(shù)從服務(wù)器和瀏覽器端日志記錄中自動(dòng)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,對(duì)此進(jìn)行分析加工,通過(guò)對(duì)客戶(hù)進(jìn)行分類(lèi)和聚類(lèi),從中可得到商家用于向特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷(xiāo)的決策信息。了解系統(tǒng)的訪(fǎng)問(wèn)模式以及用戶(hù)的行為模式,從而做出預(yù)測(cè)性分析。同時(shí)有效地對(duì)這些Web日志進(jìn)行定量分析,提示其中的關(guān)聯(lián)關(guān)系、時(shí)序關(guān)系、頁(yè)面類(lèi)屬關(guān)系、客戶(hù)類(lèi)屬關(guān)系和頻繁訪(fǎng)問(wèn)路徑、頻繁訪(fǎng)問(wèn)頁(yè)面等,從而為企業(yè)更有效地確認(rèn)目標(biāo)市場(chǎng)、改進(jìn)決策獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì)提供幫助。 2.在搜索引擎中的應(yīng)用 利用Web數(shù)據(jù)挖掘技術(shù),通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容的挖掘,可實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的聚類(lèi)和分類(lèi),實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類(lèi)瀏覽與檢索;運(yùn)用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,從而改善檢索效果;通過(guò)對(duì)用戶(hù)所使用的提問(wèn)式的歷史記錄的分析,可以有效地進(jìn)行提問(wèn)擴(kuò)展,提高用戶(hù)的檢索效率。 3.在網(wǎng)站設(shè)計(jì)中的應(yīng)用 在網(wǎng)站建設(shè)中,使用Web挖掘通過(guò)對(duì)網(wǎng)站內(nèi)容的挖掘,可有效地組織網(wǎng)站信息,例如采用自動(dòng)歸類(lèi)技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;分析用戶(hù)的Web訪(fǎng)問(wèn)行為,可為用戶(hù)提供智能化、個(gè)性化服務(wù)。比如,可根據(jù)客戶(hù)的訪(fǎng)問(wèn)興趣、訪(fǎng)問(wèn)頻度、訪(fǎng)問(wèn)時(shí)間,動(dòng)態(tài)地調(diào)整頁(yè)面結(jié)構(gòu),迎合每個(gè)客戶(hù)的瀏覽興趣,使客戶(hù)在瀏覽時(shí)感覺(jué)自己是網(wǎng)站的惟一客戶(hù);
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度國(guó)產(chǎn)打印機(jī)節(jié)能環(huán)保認(rèn)證采購(gòu)合同
- 重慶2025年重慶市北碚區(qū)基層醫(yī)療衛(wèi)生事業(yè)單位招聘14人筆試歷年參考題庫(kù)附帶答案詳解
- 酒泉2025年甘肅酒泉市公安局招聘留置看護(hù)崗位輔警60人筆試歷年參考題庫(kù)附帶答案詳解
- 貴州2025年貴州省文化和旅游廳直屬事業(yè)單位招聘12人筆試歷年參考題庫(kù)附帶答案詳解
- 玉林2025年廣西玉林市第一人民醫(yī)院招聘24人筆試歷年參考題庫(kù)附帶答案詳解
- 漯河2024年河南漯河市立醫(yī)院(漯河市骨科醫(yī)院漯河醫(yī)專(zhuān)二附院)招聘高層次人才筆試歷年參考題庫(kù)附帶答案詳解
- 海口海南??谑协偵絽^(qū)教育局招聘2025屆師范畢業(yè)生筆試歷年參考題庫(kù)附帶答案詳解
- 河北2024年中國(guó)工商銀行河北分行鄉(xiāng)村振興專(zhuān)項(xiàng)招聘20人筆試歷年參考題庫(kù)附帶答案詳解
- 2025年中國(guó)太陽(yáng)能十字路口單黃閃警示燈市場(chǎng)調(diào)查研究報(bào)告
- 2025年艾納素項(xiàng)目可行性研究報(bào)告
- 光纜線(xiàn)路施工安全協(xié)議書(shū)范本
- 成本合約規(guī)劃培訓(xùn)
- 山東省濟(jì)寧市2025屆高三歷史一輪復(fù)習(xí)高考仿真試卷 含答案
- 五年級(jí)數(shù)學(xué)(小數(shù)乘法)計(jì)算題專(zhuān)項(xiàng)練習(xí)及答案
- 交通法規(guī)教育課件
- 產(chǎn)前診斷室護(hù)理工作總結(jié)
- 6S管理知識(shí)培訓(xùn)課件
- 小學(xué)校長(zhǎng)任期五年工作目標(biāo)(2024年-2029年)
- 醫(yī)院培訓(xùn)課件:《猴痘流行病學(xué)特點(diǎn)及中國(guó)大陸首例猴痘病例調(diào)查處置》
- 氫氣-安全技術(shù)說(shuō)明書(shū)MSDS
- 產(chǎn)科護(hù)士臨床思維能力培養(yǎng)
評(píng)論
0/150
提交評(píng)論