


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、電子商務(wù)中Web數(shù)據(jù)挖掘的應(yīng)用 摘要 本文介紹了Web數(shù)據(jù)挖掘的概念及其分類,探討了電子商務(wù)中Web數(shù)據(jù)挖掘的過程,重點研究了Web數(shù)據(jù)挖掘方法,從而有效提高電子商務(wù)企業(yè)的競爭力。 關(guān)鍵詞 電子商務(wù) 數(shù)據(jù)挖掘 Web挖掘 Internet是一個巨大、分布廣泛、全球性的信息資源儲備庫。隨著上網(wǎng)人數(shù)的急劇增加,電子商務(wù)的蓬勃發(fā)展,各種基于互聯(lián)網(wǎng)的商業(yè)Web站點也面臨越來越激烈的競爭。Web包含了豐富和動態(tài)的超鏈接信息,以及Web頁面的訪問和
2、使用信息,這為數(shù)據(jù)挖掘提供了大量豐富的資源。 一、電子商務(wù)與Web數(shù)據(jù)挖掘 電子商務(wù)(E-Commerce)是以網(wǎng)絡(luò)為平臺,以現(xiàn)代信息技術(shù)為手段,以經(jīng)濟(jì)效益為中心的現(xiàn)代化商業(yè)運轉(zhuǎn)模式,其最終目標(biāo)是實現(xiàn)商務(wù)活動的網(wǎng)絡(luò)化、自動化與智能化。無論EC企業(yè)采用B2B、B2C還是B2G電子商務(wù)模式,商品的采購者都需要通過Web方式與商品的供應(yīng)商及其合作者之間建立信息流的交互,那么,一方面通過Web方式與購買者主動、方便、快捷的獲得期望主題的信息;另一方面供應(yīng)商與合作伙伴們?nèi)绾瓮ㄟ^他們的集成信息系統(tǒng),運用知識把訪問者、網(wǎng)上購買者的訪
3、問數(shù)據(jù)從潛在的、隱含的、事先不知的狀態(tài),經(jīng)過提取、洗滌、加工變?yōu)闈摿薮蟮膬r值信息,從而提高企業(yè)的核心競爭力。 Web數(shù)據(jù)挖掘(Web Data Mining)是利用數(shù)據(jù)挖掘從Web文檔及Web服務(wù)中自動發(fā)現(xiàn)并提取用戶感興趣的、潛在的、有用的模式和隱藏信息。Web數(shù)據(jù)挖掘的主要目標(biāo)就是從Web的訪問記錄中抽取用戶感興趣的模式,WWW服務(wù)器中的訪問日志,記錄了關(guān)于用戶訪問和交互的信息,通過Web數(shù)據(jù)挖掘,就可以根據(jù)用戶的訪問興趣、訪問頻度、訪問時間動態(tài)地調(diào)整頁面結(jié)構(gòu),改進(jìn)服務(wù),開展有針對性的電子商務(wù)活動,以更好地滿足客戶的需求。
4、160; 二、Web挖掘的分類 Web挖掘是從WWW上抽取知識的過程。它是從與WWW相關(guān)的資源和行為中抽取感興趣的有用的模式和隱含信息。 1.Web內(nèi)容挖掘 Web內(nèi)容挖掘是對Web頁面內(nèi)容進(jìn)行挖掘,是從大量的Web 數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。Web挖掘的數(shù)據(jù)源有:服務(wù)器數(shù)據(jù)、查詢數(shù)據(jù)、在線市場數(shù)據(jù)、Web頁面、Web頁面的超級鏈接關(guān)系、客戶登記信息等。 2.Web結(jié)構(gòu)挖掘 Web結(jié)構(gòu)挖掘是從WWW上
5、的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。由于超文本文檔間的關(guān)聯(lián)關(guān)系使得WWW不僅僅可以揭示文檔中所包含的信息,同時也可以揭示文檔間的關(guān)聯(lián)關(guān)系所代表的信息。利用這些信息可以對頁面進(jìn)行排序,發(fā)現(xiàn)重要的頁面。挖掘Web結(jié)構(gòu)的目的是發(fā)現(xiàn)頁面的結(jié)構(gòu)和Web結(jié)構(gòu),在此基礎(chǔ)上對頁面進(jìn)行分類和聚類,從而找到權(quán)威頁面。 3.Web使用記錄挖掘 Web使用記錄挖掘的主要目標(biāo)是從Web的訪問記錄中抽取感興趣的模式。WWW中的每個服務(wù)器都保留了訪問日志(Web access log),記錄了關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,
6、從而改進(jìn)站點的結(jié)構(gòu),或為用戶提供個性化的服務(wù)。 三、Web挖掘的過程和方法 1.Web挖掘的過程 電子商務(wù)中的Web挖掘過程一般由3個主要階段組成:數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達(dá)和解釋。 (1)數(shù)據(jù)準(zhǔn)備:這個階段又可分成3個子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊準(zhǔn)備,這個階段又可分成為處理數(shù)據(jù)中的遺漏等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量
7、。預(yù)處理是為了克服數(shù)據(jù)挖掘工具的局限性。 (2)數(shù)據(jù)挖掘:這個階段進(jìn)行實際的挖掘操作,包括的要點有:決定如何產(chǎn)生假設(shè);選擇合適的工具;發(fā)掘知識的操作;證實發(fā)現(xiàn)的知識。 (3)結(jié)果表述和解釋:根據(jù)最終用戶的決策目的對提取的信息進(jìn)行分析,把最有價值的信息區(qū)分開來,并且通過決策支持工具提交給決策者。因此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來,還要對信息進(jìn)行過濾處理,如果不能令決策者滿意,需要重復(fù)上述過程。 2.Web數(shù)據(jù)挖掘的方法 (1)協(xié)同過濾:協(xié)同
8、過濾技術(shù)采用最近鄰技術(shù),利用客戶的歷史、喜好信息計算用戶之間的距離,目標(biāo)客戶對特點商品的喜好程度由最近鄰居對商品的評價的加權(quán)平均值來計算。 (2)關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性,用數(shù)學(xué)模型來描述關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的問題:x=>y的蘊(yùn)含式,其中x,y為屬性值對集(或稱為項目集),且XY空集。在數(shù)據(jù)庫中若S%的包含屬性值對集X的事務(wù)也包含屬性值集Y,則關(guān)聯(lián)規(guī)則X=>Y的置信度為C%。 (3)Web日志的聚類算法:聚類分析是把具有相似特征的用戶或數(shù)據(jù)項歸類,在網(wǎng)站管理中通過聚類具有相似瀏覽行
9、為的用戶?;谀:碚摰腤eb頁面聚類算法與客戶群體聚類算法的模糊聚類定義相同,客戶訪問情況可用URL(Uj)表示。有Suj=(Ci,fSuj(Ci)|CiC,其中fSuj(Ci)0,1是客戶Ci和URL(Uj)間的關(guān)聯(lián)度: 式中m為客戶的數(shù)量,hits(Ci)表示客戶Ci訪問URL(Uj)的次數(shù)。利用Suj和模糊理論中的相似度度量Sfij定義建立模糊相似矩陣,再根據(jù)相似類XiR的定義構(gòu)造相似類,合并相似類中的公共元素得到的等價類即為相關(guān)Web頁面。 (4)序列分析:序列模式分析和關(guān)聯(lián)分析類似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點在于分
10、析數(shù)據(jù)間的前后序關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中如“在某一段時間內(nèi),客戶購買商品A,接著會購買商品B,爾后又購買商品C,即序列ABC出現(xiàn)的頻率高”之類的信息。序列模式描述的問題是:在給定的交易序列數(shù)據(jù)庫中,每個序列按照交易的時間排列的一組交易集,挖掘序列函數(shù)作用是返回該數(shù)據(jù)庫中高頻率出現(xiàn)有序列。 四、結(jié)束語 電子商務(wù)是現(xiàn)代化技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運作模式的必然選擇,但還需進(jìn)一步鍵全電子商務(wù)的安全立法和完善物流配送體系。為了給電子商務(wù)營造一個良好的環(huán)境,通過選擇較好的數(shù)據(jù)挖掘方法,真正發(fā)揮數(shù)據(jù)挖掘的作用,才能使企業(yè)在激烈的市場競爭中做出正
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工報銷電線采購合同協(xié)議
- 商業(yè)場地移交協(xié)議書范本
- 商家聯(lián)盟活動合同協(xié)議
- 品空壓機(jī)采購合同協(xié)議
- 商品房認(rèn)購協(xié)議合同模板
- 歡樂谷兼職合同協(xié)議
- 商品預(yù)購協(xié)議書范本
- 比亞迪終身質(zhì)保合同協(xié)議
- 商業(yè)險合同協(xié)議
- 2025至2030年中國針織羅紋布數(shù)據(jù)監(jiān)測研究報告
- 2025年職業(yè)院校技能大賽“健身指導(dǎo)”賽項考試題庫(含答案)
- 2025成都店鋪租賃合同范本
- TCECS24-2020鋼結(jié)構(gòu)防火涂料應(yīng)用技術(shù)規(guī)程
- 2025年上海市虹口區(qū)二模生物試卷
- (二模)臺州市2025屆高三第二次教學(xué)質(zhì)量評估試題 地理試卷(含答案)
- 推動研究生教育高質(zhì)量發(fā)展路徑探索
- 機(jī)器人服務(wù)行業(yè)智能導(dǎo)航與定位技術(shù)考核試卷
- 社會心理學(xué)(西安交通大學(xué))智慧樹知到期末考試答案2024年
- 最新金屬軟管設(shè)計制造新工藝新技術(shù)及性能測試實用手冊
- 渠道項目報備管理規(guī)定
- 心理咨詢記錄--個案5
評論
0/150
提交評論