



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于電子商務(wù)網(wǎng)站的內(nèi)容挖掘摘要隨著網(wǎng)絡(luò)技術(shù)的迅速開展,電子商務(wù)行業(yè)正處以一個(gè)高速開展的時(shí)期,各類商務(wù)網(wǎng)站也應(yīng)運(yùn)而生。如何從繁多的商務(wù)網(wǎng)站數(shù)據(jù)中獲得有用的信息就成了一件亟需解決的問題。本文分析了eb內(nèi)容挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用以及如何獲得數(shù)據(jù)源。關(guān)鍵詞電子商務(wù)網(wǎng)站eb內(nèi)容挖掘數(shù)據(jù)源一、引言對(duì)于電子商務(wù)網(wǎng)站來說,internet上儲(chǔ)存了大量的文檔、圖像、聲音等非構(gòu)造化的數(shù)據(jù)及信息,并且用戶群體也顯示出多樣性,也就是說每個(gè)閱讀網(wǎng)站的人,他們的需求、興趣以及閱讀目的各不一樣。一個(gè)稍具規(guī)模的電子商務(wù)網(wǎng)站每天處理的業(yè)務(wù)成千上萬,那么如何從這些數(shù)據(jù)中找到有用的信息,幫助電子商務(wù)的經(jīng)營者和研究者從海量的eb
2、數(shù)據(jù)中得到真正有價(jià)值的信息,以指導(dǎo)他們做出管理上的決策。就是一個(gè)非常重要而有意義的事情。二、爬蟲和eb內(nèi)容挖掘1.eb挖掘的典型分類在目前的研究中,eb數(shù)據(jù)挖掘分為:eb內(nèi)容挖掘ebntentining、eb使用(訪問信息)挖掘ebusageining、eb構(gòu)造挖掘(ebstrutureining三種典型的類型。(1)eb內(nèi)容挖掘主要是對(duì)站點(diǎn)的eb頁面內(nèi)容進(jìn)展挖掘。目前,大多數(shù)研究主要集中在如何對(duì)網(wǎng)站上的文本以及多媒體數(shù)據(jù)進(jìn)展分類以進(jìn)步數(shù)據(jù)挖掘的有效性,很少涉及到如何從網(wǎng)站上進(jìn)展數(shù)據(jù)的采集以及分析。(2)eb構(gòu)造挖掘主要是對(duì)eb文檔的構(gòu)造進(jìn)展挖掘,通過一定的算法來發(fā)現(xiàn)給定的eb文檔之間的鏈接情
3、況,從而得到比擬重要的頁面,以向閱讀網(wǎng)站的用戶提供權(quán)威頁面。(3)eb使用(訪問信息)挖掘主要是對(duì)用戶訪問eb時(shí)在效勞器方留下的訪問記錄,也就是用戶訪問eb站點(diǎn)的存取方式進(jìn)展挖掘。它通過挖掘相關(guān)的eb日志記錄,來發(fā)現(xiàn)用戶訪問eb頁面的形式。目前流行的挖掘手段主要包括:途徑分析、關(guān)聯(lián)規(guī)那么和序列形式的發(fā)現(xiàn)、聚類和分類等。2.eb挖掘的數(shù)據(jù)源在eb數(shù)據(jù)挖掘中存在幾種代表性的數(shù)據(jù)源:1)效勞器日志數(shù)據(jù)。個(gè)人閱讀eb效勞器時(shí),在效勞器那方就會(huì)產(chǎn)生3種類型的日志文件:serverlgs,errrlgs和kielgs,這些日志文件主要是用來保存用戶訪問的根本情況。所以就成為開展eb使用(訪問信息)挖掘的主
4、要數(shù)據(jù)源。但有一點(diǎn)需要注意的是,這些數(shù)據(jù)是在效勞器方生成的,因此有一定的不可獲取性,因?yàn)檫@會(huì)涉及到商業(yè)機(jī)密。2)在線市場數(shù)據(jù)。這類數(shù)據(jù)主要是跟市場活動(dòng)有關(guān)的信息。在線市場數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù),是進(jìn)展業(yè)務(wù)相關(guān)分析的主要數(shù)據(jù)源。3)eb頁面。目前的eb頁面大多滿足htl標(biāo)準(zhǔn)。htl頁面中包含文本和多媒體信息,例如圖片、圖像、語言等,因此涉及到數(shù)據(jù)挖掘領(lǐng)域中的文本挖掘和多媒體挖掘,目前很多研究都在致力于如何對(duì)文本和多媒體信息進(jìn)展挖掘的算法分析。4)eb頁面超鏈接關(guān)系。eb頁面之間的超鏈接關(guān)系是一種重要的資源,網(wǎng)站的設(shè)計(jì)者總是把他們認(rèn)為重要的頁面添加到自己的頁面上來。5)其他數(shù)據(jù)。除了上述幾種重要的數(shù)據(jù)源外
5、,還有一些其他方面的數(shù)據(jù),比方用戶注冊(cè)信息等一系列信息。當(dāng)然,在實(shí)際的eb數(shù)據(jù)挖掘中這些數(shù)據(jù)源并不是孤立使用的,而是幾種數(shù)據(jù)源的綜合使用和分析,例如我們要對(duì)訪問某個(gè)電子商務(wù)網(wǎng)站的用戶購置商品的途徑分析的同時(shí)還需要知道這些客戶群的一些根本信息。3.爬蟲和eb內(nèi)容挖掘由于上述的幾種數(shù)據(jù)源中有一些是在效勞器方生成的,比方說日志文件和用戶注冊(cè)信息,并且涉及到商業(yè)機(jī)密問題,所以在數(shù)據(jù)源的獲得上存在一定的難度。這里,我們可以利用爬蟲(raler)的工作原理,來作為我們進(jìn)展eb內(nèi)容挖掘的一種信息獲取和分析的工具,得到我們需要的數(shù)據(jù)源。1)爬蟲的工作原理。爬蟲(raler是一個(gè)用來分解eb中超文本構(gòu)造的工具。
6、一個(gè)商業(yè)網(wǎng)站的eb頁面是通過超鏈接的關(guān)系存在的,就組成了類似一張張的網(wǎng)。網(wǎng)絡(luò)爬蟲是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個(gè)頁面(通常是首頁)開場,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止。假如把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)爬蟲就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。2)數(shù)據(jù)的獲得。我們就可以利用上述爬蟲的工作原理,從我們需要的信息起始頁開場進(jìn)展爬取數(shù)據(jù),得到與之有關(guān)的大多數(shù)eb頁面上的信息。3)數(shù)據(jù)的分析。在對(duì)鏈接頁面進(jìn)展搜索的過程中,經(jīng)常需要判斷信息的屬性或分析信息的價(jià)值,因?yàn)閑b頁面
7、上存儲(chǔ)了浩瀚的數(shù)據(jù),比方一些廣告信息,而有的數(shù)據(jù)并不是我們需要的。在此,我們可以利用基于正那么表達(dá)式(regularexpressin)的詞法分析技術(shù)對(duì)采集到的htl代碼進(jìn)展語法分析,提取其中有效信息,例如出售的商品分類、規(guī)格、價(jià)格、數(shù)量、運(yùn)送方式、運(yùn)費(fèi)、出售人、曾經(jīng)購置過的用戶等。4)數(shù)據(jù)的保存。為了進(jìn)展最終的挖掘工作,我們需要把經(jīng)過分析的有效數(shù)據(jù)最終保存到數(shù)據(jù)庫當(dāng)中。一般選擇大型的數(shù)據(jù)庫管理工具,如sqlserver2022等。5)進(jìn)展挖掘。利用數(shù)據(jù)挖掘技術(shù)獲取有效的信息,對(duì)相關(guān)問題形式進(jìn)展驗(yàn)證。三、完畢語電子商務(wù)網(wǎng)站,無論是b/形式還是/的,在網(wǎng)站頁面上都保存了大量用戶在交易過程中產(chǎn)生的信息,例如商品的規(guī)格、價(jià)格、展示、售后效勞以及運(yùn)輸方式等等,還包括賣家的個(gè)人信息、信譽(yù)情況,根據(jù)平臺(tái)的不同還有相應(yīng)的支付方式、法律條款等等。那么,利用爬蟲技術(shù),我們可以開發(fā)出一個(gè)獲得數(shù)據(jù)源的有效工具來進(jìn)展eb內(nèi)容挖掘。當(dāng)然,在現(xiàn)實(shí)研究當(dāng)中,eb內(nèi)容挖掘是和eb構(gòu)造挖掘及eb訪
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45216-2025危險(xiǎn)貨物自反應(yīng)物質(zhì)和有機(jī)過氧化物包裝件爆燃試驗(yàn)方法
- 共用墻合同范本
- 兼職防疫保安合同范本
- 出售吊車合同范例
- 加裝電梯托管合同范本
- 光伏銷售質(zhì)保合同范本
- 單位二手房交易合同范本
- 勞動(dòng)合同范例 河南
- 買賣交易正規(guī)合同范本
- 個(gè)人買賣住房合同范本
- 2025年海域使用權(quán)租賃合同
- 四年級(jí)希望杯歷年數(shù)學(xué)競賽試題與答案1-13屆+奧數(shù)分類專項(xiàng)練習(xí)集等
- 《走近世界民間美術(shù)》 課件 2024-2025學(xué)年人美版(2024)初中美術(shù)七年級(jí)下冊(cè)
- (2025春)人教版三年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)教案
- 2025年江蘇省高職單招《職測》高頻必練考試題庫400題(含答案)
- 2025云南紅河州個(gè)舊市大紅屯糧食購銷限公司招聘及人員高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- X證書失智老年人照護(hù)講解
- 工廠安全事故預(yù)防知識(shí)
- 2024-2025學(xué)年人教版數(shù)學(xué)八年級(jí)下冊(cè)期中檢測卷(含答案)
- 2024年江西應(yīng)用工程職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 2024年山東服裝職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
評(píng)論
0/150
提交評(píng)論