基于web內容的數據挖掘分析本科畢業(yè)論文_第1頁
基于web內容的數據挖掘分析本科畢業(yè)論文_第2頁
基于web內容的數據挖掘分析本科畢業(yè)論文_第3頁
基于web內容的數據挖掘分析本科畢業(yè)論文_第4頁
基于web內容的數據挖掘分析本科畢業(yè)論文_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、學號:河南師范大學本科畢業(yè)論文I基于Web內容的數據挖掘分析學院名稱:計算機與信息工程學院專業(yè)名稱:計算機科學與技術專業(yè)年級班別:2012級1班姓 名:指導教師:2016年5月河南師范大學本科畢業(yè)論文基于Web內容的數據挖掘分析摘 要 二一世紀以來,互聯網技術飛速發(fā)展,Web也越來越流行,Web信息資源也是呈現爆炸式增長。基于 Web內容的數據挖掘分析,通過收集 Web訪問者的互聯網瀏 覽記錄、上網習慣等方式得到原始數據,用來改進互聯網用戶的操作體驗,提升Web服務,也有利于商戶開展有關的電子商務活動。本文講述了從Web挖掘到Web內容挖掘、Web結構挖掘、Web使用挖掘的相關內容,重點簡述了

2、 Web使用挖掘的過程。表明了 Web數據挖掘的主要應用方向,并著重分析相關應用方向的關鍵技術,然后介紹了Web數據挖掘的技術實現,有關聯規(guī)則,序列模式挖掘技術,分類、聚類技術,路徑分析技術, 以及最后的Web挖掘技術的流程。關鍵詞 數據挖掘;Web挖掘;信息提取Data Mining Analysis Based on Web ContentAbstract The twen ty-first cen tury, the rapid developme nt of Internet tech no logy, Web has become increasingly popular, Web

3、information resources is explosive growth. Data mining an alysis based on Web content , browse through the collecti on of Web visitors Internet records, surfi ng habits and other ways to get the raw data used to improve the operati on of the In ternet user experie nee, enhance the Web services, but

4、also con ducive to con duct bus in ess-related e-commerce activities. This article describes the mi ning from the Web to Web content mi ning, Web structure mining, Web usage mining-related content, focusing briefly on Web usage mining process. It in dicates the directi on of the main applicati on We

5、b data mining, and an alyzes the key tech no logy-related applicati on direct ion, and the n in troduced the Web data mi ning tech no logy, associatio n rules, seque ntial pattern mining, classificati on, clusteri ng tech no logy, path an alysis, and last Web mining process.Keywords Data mi ning; We

6、b mi nin g; I nformatio n extract ion、八前言近年來,網絡以及通信技術不斷發(fā)展,互聯網無疑成為全世界影響最大的信息服務的 平臺,給人們的生活帶來了非常大的變革。如今, 信息顯得特別重要,互聯網上的相關信 息資源也無比豐富,人們在對待這么豐富的信息資源時,只有研究出關鍵相關技術才能從 中挖掘出有價值的信息來。Web數據挖掘就這樣誕生了,它可以幫助人們挖掘出人們所需 要的隱藏在巨大信息資源背后的有效信息,符合人們的預期,這已經成了熱門的研究方向。1 Web挖掘1.1概念在1996年,Oren Etzioni第一次提出了 Web挖掘這個概念。Web挖掘就是從海量的

7、 Web資源當中通過采用數據挖掘的技術能動的得到需要的信息1,11。數據挖掘是有數據庫、AI、自然語言等幾個方面的匯總2。Web數據挖掘的步驟如下:1)發(fā)現資源:任務是在 Web當中檢索數據;2)信息選取和數據預處理:將已經挑選得到的某些原始數據根據相關技術進行預處理3;3)發(fā)現獲取概要模式:利用某些特定技術將藏匿在不同的Web當中的概要模式進行提取;4)概要模式分析:確認已經獲得的模式并解釋1.2 Web數據挖掘的分類Web數據挖掘的通常分類方法是依據挖掘對象的不相同,分類如下:web的內容挖掘;web的結構挖掘;web的使用挖掘。如圖11.2.1Web的內容挖掘Web的內容挖掘就是針對We

8、b文檔,對于那些可以利用原始數據預處理技術處理的海 量數據進行處理得到有價值的信息。 Web的內容挖掘是對多媒體文檔和文本文檔來說的。 Web的文本數據挖掘,是對 Web進行歸納,總結,分析,最終得出結論的4,12。近年來, 業(yè)內對多媒體數據挖掘技術也是越來越成熟,越來越深入。13Web挖掘結構挖掘用戶分析訪問定制模式Web分析站點圖1.1挖掘分類(1) Web的文本數據挖掘Web的文本數據挖掘是把統(tǒng)計學和計算機語言學作為理論基礎,從海量的文本數據中提取有用的信息技術5,13 o(2) Web的多媒體數據挖掘對Web當中的圖片、視頻、音頻等多媒體信息進行相關技術分析獲得有效的模式信息, 企圖得

9、知事物之間的相關性,得出結論。文本總結就是用較少的話語來歸納已經提取得到的信息。文本分類就是根據不同的性質或主題將文本分門別類。文本聚類就是將某些具有相同的特征的文本集合起來。關聯分析就是找到文檔中不同部分的內在的關系。1.2.2 Web的結構挖掘Web的結構挖掘是在Web結構和鏈接關系當中尋找到隱含的信息和模式的過程。Web內容的結構不相同的網頁之間的鏈接的關系,還有網頁頁面里的樹形的關系,女口HTMLXML以及文檔URL的目錄路徑結構等等。利用Web的結構挖掘分析可以更加深入的對 Web文檔的內容進行分析,從整體的角度審視文檔。結構分析可以采用先分解,再變形, 最后歸納總結的方法。通過分類

10、技術和聚類技術,獲得最為重要的頁面,稱之為權威頁面, 目的是能夠使得查找信息更加高效。所謂鏈接關系指的是某些網頁當中存在著彼此分享某 些內容,相互引用的關系。Web的結構挖掘有很多的應用,包含以下幾個方面:1)對網頁的采集有著指導作用:因為鏈接關系,一個網頁可能與其他不同的網頁相 鏈接,可以對這些相關聯的網頁進行質量排序,依據實際需要獲得一些有價值的網頁。2) 網頁聚類:當前很多網頁的聚類分析是依據文本相似度, 但是有些可能會不符合 預期目標。此時可以采用Web的結構挖掘分析,利用鏈接關系進行聚類可能會得到意想不 到的結果。3)對社會團體進行識別:在互聯網上有許多社會團體構建,運行以及維護的網

11、頁, 可以對這些社會團體進行識別。4)對資源進行自動分類:日常生活中我們經常使用的搜索引擎基本上都是按照層次 來分類的,當前主要有貝葉斯概率方式和 SV毗式。有專家曾驗證表明,在按照分類的樣 本的學習機當中采用鏈接的方式進行分析就能夠對分類的細化程度進行提高。1.2.3 Web的使用挖掘Web使用挖掘就是根據在服務器上的搜索記錄進行挖掘,就是對用戶訪問Web網頁時 的存取方式進行挖掘,以得到用戶有關的訪問模式7,14。使用挖掘即與日志挖掘相同。Web的使用挖掘分析得到互聯網使用者的可能的訪問模式,如互聯網的某些可能訪問 習慣。根據實際應用不相同,可以分為兩種跟蹤模式,屬于個人的獨有的訪問模式跟

12、蹤以 及普通的大眾的訪問模式跟蹤。個性化的訪問模式跟蹤就是依據個人用戶的喜好和特性, 構建合適此人的 Web站點。一般的訪問模式跟蹤就是正常根據整理平時網頁日志來了解訪 問模式以及個人傾向,通過采用這些跟蹤模式可以很好的了解 Wet結構以及資源分配者的 遍布情況。Web的使用挖掘可以分為以下幾個步驟:采集數據,數據預處理,發(fā)現模式,分析模 式9。如圖:圖1.2 Web使用挖掘基本過程2 Web數據挖掘的主要應用研究方向2.1智能化搜索引擎進入二十一世紀以來,隨著互聯網技術的快速發(fā)展,網絡上的信息量急劇增加,網絡 信息也是即時更新,網絡用戶們急切需要符合自己需求的工具,用來快速準確的獲取有用 的

13、信息,盡量使得檢索效率增高。由于現有的搜索引擎,如百度、搜狗,已經能很好的達 到搜索信息的目的,所以數據挖掘的工程師們從數據挖掘的角度來提高檢索信息的準確 度,使得個性化服務更加能夠應用到網絡互聯網使用者的日常生活中。2.1.1目前的搜索引擎存在的不足:1)邏輯運算符不能滿足用戶需求目前的搜索引擎諸如百度等,所能夠提供的提問函數不能夠滿足用戶的需求, 很多的 搜索引擎只是能夠在關鍵詞的布爾連接之間提供幫助,但是例如SQL語言之類較為復雜的 搜索不能提供給相關用戶。2)在增量檢索方面沒有研究目前的搜索引擎在增量檢索方面還缺乏發(fā)展,只能夠對檢索信息從新開始,而不能將用戶曾經的檢索過的信息進一步提煉

14、,以達到更加準確的程度。3)只能提供關鍵詞搜索目前廣泛使用的關鍵詞搜索不能更好的滿足用戶的需求,關鍵詞搜索僅僅只是簡單的關鍵詞匹配和檢索。不能智能化的用語言交流,來達到檢索的目的。4)搜索引擎單一面對當前海量的網絡資源,單個搜索引擎的力量以及數據庫的容量都對搜索能力的范 圍有所限制,而且不同的搜索引擎之間存在著許多相同的信息。2.1.2搜索引擎的關鍵技術1)排序信息和集成信息目前用戶利用搜索引擎檢索信息時,一般會反饋得到相關文檔的摘要。許多搜索引擎 會通過自動摘要的功能選擇性抽詞。 這種方法準確度不高。人們可以利用 Web的內容挖掘 當中的對文本進行歸納的相關技術,也就是說利用 Web文檔的內

15、容而不是根據某些詞的位 置來檢索信息。對于PageRank算法,就是搜索引擎首先是檢索提問,之后再將檢索得到 的結果進行頁面的分析15,得到頁面的相關等級,然后依據頁面對檢索結果的重要性進行 輸出。全球著名的搜索引擎 Google就是采用了這個技術才使得其檢索結果準確度高。類 似的算法還有 AuthorityandHub 16。2)識別搜索條件對搜索條件進行識別含有以下兩個方面:一是對查詢條件當中的有效成分進行提??;二是依據知識的數據庫對所針對的關鍵詞的相關詞,如近義詞或同義詞進行提取。假設搜 索引擎在對一個關系復雜的查詢進行檢索時,若簡單的使用自然語言不做替換或提取有效 成分,則很難得到預期

16、的結果。所以說,建立一種有效的檢索機制對提高檢索準確度至關 重要。3)個性化搜索引擎?zhèn)€性是每個人的特征,追求個性是每個人的基本心理。搜索引擎與個性相結合,將更 加能夠得到用戶的青睞。開發(fā)個性化的搜索引擎的首要前提就是能夠準確的獲知用戶的興 趣愛好。通常為得知用戶的興趣愛好的方法就是根據用戶的檢索關鍵詞、瀏覽的網頁、書簽文件、以及用戶的動態(tài)更新等等。2.2智能化Web瀏覽器隨著互聯網的發(fā)展,信息資源也越來越豐富,傳統(tǒng)的Web瀏覽器在應對用戶需求時,可能難以應對。此時智能化的 Web瀏覽器才能讓用戶需求得到更好的滿足。2.2.1傳統(tǒng)的Web瀏覽器存在的不足:1)不能滿足用戶的個性化要求;傳統(tǒng)的We

17、t瀏覽器接受用戶的需求之后,機械的與服 務器連接,服務器所反饋回來的頁面不能與用戶的個性相匹配,信息準確度不高。2)用戶可能會漫無目的的瀏覽服務器反饋回來的海量信息,就是因為深度優(yōu)先的檢 索,結果極有可能使得用戶迷失自我,脫離預期目標。3)由于沒有信息過濾機制,查詢結果有可能會重復,還會有無關的內容,以及過時的 信息。使得互聯網使用者浪費時間,搜索引擎的檢索效率低。4)不存在能夠自動的查找新內容的功能。2.2.2智能Web瀏覽器的關鍵技術1)特征選取特征選取是開發(fā)個性化 Web瀏覽器的關鍵,經常使用的方法有依據某個詞語出現的頻 率來選取特征、依據瀏覽的的行為特征來選取特征、依據能否增加期望信息

18、來選取特征、 依據相互交流的信息量來選取特征。2)用戶興趣模型的學習和更新用戶興趣模型是將互聯網使用者所感興趣的內容的概括。主要使用興趣相關法、貝葉斯分類器等。3)對信息進行過濾以及對文檔進行分類利用信息提取技術和模式發(fā)現技術達到 Web言息過濾的目的,對文檔進行分類依據的原則就是用戶興趣,可以對不感興趣的文檔進行屏蔽3 Web的挖掘技術的流程Web挖掘技術實現的流程如下圖3所示,其中各步驟如下:第一步:對目標樣本進行確定,選擇好關于用戶的目標文本,當作用戶的特征信息來 提取;第二步:對特征信息進行提取,依據目標樣本的相關詞的分布情況, 在統(tǒng)計詞典當中 找到目標的特征向量,然后計算得到所對應的

19、權值;第三步:獲取網絡信息,首先利用搜索引擎的站點來選擇得到等待采集的站點,然后再利用Robot程序對靜態(tài) Web頁面進行采集,之后得到被訪問站點的網絡數據庫中的動態(tài) 信息,形成萬維網的資源索引數據庫;第四步:對信息進行特征匹配,對索引數據庫當中的源信息的特征向量進行提取,并且和目標樣本當中的特征向量也要進行相關的匹配, 最后用戶將得到符合閉值條件的結果 信息。特征信息提取目標樣本統(tǒng)計詞典模式匹配返回結果集合Internet信息資 _ _ 孑 索引集源Robot采集圖3.1 Web信息挖掘流程4 Web數據挖掘技術實現對于Web數據挖掘的實現一般需要以下兩類技術 何:其一是采用人工智能模型,這

20、種 模型主要是根據機器學習來建立的,技術方法有自然法則計算方法、神經網絡以及Web所獨有的路徑分析技術等等。其二是基于統(tǒng)計模型,技術方法有分類、聚類、決策樹、關 聯分析等等。4.1關聯規(guī)則對于Web數據挖掘,關聯規(guī)則就是指用戶訪問的頁面與文件當中所挖掘出來的頁面相 重合的關聯度,當這個關聯度達到了某個數值時的頁面的合集17-18。常用的算法有Aprior, 對于事物數據庫,當遇到一個最大的訪問項集,就會將其挖掘出來,這個項集就是依靠 Web數據挖掘技術關聯規(guī)則實現得到的用戶訪問模式。4.2序列模式挖掘技術在關聯規(guī)則挖掘技術當中增加一項時間屬性, 可以用了明確事物的先后順序,預測事 物的發(fā)展趨勢

21、,這就是序列模式挖掘。這種挖掘是頁面之間的關系模式,也就是說頁面之 間有先后的關系。從用戶的訪問序列當中挖掘出來有關的規(guī)則是時序模式發(fā)現的目的。 一 段時間內的用戶訪問行為會被服務器所記錄,數據預處理時,各個事物也會有時間記錄。根據時間序列分析,可以達到預測用戶訪問行為的目的,比如,用戶購買了物品A,在一定的時間內,他有百分之七十的可能性會購買物品 B,這樣的話就可以對其投放特定 的廣告。4.3分類技術分類的原則就是根據某些特性,將數據庫中的數據進行分類11。在Web挖掘技術當中, 比如在線購買中,可以得出購買人群主要是20-30歲的青年人群,就可以針對這個年齡段 人群的特點展開商務活動。當前

22、,最經典的分類方法就是決策樹方法。4.4聚類技術聚類就是將數據庫中的數據根據某個相似性劃分為各個不同的類別,對符合某一訪問規(guī)律特征的用戶進行用戶特征挖掘。4.5路徑分析技術圖是Web數據挖掘時用路徑分析技術最常用的。圖是指G=其中V是結點集合, E是邊集合,結點之間用有向邊連接。對于 Web挖掘應用,將頁面作為頂點集合,E作為 有鏈接關系的有向邊集合,入邊是被引用,出邊是引用,這樣就形成了網站的結構圖。對于圖中的訪問路徑,最優(yōu)訪問路徑就是指對于已經確定的點之間找到一種符合條件的某個 量度最小的訪問路徑。5案例分析近年來,我國房地產市場持續(xù)火爆,房價成了我國全民關心的話題。為了防止一些發(fā) 達國家

23、歷史上出現過的房地產泡沫,國家屢次出臺有關房價問題的政策,持續(xù)加大對房地 產的調控的力度。因為房地產關乎民生,所以很多網民都在互聯網上發(fā)表了自己對政府調 控房價政策等方面的看法,這就是房地產網絡輿情。對于這些網絡輿論情況進行分析, 可 以對其進行有效的控制和疏導。網絡輿情分析的步驟如下:5.1信息采集有關房地產網絡輿情的信息采集主要是通過網絡爬蟲來對網絡內容進行抓取。 數據的 獲取主要從這幾個方面著手,對列表頁進行抓取、相關鏈接和對下載的詳情頁面??梢酝?過內容獲取模塊、內容分析模塊、數據庫操作模塊實現,以及分析和分解根。房地產網絡輿情的信息選取的時間范圍為 2015年1月1日到2015年6月

24、30日的有 關房價調控的評論。對網上各有關房市討論的熱點話題共計抓取2340篇評論。評論者為社會各個行業(yè)的人士,除了國內的老百姓,還有海外人士。首先對這些評論采用分類的方 式得到有效評論1800篇,其中正面評論1300篇,負面500篇。舉例如下表:表5.1正面、反面的評論正面的評論1、真是太好了,中央要抑制房價。2、說的有理,國家不斷增長,有利于人民。3、 政策一直在朝著好的方向發(fā)展,這是毋庸置疑的。4、能不能抑制房價,需要市場調節(jié),國家一定能解決好這個問題。5、中國一直在不斷向前發(fā)展, 房價對于中國不是問題,我對國家有信心。6、 國家一直在考慮民生問題,國家財政必將取之于民,用之于民。7、支

25、持發(fā)改委,相信政府能夠避免樓市泡沫。8、國家解決問題需要時間,相信政府定能在 盡可能短的時間內解決全民炒房問題。負面的評論1、國家對房價這一重要問題都調控不好。2、發(fā)改委影響了中國前進的步伐。3、當前,地皮歸政府管理,前景不容樂觀。4、科學院真是不行,調控房價這么些年,也沒能解決好這個問題。5、國家腐敗太多,民生問題難以解決,唉,悲哀。6、國家政策失誤導致了虛高的房價,應該出臺正確的政策,彌補以前的失誤,老百姓辛 辛苦苦一輩子,還買不了一套房,真是悲哀。7、所謂的學者,你的知識在哪兒,一直在亂講,也沒個好方法,誤導國民。&為什么政府官員、老師總是宣揚一些不著 調的話語,房價是關乎民生,政治的大

26、問題。5.2數據預處理首先對所提取的信息進行文本提取,也就是要去除除文本外的信息如視頻,音頻等;然后對文本進行分詞的處理;最后對文本采用向量空間等方法進行特征表示,以及進行特征選擇,得到有效的文本特征,為分析做準備。5.3文本內容分類對獲得的網絡輿論采取情感上的傾向性分析。 在這個階段,首先將數據與現有的網絡 情感傾向性方法進行對比,這些方法是:基于支持向量機的網絡輿論情感分析方法, 基于 K階最近鄰方法的網絡情感分析方法以及基于 N-gram方法的網絡情感分析方法。通過對 比發(fā)現,選擇基于支持向量機的網絡輿論情感分析方法更合適。第一根據之前所得的輿情語科庫對SVM進行訓練,并將其用于房地產輿

27、情分析預測當中。 再對所收集的信息按照一 個月分為兩次的間隔分成10個時間段。進行分類預測。結果如下:表5.2 分類評論的結果1月a1月z2月a2月z3月a3月z4月a4月z5月a5月z止面 的文 本數410265303132154799負面 的文 本數16343330681009026122348根據上表,繪制折線圖如下:圖5.1房地產行業(yè)網絡輿論情況由上圖可知,評論數呈現上升趨勢5.4輿論情感傾向性分析網絡輿情反映了事態(tài)發(fā)展,并且能夠引起社會的關注。通過對網絡輿情的分析能夠增 加政府與民眾的溝通,知曉民意,了解民情,指定合適的政策。通過對房地產輿情的分析可知,房地產的評論數量急劇增加,更重

28、要的是,差評率高 達78.1%。這些結論能夠讓政府更好的面對房地產問題,了解百姓的真實意見,以便做出 更好的政策意見。結束語本文討論了 Web挖掘的相關分類和定義。講述了Web勺內容挖掘、Web的結構挖掘、Web的使用挖掘等以及所涉及的關鍵技術。對于這些方面的研究還不夠完善,仍舊處于初 級的階段,互聯網在技術和應用兩個方面的不斷發(fā)展使得數據庫技術和數據挖掘技術也在 不斷的發(fā)展,這使得 Web的數據挖掘技術理論和應用也同樣不斷發(fā)展。本文不僅討論了 Web的數據挖掘的內容,Web挖掘的步驟,Web挖掘的技術等,還研究了關聯規(guī)則等算法。 討論了 Web信息挖掘的流程。參考文獻1 張春明 Web挖掘技

29、術研究J.廊坊師范學院學報(自然科學版),2008,No.3505:35-36.2 蔣望東,黃發(fā)良基于WEB的數據挖掘研究綜述J. 湖南工程學院學報(自然科學 版),2007,No.4301:61-64.3 王劍鋼,連仁明,邢博.基于龍格庫塔四階積分的流線可視化方法J. 無線互聯科 技,2015,No.6513:130+136.4 劉曉鵬,邢長征.基于WEB文本數據挖掘的研究J.計算機與數字工程,2005,09:75-79.5 黃娟.基于文本挖掘技術的蛋白質相互作用預測方法研究D.中南大學,2009. 巫滿秀.Web StructureMi ning 在電子商務網站中的應用J. 電腦知識與技術

30、(學術交流),2007,05:1215+1226.7 陳修寬,董祥軍,石芙芙.Web數據挖掘綜述J. 山東輕工業(yè)學院學報(自然科學 版),2009,v.23;No.8903:25-28.8 林聰.Web挖掘的研究綜述J. 現代計算機(專業(yè)版),2008,No.28707:89-91.9 賈丙靜,葛華,王傳安,趙海燕.Web日志挖掘在校園網建設中的應用研究J.安徽科技學院學報,2010,v.24;No.9403:38-41.10 楊銘.Web數據挖掘綜述J. 科技展望,2014,No.31219:22.11 烏嵐.基于多樣約束模型的遠程教育數據庫優(yōu)化查詢算法J. 科技通 報,2013,v.29;No.17501:154-156+180.11 Zhe ng Che n,Fa n Lin,Huan Liu,Yin Liu,Wei-Yi ng Ma,Liu Wen yi n. User Inten tion Modeli ng inWeb Applicatio ns Usi ng Data Minin gJ. World Wide Web,2002,53:.12 Robert Cooley,Bamshad Mobasher,Jai

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論