版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1Web數(shù)據挖掘的概念WebMining(Web挖掘是由OrenEtzioni在1996年首先提出的[1],“因特網的數(shù)據挖掘”、“Web知識發(fā)現(xiàn)”、“網絡信息挖掘”、“Web信息挖掘”等也可以認為是Web挖掘的同義詞。一般,對Web數(shù)據挖掘做如下定義:Web數(shù)據挖掘是指Web從文檔結構和使用的集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入,P看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映射[2]。Web數(shù)據挖掘是一項綜合技術,是從WWW資源上抽取信息(或知識的過程,是對Web資源中蘊涵的、未知的、有潛在應用價值的模式的提取。它反復使用多種數(shù)據挖掘算法,從觀測數(shù)據中確定模式或合理模型,也是將數(shù)據挖掘技術和理論應用于對WWW資源進行挖掘的一個新興的研究領域[3]。Web挖掘研究覆蓋了多個研究領域,包括數(shù)據庫技術、信息獲取技術、統(tǒng)計學、人工智能中的機器學習和神經網絡等。2Web數(shù)據挖掘流程Web數(shù)據挖掘過程是一個完整的KDD過程,但與傳統(tǒng)數(shù)據和數(shù)據倉庫相比,Web上的信息是非結構化或半結構化的、動態(tài)的、并且是容易造成混淆的,所以很難直接以Web網頁上的數(shù)據進行數(shù)據挖掘,而必須經過必要的數(shù)據處理。典型Web挖掘的處理流程包括如下四個步驟:2.1查找資源:根據挖掘目的,從Web資源中提取相關數(shù)據,構成目標數(shù)據集,Web數(shù)據挖掘主Web數(shù)據挖掘研究綜述李森1,2胡學鋼1李正吉2(1合肥工業(yè)大學計算機與信息學院安徽合肥230009;2山東信息職業(yè)技術學院信息工程系山東濰坊261041摘要:隨著Internet/Web技術的快速普及和迅猛發(fā)展,各種信息可以以非常低的成本在網絡上獲得,如何在這些信息中找到用戶真正需要的內容,成為數(shù)據組織和Web相關領域專家學者關注的焦點。Web數(shù)據挖掘旨在發(fā)現(xiàn)隱藏在Web數(shù)據中潛在的有用知識、提供決策支持,已經成為數(shù)據挖掘領域中新興的研究熱點。本文綜述了基于Web的數(shù)據挖掘概念、流程、主要技術及分類,分析了Web數(shù)據挖掘的熱點研究方向。關鍵詞:數(shù)據挖掘;Web挖掘中圖分類號:TP393.09文獻標識碼:A文章編號:1673-0968(200801-0098-03要從這些數(shù)據通信中進行數(shù)據提取。其任務是從目標Web文檔中得到數(shù)據。值得注意的是,有時信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網站的日志數(shù)據甚至是通過Web形成的交易數(shù)據庫中的數(shù)據。2.2信息選擇和預處理:從目標數(shù)據集中除去明顯錯誤的數(shù)據和冗余的數(shù)據,進一步精簡所選數(shù)據的有效部分,并將數(shù)據轉換成有效形式,以使數(shù)據開采算法(包括選取合適的模型和參數(shù)尋求感興趣的模型。其任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告鏈接、去除多余格式標記、自動識別段落或者字段并將數(shù)據組織成規(guī)整的邏輯形式甚至是關系表。2.3模式發(fā)現(xiàn):對預處理后的數(shù)據進行挖掘,自動進行模式發(fā)現(xiàn),從Web站點間發(fā)現(xiàn)普遍的模式和規(guī)則。2.4模式分析:對發(fā)現(xiàn)的模式進行解釋和評估,必要時需返回前面處理中的某些步驟以反復提取,最后將發(fā)現(xiàn)的知識以能理解的方式提供給用戶。可以是機器自動完成,也可以是與分析人員進行交互來完成。3web數(shù)據挖掘中的主要技術Web數(shù)據挖掘中常用的技術有Web使用的特有的路徑分析技術,數(shù)據挖掘領域常用的關聯(lián)規(guī)則、序列模式、分類聚類技術等。3.1路徑分析技術2008年第1期(總第143期山東紡織經濟計算機應用98用路徑分析技術進行Web數(shù)據挖掘時,最常用的是圖。因為Web可以用一個有向圖來表示,G=(V,E,其中:V是頁面的集合,E是頁面之間的超連接集合,頁面定義為圖中的頂點,而頁面間的超鏈接定義為圖中的有向邊。頂點v的入邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網站結構圖,從圖中確定最頻繁的訪問路徑。3.2關聯(lián)規(guī)則挖掘技術關聯(lián)規(guī)則挖掘技術主要用于從用戶訪問序列數(shù)據庫的序列項中挖掘出相關的規(guī)則,就是要挖掘出用戶在一個訪問期間(Session,從服務器上訪問的頁面/文件之間的聯(lián)系,這些頁面之間可能并不存在直接的參引(Reference關系。最常用的是用APRIOR算法,從事務數(shù)據庫中挖掘出最大頻繁訪問項集,這個項集就是關聯(lián)規(guī)則挖掘出來的用戶訪問模式。3.3序列模式挖掘技術序列模式數(shù)據挖掘就是要挖掘出交易集之間的有時間序列關系的模式。它與關聯(lián)挖掘技術都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律,關聯(lián)挖掘技術更注重事務內的關系,序列模式技術則注重事務間的關系。3.4聚類分類技術分類規(guī)則可以挖掘出某些共同的特性,這個特性可以用來對新添到數(shù)據庫里的數(shù)據項進行分類。在Web數(shù)據挖掘中,分類技術可以根據訪問這些用戶而得到的個人信息或共同的訪問模式,得出訪問某一服務器文件的用戶特征。聚類技術則是對符合某一訪問規(guī)律特征的用戶進行用戶特征挖掘。最后進行模式分析,挖掘出人們可理解的知識的模式解釋。4Web數(shù)據挖掘的分類Web挖掘的對象包括一切通過Web形成的數(shù)據,根據挖掘對象的不同,可將Web挖掘分為Web內容挖掘、Web結構挖掘和Web使用挖掘[4]。4.1Web內容挖掘(WebContentMiningWeb上的信息多種多樣,傳統(tǒng)的Internet由各種類型的服務和數(shù)據源組成,包括WWW、FTP、Telnet等,現(xiàn)在有更多的數(shù)據和端口可以使用,比如政府信息服務、數(shù)字圖書館、電子商務數(shù)據,以及其他各種通過Web可以訪問的數(shù)據庫。Web內容挖掘是從文檔內容或描述中抽取知識的過程,是對網頁上真正的數(shù)據進行挖掘,包括網頁內容挖掘和搜索結果挖掘。Web內容挖掘的對象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數(shù)據。其中針對無結構化文本進行的Web挖掘被歸類到基于文本的知識發(fā)現(xiàn)(KDT領域,也稱文本數(shù)據挖掘或文本挖掘,是Web挖掘中比較重要的技術領域,也引起了許多研究者的關注。最近在Web多媒體數(shù)據挖掘方面的研究成為另一個熱點。4.2Web結構挖掘(WebStructureMiningWeb可以看成一個以網頁為節(jié)點、鏈接為邊的圖結構,超鏈接反映了網頁間的包含、引用或從屬關系。Web結構挖掘是挖掘Web潛在的鏈接結構模式。通過分析一個網頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結構模式,既可以用于網頁歸類,并且可以由此獲得有關不同網頁間相似度及關聯(lián)度的信息,有助于用戶找到相關主題的權威站點。在Web結構挖掘領域最著名的算法是HITS算法和PageRank算法。它們的共同點是使用一定方法計算Web頁面之間超連接的質量,從而得到頁面的權重。著名的Clever和Google搜索引擎就采用了該類算法。此外,Web結構挖掘另一個嘗試是在Web數(shù)據倉庫環(huán)境下的挖掘,包括通過檢查同一臺服務器上的本地連接衡量Web結構挖掘Web站點的完全性,在不同的Web數(shù)據倉庫中檢查副本以幫助定位鏡像站點,通過發(fā)現(xiàn)針對某一特定領域超鏈接的層次屬性去探索信息流動如何影響Web站點的設計。4.3Web使用挖掘(WebUsageMiningWeb使用挖掘面對的是在用戶和網絡交互的過程中抽取出來的第二手數(shù)據,這些數(shù)據包括:網絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問式等。Web使用挖掘對用戶背景和訪問信息進行挖掘,以便理解和更好地服務Web應用需求。它通過挖掘相關的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,可以識別用戶的忠實度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強站點的服務競爭力。根據對數(shù)據源的不同處理方法,Web使用挖掘可以分為兩類,一類是將Web使用記錄的數(shù)據轉換并傳遞進傳統(tǒng)的關系表里,再使用數(shù)據挖掘算法對2008年第1期(總第143期山東紡織經濟計算機應用99關系表中的數(shù)據進行常規(guī)挖掘;另一類是將Web使用記錄的數(shù)據直接預處理再進行挖掘。Web使用挖掘中的一個有趣的問題是在多個用戶使用同一個代理服務器的環(huán)境下如何標識某個用戶,如何識別屬于該用戶的會話和使用記錄,這個問題看起來不大,但卻在很大程度上影響著挖掘質量,所以有人專門在這方面進行了研究。通常來講,經典的數(shù)據挖掘算法都可以直接用到Web用法挖掘上來,但為了提高挖掘質量,研究人員在擴展算法上進行了努力,包括復合關聯(lián)規(guī)則算法、改進的序列發(fā)現(xiàn)算法等。5Web挖掘的研究熱點[5]在未來一段時間內,Web挖掘中的以下方面可能成為研究和應用熱點。5.1高性能Web搜索引擎。盡管搜索引擎性能已有了較大提高,但搜索引擎的最終目標是“理解用戶需求精確返回所需”,如何翻譯用戶的非專業(yè)搜索請求,實現(xiàn)自然語言處理,涉及興趣爬蟲、元搜索引擎、垂直搜索、移動搜索和多媒體搜索等方面的研究。5.2Web數(shù)據的特征描述與監(jiān)控。如何表示Web文本內容的特征數(shù)據,如何表示和識別Web中的圖像、flash等多媒體數(shù)據,進而進行網頁分類、內容跟蹤、過濾和報警等,對于不良網站的監(jiān)控等有著積極意義。5.3Web數(shù)據的獲取與集成。包括Web文本特征的提取和表示,如何用一種廣泛兼容的半結構化數(shù)據模型表示網頁;如何抽取動態(tài)網頁中的數(shù)據;如何在分布的Web中獲取信息,如何在指定網頁中快速定位所需的數(shù)據區(qū),如何利用數(shù)據庫和數(shù)據倉庫技術查詢和存儲Web內容等。5.4Web數(shù)據流的挖掘。Web日志、cookie、點擊流等流式數(shù)據量巨大,如何識別和過濾爬蟲的訪問信息;如何有效收集和處理日志以外的訪問數(shù)據;如何有效標識用戶、設置用戶會話時間等。5.5安全與非法訪問檢測。如何評價Web數(shù)據信息本身的可靠和安全性;如何對Web內容、郵件、各種日志和用戶訪問行為的分析,識別出威脅、欺詐、入侵、無用的數(shù)據和異常行為,從而構建安全的網絡環(huán)境。5.6個性化與安全的隱私。如何跟蹤、學習和表達多變的用戶興趣及行為模式,在個性化服務中過濾信息,實現(xiàn)商業(yè)應用,在提供個性化服務時不侵犯用戶隱私等都是亟待解決的問題。5.7基于Web的模式分析技術和工具。如何將Web挖掘的結果在瀏覽器中可視化地表達,包括統(tǒng)計、關聯(lián)、聚類、分類等工具開發(fā)等。5.8Web挖掘的算法改進與質量的評估。由于Web數(shù)據自身的特點,使得Web挖掘不能照搬數(shù)據挖掘的理論和技術,而需要對現(xiàn)有的算法等方面都進行改進。Web挖掘算法和挖掘系統(tǒng)的性能通常需要大量用戶的反饋、實際運行測試,因而缺乏有效的評價模式。5.9Web挖掘在社會領域的應用。Web已經是人類社會活動的一面鏡子,如何在Web中發(fā)現(xiàn)社會現(xiàn)象、問題和熱點的規(guī)律,為社會學家、經濟學家、教育學者提供有價值的知識。此外,分布式Web挖掘、語義Web挖掘、無線網絡下的Web挖掘、Web2.0時代的Web挖掘、多語言環(huán)境下的Web挖掘等是值得研究的方向。同時,Web挖掘技術應用于具體領域的研究將持續(xù)受到關注,例如,銀行證券、企業(yè)ERP、醫(yī)療衛(wèi)生、農業(yè)、電子商務、網絡教學、BLOG等。6結束語Web數(shù)據挖掘是一個新興的研究領域,已廣泛地應用于金融業(yè)、遠程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務以及體育事業(yè)中,對它的應用和研究正在成為一個熱點,并取得了一定成就;但從整體上看,目前的研究仍處于起步階段,許多問題有待深入研究?!魠⒖嘉墨I:[1]EtzioniO.TheWorldWideWeb:Quagmireorgoldmine[J].CommunicationoftheACM,1996;39(11.[2]王玉珍.Web數(shù)據挖掘的分析與探索[J].計算機發(fā)展與應用,2003
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 贛南師范大學《古生物與地層學含實驗》2023-2024學年第一學期期末試卷
- 加工中心的編程教學課件
- 七年級道德與法治上冊第一單元成長的節(jié)拍第一課中學時代第二課時誤區(qū)警示新人教版
- 三年級數(shù)學上冊6乘法單元概述和課時安排素材北師大版
- 三年級科學上冊7土壤的保護教案冀教版
- 三年級科學下冊第三單元固體和液體1認識固體教案蘇教版1
- 《知識社會學》課件
- 高二物理期末模擬卷(A卷)【測試范圍:必修第一、二、三冊及選擇性必修第一冊第1章】(考試版A3)(浙江專用)
- 《前言關鍵點》課件
- 初中數(shù)學等腰直角三角形添加輔助線三垂直構建K字型全等專項練習題1(附答案詳解)
- 2024-2025學年北師大版七年級上冊數(shù)學期末專項復習:期末壓軸題分類(原卷版)
- 2024年全國《汽車加氣站操作工》安全基礎知識考試題庫與答案
- 2024-2025學年北師大版小學六年級上學期期末英語試卷及解答參考
- 食堂項目經理培訓
- 2024年人教版八年級道德與法治下冊期末考試卷(附答案)
- 公司事故隱患內部報告獎勵機制
- (高清版)DB34∕T 1337-2020 棉田全程安全除草技術規(guī)程
- 部編版小學語文二年級上冊單元測試卷含答案(全冊)
- 形勢與政策(吉林大學)智慧樹知到答案2024年吉林大學
- 產品返工執(zhí)行方案
- GB/T 44405-2024工業(yè)互聯(lián)網平臺服務商評價方法
評論
0/150
提交評論