Web日志挖掘在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中的應(yīng)用_第1頁
Web日志挖掘在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中的應(yīng)用_第2頁
Web日志挖掘在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中的應(yīng)用_第3頁
Web日志挖掘在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中的應(yīng)用_第4頁
Web日志挖掘在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中的應(yīng)用_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Web日志挖掘在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中的應(yīng)用摘要隨著現(xiàn)代信息技術(shù)在遠(yuǎn)程教育中越來越廣泛的應(yīng)用,網(wǎng)絡(luò)遠(yuǎn)程教育模式正逐步成為遠(yuǎn)程教育的主流。本文對(duì)eb日志挖掘在遠(yuǎn)程教育強(qiáng)中應(yīng)用流程進(jìn)行了研究探討,從而更好地指導(dǎo)了遠(yuǎn)程教育實(shí)踐。關(guān)鍵詞eb挖掘;eb日志;遠(yuǎn)程教學(xué)在網(wǎng)絡(luò)遠(yuǎn)程教育模式下,學(xué)生學(xué)習(xí)的過程就是在遠(yuǎn)程教育網(wǎng)站頁面中跳轉(zhuǎn)活動(dòng)的過程,他們的每個(gè)活動(dòng)都是對(duì)教學(xué)網(wǎng)站上的一個(gè)頁面對(duì)象的點(diǎn)擊操作,這些點(diǎn)擊操作都能被完整地記錄在系統(tǒng)日志中,通過對(duì)日志的分析挖掘,可以找出學(xué)生行為模式;在另一方面,遠(yuǎn)程教育網(wǎng)站的結(jié)構(gòu)組織是不是符合學(xué)生和教師學(xué)習(xí)和教學(xué)的規(guī)律,通過對(duì)網(wǎng)站日志的分析也可以得到。所有這些都離不開數(shù)據(jù)挖掘技術(shù),

2、本文就是通過對(duì)遠(yuǎn)程教育eb服務(wù)器日志文件進(jìn)行分析,從而進(jìn)一步指導(dǎo)網(wǎng)站建設(shè)。eb挖掘是針對(duì)包括eb頁面內(nèi)容,頁面之間的結(jié)構(gòu),用戶訪問信息等在內(nèi)的各種eb數(shù)據(jù)源。在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的隱含的知識(shí)的過程。eb挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有其自身的特點(diǎn)。eb本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的數(shù)據(jù),缺乏機(jī)器可理解的語義,eb挖掘的對(duì)象是大量,異質(zhì),分布的eb文檔,對(duì)eb服務(wù)器上的日志、用戶信息等數(shù)據(jù)所開展的挖掘工作也屬于eb數(shù)據(jù)挖掘的范疇。eb信息的多樣性決定了挖掘任務(wù)的多樣性。按照eb處理對(duì)象的不同,一般將eb挖掘分為3類:eb內(nèi)容挖掘,eb結(jié)構(gòu)挖掘和eb使用記錄挖掘(如圖1所示),針對(duì)這3種不

3、同的處理對(duì)象,能夠挖掘出許多有用的信息。圖1eb挖掘分類2.1eb內(nèi)容挖掘eb內(nèi)容挖掘是指從文檔的內(nèi)容中提取知識(shí)。eb內(nèi)容挖掘又分為文本挖掘和多媒體挖掘。目前多媒體數(shù)據(jù)的挖掘研究還處于探索階段,eb文本挖掘已經(jīng)有了比較實(shí)用的功能。eb文本挖掘可以對(duì)eb上大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析,以及利用eb文檔進(jìn)行趨勢(shì)預(yù)測(cè)等。eb文檔中的標(biāo)記,例如Title和Heading等蘊(yùn)含了額外的信息,可以利用這些信息來加強(qiáng)eb文本挖掘的作用。2.2eb結(jié)構(gòu)挖掘eb結(jié)構(gòu)挖掘是從eb的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。它不僅僅局限于文檔之間的超鏈接結(jié)構(gòu),還包括文檔內(nèi)部的結(jié)構(gòu)。文檔中的URL目錄路徑的結(jié)

4、構(gòu)等。eb結(jié)構(gòu)挖掘能夠利用網(wǎng)頁間的超鏈接信息對(duì)搜索引擎的檢索結(jié)果進(jìn)行相關(guān)度排序,尋找個(gè)人主頁和相似網(wǎng)頁,提高eb搜索蜘蛛在網(wǎng)上的爬行效率,沿著超鏈接優(yōu)先爬行。eb結(jié)構(gòu)挖掘還可以用于對(duì)eb頁進(jìn)行分類、預(yù)測(cè)用戶的eb鏈接使用及eb鏈接屬性的可視化。對(duì)各個(gè)商業(yè)搜索引擎索引用的頁數(shù)量進(jìn)行統(tǒng)計(jì)分析等。2.3eb使用記錄挖掘eb使用記錄挖掘是指從eb的使用記錄中提取感興趣的模式,目前eb使用記錄挖掘方面的研究較多,中的每個(gè)服務(wù)器都保留了訪問日志,記錄了關(guān)于用戶訪問和交互的信息,可以通過分析和研究eb日志記錄中的規(guī)律,來識(shí)別網(wǎng)站的潛在用戶1;可以用基于擴(kuò)展有向樹模型來識(shí)別用戶瀏覽序列模式,從而進(jìn)行eb日志挖

5、掘;可以根據(jù)用戶訪問的eb記錄挖掘用戶的興趣關(guān)聯(lián)規(guī)則,存放在興趣關(guān)聯(lián)知識(shí)庫中,作為對(duì)用戶行為進(jìn)行預(yù)測(cè)的依據(jù),從而為用戶預(yù)取一些eb頁面,加快用戶獲取頁面的速度,分析這些數(shù)據(jù)還可以幫助理解用戶的行為,從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。3eb日志挖掘步驟eb日志挖掘流程如圖2所示:圖2eb日志挖掘流程3.1eb日志記錄的主要內(nèi)容eb服務(wù)器日志記錄用戶訪問該教學(xué)網(wǎng)站時(shí)每個(gè)頁面的請(qǐng)求信息。3.2數(shù)據(jù)預(yù)處理eb日志挖掘首先要對(duì)日志中的原始數(shù)據(jù)進(jìn)行預(yù)處理,包括依賴于域的數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別和路徑補(bǔ)充等。預(yù)處理過程是保證eb日志挖掘質(zhì)量的關(guān)鍵步驟。(1)數(shù)據(jù)凈化。指刪除eb服務(wù)器日志中與

6、挖掘算法無關(guān)的數(shù)據(jù)。大多數(shù)情況,只有日志中HTL文件與用戶會(huì)話相關(guān),所以通過檢查URL的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。例如,對(duì)于一個(gè)主要包含圖形文檔的站點(diǎn),此時(shí)就不能將圖形文件刪除,而是自定義一套規(guī)則將它對(duì)應(yīng)到一定的HTL文件,這樣就不會(huì)將一些重要的用戶會(huì)話丟失。(2)識(shí)別用戶。由于本地緩存、代理服務(wù)器和防火墻的存在,使得識(shí)別用戶的任務(wù)變得很復(fù)雜。一般最常被eb日志挖掘工具使用的技術(shù)就是基于日志/站點(diǎn)的方法,例如可以使用了一些啟發(fā)式規(guī)則幫助識(shí)別用戶。1)如果IP地址相同,但是日志中表明用戶的瀏覽器或操作系統(tǒng)改變了,則認(rèn)為不同的代理表示不同的用戶。2)將日志和網(wǎng)站拓?fù)浣Y(jié)構(gòu)結(jié)合,構(gòu)造用戶的瀏覽路徑。如

7、果當(dāng)前請(qǐng)求的頁面同用戶已瀏覽的頁面間沒有鏈接關(guān)系,則認(rèn)為存在IP地址相同的多個(gè)用戶。(3)識(shí)別用戶會(huì)話。用戶會(huì)話是指用戶對(duì)服務(wù)器的一次有效訪問,通過其連續(xù)請(qǐng)求的頁面。我們可以獲得他在網(wǎng)站中的訪問行為和瀏覽興趣。日志文件中不同的頁面當(dāng)然屬于不同的會(huì)話。當(dāng)用戶的頁面請(qǐng)求在時(shí)間上跨度較大時(shí),就可能是該用戶多次訪問同一個(gè)網(wǎng)站。這里可以利用超時(shí),如果兩頁間請(qǐng)求時(shí)間的差值超過一定界限就認(rèn)為用戶開始了一個(gè)新的會(huì)話。(4)識(shí)別片段。在識(shí)別用戶會(huì)話過程中的另一個(gè)問題是確定訪問日志中是否有重要的請(qǐng)求沒有被記錄.這就是路徑補(bǔ)充所做的工作,解決的方法類似于用戶識(shí)別中的方法。如果當(dāng)前請(qǐng)求頁與用戶上一次請(qǐng)求頁之間沒有超文

8、本鏈接,那么用戶很可能使用了瀏覽器上的“BAK”按鈕調(diào)用緩存在本機(jī)中的頁面。檢查引用日志確定當(dāng)前請(qǐng)求來自哪一頁,如果在用戶的歷史訪問記錄上有多個(gè)頁面都包含與當(dāng)前請(qǐng)求頁的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁的頁面作為當(dāng)前請(qǐng)求的來源。若引用日志不完整,可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過這種方法將遺漏的頁面請(qǐng)求添加到用戶的會(huì)話文件中。3.3模式發(fā)現(xiàn)模式發(fā)現(xiàn)是運(yùn)用各種算法和技術(shù)對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。這些技術(shù)包括人工智能、數(shù)據(jù)挖掘、統(tǒng)計(jì)理論、信息論等多領(lǐng)域的成熟技術(shù)??梢赃\(yùn)用數(shù)據(jù)挖掘中的常用技術(shù)如路徑分析,關(guān)聯(lián)規(guī)則、序列模式以及分類聚類等等。3.4模式分析該階段實(shí)現(xiàn)對(duì)用戶訪問模式的分析,基本作

9、用是排除模式發(fā)現(xiàn)中沒有價(jià)值的規(guī)則模式,從而將有價(jià)值的模式提取出來。ebining指在上挖掘有趣的、潛在的、有用的模式和信息的過程。其主要目標(biāo)則是從eb網(wǎng)站的訪問日志記錄中獲取感興趣的模式,每個(gè)eb服務(wù)器都能有訪問日志文件,它記錄了訪問者的訪問和交互的信息。通過分析這些數(shù)據(jù)可以幫助網(wǎng)站管理者理解用戶的行為和eb結(jié)構(gòu),了解用戶的瀏覽習(xí)慣,調(diào)整從而改進(jìn)站點(diǎn)的設(shè)計(jì)。4.1eb日志信息對(duì)于一個(gè)特定的網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站來說,其拓?fù)浣Y(jié)構(gòu)是已知的,雖然不同的學(xué)習(xí)者可能有不同的訪問瀏覽模式,但從長期統(tǒng)計(jì)趨勢(shì)上說他們是穩(wěn)定的,所以經(jīng)過一段時(shí)間后會(huì)在網(wǎng)站上積累大量有用的信息(如用戶的訪問日志、注冊(cè)信息、需求信息、定單

10、信息、交流信息等),如果不加以有效利用,會(huì)造成了資源的極大浪費(fèi)。如果采用ebining技術(shù)就可以充分利用這些有用信息,從而建立一個(gè)集智能化與個(gè)性化為一體的遠(yuǎn)程教學(xué)平臺(tái)。這些數(shù)據(jù)信息包含在以下幾種類型的日志文件中。Serverlg:格式如下:域描述日期用戶請(qǐng)求頁面的日期時(shí)間用戶請(qǐng)求頁面的具體時(shí)間用戶IP客戶端主機(jī)IP地址或DNS入口用戶名客戶端的用戶名字節(jié)數(shù)傳輸?shù)淖止?jié)數(shù)(發(fā)送或接受)服務(wù)器名服務(wù)器名稱、IP地址和端口號(hào)方法用戶請(qǐng)求的方法協(xié)議狀態(tài)返回HTTP的狀態(tài)標(biāo)識(shí)URL用戶請(qǐng)求的頁面所花時(shí)間完成瀏覽所花時(shí)間協(xié)議版本傳輸所用的協(xié)議版本用戶代理服務(wù)器提供kiekie標(biāo)志號(hào)參照用戶瀏覽的上一面表1服

11、務(wù)器日志文件中的數(shù)據(jù)格式Errrlg:存取請(qǐng)求失敗的數(shù)據(jù),如:丟失連接,授權(quán)失敗,或超時(shí)。kie:由ebserver產(chǎn)生的記號(hào)并由客戶端持有,用于表示學(xué)習(xí)者和學(xué)習(xí)者的會(huì)話,kie是一種標(biāo)記,用于自動(dòng)標(biāo)記和跟蹤站點(diǎn)的訪問者。4.2網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站eb日志挖掘數(shù)據(jù)的預(yù)處理從學(xué)習(xí)者的訪問日志中得到的原始日志記錄并不適于挖掘,必須進(jìn)行適當(dāng)?shù)奶幚聿拍苓M(jìn)行挖掘。因此,需要通過日志清理,去除無用的記錄;對(duì)于某些記錄,我們還需要通過站點(diǎn)結(jié)構(gòu)信息,把URL路徑補(bǔ)充成完整的訪問序列;然后劃分學(xué)習(xí)者,并把學(xué)習(xí)者的會(huì)話劃分成多個(gè)事務(wù)。4.3網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站eb日志數(shù)據(jù)挖掘的模式發(fā)現(xiàn)一旦學(xué)習(xí)者會(huì)話和事務(wù)識(shí)別完成,就可以

12、采用下面的技術(shù)進(jìn)行模式發(fā)現(xiàn)。路徑分析它可以被用于判定在一個(gè)站點(diǎn)中最頻繁訪問的路徑,還有一些其它的有關(guān)路徑的信息通過路徑分析可以得出。例如:70%的學(xué)習(xí)者在訪問/E-Business/2時(shí),是從/EB開始,經(jīng)過/E-Business/SipleDesriptin,/E-Business/1;65%的學(xué)習(xí)者在瀏覽4個(gè)或更少的頁面內(nèi)容后就離開了。利用這些信息就可以改進(jìn)站點(diǎn)的設(shè)計(jì)結(jié)構(gòu)。關(guān)聯(lián)規(guī)則使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,可以從eb的訪問事務(wù)中找到如下的相關(guān)性:40%的學(xué)習(xí)者訪問頁面/E-Business/2時(shí),也訪問了/E-Business/7;30%的用戶在訪/E-Business/SipleDesrip

13、tin時(shí),同時(shí)也訪問了/E-Business/referene。利用這些相關(guān)性,可以更好的組織站點(diǎn)的eb空間,實(shí)行有效的教學(xué)策略。序列模式在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指那些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。例如:在訪問/E-Business/2的用戶中,有80%的人曾在過去的一個(gè)星期里用關(guān)鍵字“液晶顯示器”在baidu上作過查詢。發(fā)現(xiàn)序列模式,能夠便于預(yù)測(cè)學(xué)習(xí)者的訪問模式,有助于針對(duì)這種模式,開展有針對(duì)性的教學(xué)。分類和聚類發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描述,這種描述可以用于分類學(xué)習(xí)者。例如:在/E-Business/4學(xué)習(xí)過的學(xué)習(xí)者中有40是20左右的

14、女大學(xué)生。聚類分析可以從eb訪問信息數(shù)據(jù)中聚類出具有相似特性的學(xué)習(xí)者。在eb事務(wù)日志中,聚類學(xué)習(xí)者信息或數(shù)據(jù)項(xiàng)能夠便于開發(fā)和設(shè)計(jì)未來的教學(xué)模式和學(xué)習(xí)群體。4.4網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站中eb日志數(shù)據(jù)挖掘的模式分析模式分析是eb日志挖掘中最后一項(xiàng)重要步驟。其通過選擇和觀察把發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計(jì)值轉(zhuǎn)換為知識(shí),再經(jīng)過模式分析得到有價(jià)值的模式,即我們感興趣的規(guī)則、模式,采用可視化技術(shù),以圖形界面的方式提供給使用者。進(jìn)一步的工作我們可以將eb訪問日志的挖掘和其他的eb內(nèi)容和eb鏈接結(jié)構(gòu)挖掘結(jié)合起來用于eb頁面的等級(jí)劃分、eb文檔的分類和多層次eb信息庫的構(gòu)造等方面,總之對(duì)eb數(shù)據(jù)進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘是非常有意義的。當(dāng)然,數(shù)據(jù)挖掘所帶來的好處,是與用戶的需求及數(shù)據(jù)挖掘技術(shù)本身的發(fā)展相關(guān)的。在充分了解學(xué)習(xí)者的愛好、需求的基礎(chǔ)上。利用各種eb挖掘技術(shù),設(shè)計(jì)出能滿足不同用戶群體需

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論