


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、福建電腦2010年第10期數(shù)據(jù)挖掘在數(shù)據(jù)分析中的應(yīng)用鄭頻捷(福建泉州兒童發(fā)展職業(yè)學(xué)院福建 泉州362000)【 摘要 】:本文圍繞著教師多媒體軟件使用情況方面的四個問題, 演示了數(shù)據(jù)挖掘的過程, 重點闡述了如何利用數(shù)據(jù)挖掘工具, 對挖掘結(jié)果的分類、 測試檢驗、 算法修改等操作, 并將分類特征可視化, 最終針對挖掘結(jié)果進行了分析, 得出結(jié)論 。 對于數(shù)據(jù)挖掘在數(shù)據(jù)分析中的應(yīng)用, 本文做了很好的示范?!?關(guān)鍵詞 】:數(shù)據(jù)挖掘數(shù)據(jù)分析信息社會的到來對數(shù)據(jù)的篩選和利用提出了更高要求 , 而海量數(shù)據(jù)的出現(xiàn)又使得人們用傳統(tǒng)數(shù)據(jù)處理的方法無從下手, 此時必然要求有更為先進的數(shù)據(jù)處理技術(shù) 。所謂數(shù)據(jù)挖掘(da
2、ta mining)1就是從大量、 不完全 、有噪聲 、 模糊 、 隨機的數(shù)據(jù)中發(fā)現(xiàn)隱含數(shù)據(jù)中的關(guān)系,建立模型, 提取具有潛在價值、 可信 、 新穎 、 有效并能被人所理解的信息和知識的過程, 通俗的講, 就是從大型數(shù)據(jù)庫提取有效、 可信和可行信息的過程。 它又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(kdd: knowledge discoveryin database)、數(shù)據(jù)分析、 數(shù)據(jù)融合(data fusion)、 決策支持等 。 它是一門交叉性學(xué)科, 涉及到機器學(xué)習(xí)、 神經(jīng)網(wǎng)絡(luò) 、 模式識別 、 歸納推理、 統(tǒng)計學(xué) 、 數(shù)據(jù)庫 、 數(shù)據(jù)可視化、高性能并行等多個領(lǐng)域的相關(guān)技術(shù)。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析工
3、具的主要區(qū)別在于探索數(shù)據(jù)關(guān)系時所用的方法不同。 傳統(tǒng)數(shù)據(jù)分析工具使用基于驗證的方法, 即用戶首先對特定的數(shù)據(jù)關(guān)系做出假設(shè) , 然后用分析工具去確認(rèn)或否定這些假設(shè)。 這種方法的有效性受到很多因素的限制。 與分析工具相反,數(shù)據(jù)挖掘使用基于發(fā)現(xiàn)的方法, 運用模式匹配和其他算法決定數(shù)據(jù)之間的重要聯(lián)系。一.挖掘流程數(shù)據(jù)挖掘的整個過程可以描述成四個步驟:1.問題定義清晰地定義出業(yè)務(wù)問題, 認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。 在問題定義過程中, 數(shù)據(jù)挖掘人員必須和領(lǐng)域?qū)<揖o密協(xié)作, 明確實際工作對數(shù)據(jù)挖掘的要求, 并通過各種算法的比較, 選擇合適的算法進行挖掘。2.數(shù)據(jù)準(zhǔn)備1)數(shù)據(jù)的選擇: 搜索所有與
4、業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息, 并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù) 。2)數(shù)據(jù)的預(yù)處理: 研究數(shù)據(jù)的質(zhì)量, 進行數(shù)據(jù)再加工, 包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、 去除噪聲 , 填補丟失的域, 刪除無效數(shù)據(jù), 為進一步的分析作準(zhǔn)備 , 并確定將要進行的挖掘操作的類型。3)數(shù)據(jù)的轉(zhuǎn)換: 將數(shù)據(jù)轉(zhuǎn)換成一個分析模型, 從而減少數(shù)據(jù)維數(shù)或降維, 即從初始特征中找出真正有用的特征 , 以減少數(shù)據(jù)挖掘時要考慮的特征或變量個數(shù)。這個分析模型是針對挖掘算法建立的, 而建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。3.數(shù)據(jù)挖掘根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點選擇相應(yīng)的算法( 如神經(jīng)元網(wǎng)絡(luò)、 決策樹
5、 、 聚類分析技術(shù)、 關(guān)聯(lián)發(fā)現(xiàn)和序列發(fā)現(xiàn)技術(shù)), 在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘,搜索或產(chǎn)生一個特定的感興趣的模式或一個特定的數(shù)據(jù)集。4.結(jié)果分析該步驟是對數(shù)據(jù)挖掘發(fā)現(xiàn)的模式或數(shù)據(jù)集進行解釋和評價, 生成一個相對最優(yōu)模型, 并對此模型用業(yè)務(wù)語言加以解釋, 把有用的知識呈現(xiàn)給用戶。 但數(shù)據(jù)挖掘階段發(fā)現(xiàn)出的模式也可能不滿足用戶要求, 這時需要整個發(fā)現(xiàn)過程回退到前一階段, 如重新選取數(shù)據(jù)、 設(shè)定新的參數(shù)、 換用一種挖掘算法等。由此可見, 數(shù)據(jù)挖掘過程是多個步驟相互連接、 反復(fù)進行人機交互的過程。在本文的研究中, 圍繞著教師多媒體軟件使用情況進行挖掘分析, 設(shè)置了以下四個相關(guān)方面的問題,以期得出
6、相關(guān)的結(jié)論:1) 你使用過powerpoint嗎 ?a) 從不b) 很少c) 經(jīng)常2)你使用過flash嗎 ?a) 從不b) 很少c) 經(jīng)常3)你使用過authorware嗎?a) 從不b) 很少c) 經(jīng)常4) 使用photoshop進行圖片制作情況1042010年第10期福建電腦a) 不會b) 會 , 但不經(jīng)常使用c) 會 , 并且經(jīng)常獨立使用二.挖掘過程在前期工作中, 針對以上四個問題, 我們通過問卷形式 , 面向幼兒園教師收集了大量的資料, 并將這些資料采用excel文件存儲下來, 表名為信息知識與技能,相 關(guān) 字 段 為使 用powerpoint情 況(ppt)、使 用flash情 況
7、(flash)、使 用authorware情 況(aw)、photoshop制作(psdzz),本文主要利用microsoft sqlserver 2005 analysis services(ssas) 所提供的算法進行挖掘處理。1. 教師多媒體軟件使用情況挖掘模型設(shè)計(1) 指定列的用法我們指定數(shù)據(jù)源中信息知識與技能(zsjn) 為事例表 , 如上面文字所示, 從中提取出ppt、flash、aw、psdzz四個列組成挖掘結(jié)構(gòu), 列屬性均為in -put and predict。(2) 挖掘算法的選擇及其參數(shù)設(shè)置在此我們利用挖掘, 了解教師對于四種多媒體軟件的了解、 掌握程度 , 并自動分成
8、具有顯著特征的若干個類別 , 然后找出每個類別中的共性, 也就是說通過挖掘 , 希望能將教師進行分類。 針對選項式的調(diào)查, 比較關(guān)聯(lián)算法和聚類算法, 在次我們認(rèn)為聚類分析挖掘算法最為合適。根 據(jù) 聚 類 分 析 挖 掘 算 法 的 屬 性 設(shè) 置 , 我 們 將cluster_count修改為0, 為了最準(zhǔn)確地確定要生成的分類數(shù)。2.挖掘結(jié)果的圖示在microsoft聚類方法挖掘結(jié)果的圖示中, 包含了分類關(guān)系圖、分類剖面圖、分類特征和分類對比。其中分類關(guān)系圖可以顯示挖掘模型中的所有分類, 兩個分類之間連線的明暗度表示分類的相似程度;分類剖面圖可以提供模型中的算法創(chuàng)建的分類的總體視圖;分類特征中
9、選擇分類后, 可以檢查特定分類的組成特征 ;分類對比可以用來比較兩個分類的屬性2。圖2 教師多媒體軟件使用情況分類剖面圖圖2為教師多媒體軟件使用情況分類剖面圖, 其中使 用powerpoint情 況(ppt)、使 用flash情 況(flash)、使 用authorware情 況(aw)、photoshop制作(psdzz) 四個變量的各個選項已經(jīng)轉(zhuǎn)化為中文含義。當(dāng)點擊aw分類1時 , 在挖掘圖例中會顯示各個顏色的含義以及各含義的分布比例。 其中 , 為了增強挖掘結(jié)果的直觀性, 參照附錄, 我們利用sql語言 , 在數(shù)據(jù)庫中把字段的值修改成對應(yīng)的中文含義, 如aw字段中a值改為從不,b值改為很
10、少,c值改為經(jīng)常。依此類推 , 將flash、powerpoint、psdzz字段的值都改成對應(yīng)的中文含義。3.挖掘結(jié)果的檢驗為了檢驗挖掘準(zhǔn)確性, 我們設(shè)計了測試數(shù)據(jù)源test.dsv, 并將其作為事例表導(dǎo)入表中, 觀察提升圖, 發(fā)現(xiàn)總體正確率偏低, 如圖3所示結(jié)果。圖3 教師多媒體軟件使用情況挖掘提升圖從挖掘提升圖中我們可以看到, 當(dāng)總體為100時, 預(yù)測的正確率還不到40。 顯然 , 這么低的正確率無法滿足研究要求,聚類方式挖掘算法的參數(shù)需要改正, 根據(jù)聚類挖掘中參數(shù)設(shè)置, 我們嘗試用其他聚類挖掘算法 : 將clustering_method的值修改為3, 即采用scalable k-me
11、ans算法 , 此時產(chǎn)生的挖掘提升圖如圖4所示 , 總體正確率和預(yù)測概率都提高了, 分別為62.5和65.22。圖4修改后的挖掘提升圖4.分類特征的可視化從圖5所顯示的分類剖面圖可以明顯看出, 顏色塊大的部分, 所占總數(shù)的比例越大, 如在分類1中 ,ppt取值為很少的狀態(tài)基本上占了所有的比例,意味著該分類中ppt的取值特點為很少。105福建電腦2010年第10期圖5修改后的分類剖面圖我們從分類特征圖6中可以看到各變量的取值具體所占比例, 還可以看出各個分類中最顯著的特征。圖6 教師多媒體軟件使用情況分類特征而分類與分類之間的比較, 則可以通過分類對比圖來觀察。 比如圖7所示的分類2與其他分類之
12、間的對比關(guān)系, 從中看出分類2與其他分類的區(qū)別。圖7分類2和非分類2的對比分?jǐn)?shù)圖因此 , 我們可以利用挖掘提升圖來判斷挖掘手段是否合理, 利用分類剖面圖可以觀察到所有分類中各值的分布大致情況, 還可以從分類特征圖和對比分?jǐn)?shù)圖看出該分類的最大特點。5.挖掘結(jié)果的分析通過圖5圖7來看 , 我們發(fā)現(xiàn):分 類1: 教 師 很 少 使 用powerpoint, 且 很 少 使 用photoshop和flash, 大部分沒用過authorware。 可以看出 , 這部分教師會一些基本的多媒體工具, 有一定的操作能力 , 但沒有學(xué)習(xí)過authorware, 因此確定這部分教師制作課件能力較差,需要全方位的進
13、行培訓(xùn)。分類2: 教師會經(jīng)常使用powerpoint來制作課件,但很少使用authorware和flash,對于photoshop制作能力也不行。 因此可以認(rèn)為, 這部分教師只會使用powerpoint來進行簡單的課件制作, 可以從課件制作、素材制作等方面來提升。分類3: 這 類 的 教 師 能 經(jīng) 常 使 用powerpoint, 但 對于authorware和flash也是很少使用, 甚至從沒用過,而經(jīng)常使用photoshop的教師占了總數(shù)將近一半。 意味著這部分教師能經(jīng)常使用powerpoint, 能使用photo-shop,有一定的技術(shù)性,因此針對這類教師,應(yīng)加強課件制作能力的培訓(xùn)。分
14、類4: 教師基本上不用authorware、photoshop或powerpoint, 只有部分教師偶爾做一些flash, 正說明了這部分教師在制作課件方面能力普遍較差, 但對flash制作有一定的興趣, 可以針對教師的興趣點, 增加flash方面的培訓(xùn)。分類5: 所有教師都能經(jīng)常使用photoshop, 但很少使用authorware、flash和powerpoint, 可以這樣理解-這類教師主要是把信息技術(shù)應(yīng)用到個人興趣、 生活需要上 , 有一定的信息處理能力, 因此可以通過較短期的培訓(xùn) , 提高使用authorware課件制作能力, 增加實踐的機會 。因此相信在幼兒園里還是一部分教師, 能主動使用多媒體軟件制作課件, 雖然只是簡單的powerpoint,但還是看到了信息推廣的希望, 也是今年來學(xué)院重視學(xué)以致用的成果;photoshop還是有更多人會使用, 正是因為其實用性強, 與教師的實際生活、 教學(xué)需要有聯(lián)系 , 如相片處理、 圖片編輯等等; 而flash正是由于網(wǎng)絡(luò)的推廣, 且自身的優(yōu)勢, 讓更多人意識到其好處, 因此能很好的吸引了教師的眼球; 而authorware這個相對專業(yè)的課件制作軟件, 教師對其倒是知之甚少, 正好反映了廣大教師在信息技術(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- MoS2-MXene@CNTs-nZVI活化過硫酸鹽去除水中二嗪農(nóng)的研究
- 促進體育文化與全民健身服務(wù)的融合發(fā)展
- 綠色園區(qū)社會責(zé)任與企業(yè)形象塑造
- 家庭教育服務(wù)與社區(qū)互動的優(yōu)化策略
- 2025至2030年中國燈飾板行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國殺青理條機行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國一層板行業(yè)投資前景及策略咨詢報告
- 水稻產(chǎn)業(yè)對鄉(xiāng)村振興模式的推動作用研究
- 輪胎生產(chǎn)線項目可行性研究報告(模板)
- 化肥企業(yè)經(jīng)營管理方案
- 安全法生產(chǎn)試題及答案
- 購買私人地皮合同范本
- 2025年04月廣東惠州市惠陽區(qū)教育局選調(diào)下屬事業(yè)單位工作人員15人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 短期護工合同協(xié)議書
- 安徽航瑞國際滾裝運輸有限公司招聘筆試題庫2025
- T/CWPIA 2-2020戶外重組竹地板鋪裝技術(shù)規(guī)范
- 2025年英語四級考試模擬試卷及答案
- 護理倫理實踐路徑分析
- 養(yǎng)老消防安全試題及答案
- 2025年下半年北京大興區(qū)地震局招聘臨時輔助用工擬聘用人員易考易錯模擬試題(共500題)試卷后附參考答案
- 2025新版保安員考試試題附含答案
評論
0/150
提交評論