




已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
從貨籃分析談數(shù)據挖掘新聞傳播學院 張悅 09523467關鍵詞:貨籃 數(shù)據 摘要:貨籃分析關聯(lián)規(guī)則的基本概念數(shù)據挖掘數(shù)據挖掘定義的解釋數(shù)據淘金金蘋果文庫數(shù)據淘金之方法篇數(shù)據淘金之工業(yè)應用篇數(shù)據淘金之社會篇數(shù)據淘金之科研篇1、 貨籃分析全球最大的零售商沃爾瑪(Walmart)通過對某地區(qū)顧客購物的數(shù)據分析后發(fā)現(xiàn),很多周末購買尿布的顧客也同時購買啤酒。經過深入研究后發(fā)現(xiàn),該地區(qū)家庭買尿布的大多是孩子爸爸。孩子爸爸們下班后要到超市買尿布,同時要“順手牽羊”帶走啤酒,好在周末看棒球賽的同時過把酒癮。后來沃爾瑪?shù)倪@個連鎖店就把尿布和啤酒擺放得很近,從而雙雙促進了尿布和啤酒的銷量。這個故事被公認是商業(yè)領域知識發(fā)現(xiàn)的典故。2、關聯(lián)規(guī)則的基本概念一個關聯(lián)規(guī)則是形如XY的蘊涵式,這里XI, YI,并且XY=F。規(guī)則XY在交易數(shù)據庫D中的支持度(support)是交易集中同時包含X和Y的交易數(shù)與所有交易數(shù)之比,記為support(XY),即 support(XY)=|T:XYT,TD|/|D|規(guī)則XY在交易集中的可信度(confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比,記為confidence(XY),即 confidence(XY)=|T: XYT,TD|/|T:XT,TD|關聯(lián)規(guī)則基本模型與概念設I=i1, i2, im為所有項目的集合,D為事務數(shù)據庫,事務T 是一個項目子集(TI),每個事務具有惟一的標識Tid(如交易號). 設A是一個I中項的集合,如果AT,那么稱交易T包含A。若A中包含k個項目,稱其為k項集.l 項集A在事務數(shù)據庫D中出現(xiàn)的次數(shù)占D中總事務的百分比叫做項集的支持度.l 如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集(大項集) 規(guī)則實例For rule A C:support = support(A &C) = 50%confidence = support(A &C)/support(A) = 66.6%l 強規(guī)則l 如果不考慮關聯(lián)規(guī)則的支持度和可信度,那么在事務數(shù)據庫中存在無窮多的關聯(lián)規(guī)則。事實上,人們一般只對滿足一定的支持度和可信度的關聯(lián)規(guī)則感興趣。一般稱滿足一定要求的(如較大的支持度和可信度)的規(guī)則為強規(guī)則。因此,為了發(fā)現(xiàn)出有意義的關聯(lián)規(guī)則,需要給定兩個閾值:最小支持度和最小可信度。l 最小支持度表示了一組物品集在統(tǒng)計意義上的需滿足的最低程度;最小可信度反應了關聯(lián)規(guī)則的最低可靠度。l Apriori算法l 是關聯(lián)規(guī)則模型中的經典算法l 源于算法使用了頻繁項集性質的先驗(Prior)知識.l 分兩步:1. 通過迭代,檢索出事務數(shù)據庫中所有頻繁項集.2. 利用頻繁項集構造出滿足最小信任度閾值的規(guī)則.其中挖掘和識別出所有頻繁項集是該算法的核心,占整個計算量的大部分.l 由m個項目形成的不同項集達2m-1個,是個NP 完全問題.l 潛在頻繁k項集集合Ck,頻繁k項集集合Lk, m個項目構成的k項集集合Cmk,則Lk Ck Cmk The Apriori principle:Any subset of a frequent itemset must be frequent 非頻繁項集的超集一定是非頻繁的 數(shù)據挖掘 Data Mining數(shù)據挖掘 知識發(fā)現(xiàn) 是什么l 隨著計算機應用及互聯(lián)網的日益普及,人們面對“被數(shù)據淹沒, 卻又饑餓于知識(豐富的數(shù)據與貧乏的知識)”的挑戰(zhàn), 不同領域的人們都期待從海量數(shù)據中挖掘出知識,將豐富的信息變?yōu)橹R,這就產生了“數(shù)據挖掘與知識發(fā)現(xiàn)”學科。 l 運用數(shù)據挖掘技術在海量數(shù)據中我們可以挖出“金子”來。 數(shù)據挖掘與知識發(fā)現(xiàn)數(shù)據挖掘DM(Data Mining)只是數(shù)據庫中知識發(fā)現(xiàn)KDD(Knowledge Discovery in DataBase )的一個步驟,但又是最重要的一步。因此,往往可以不加區(qū)別地使用知識發(fā)現(xiàn)和數(shù)據挖掘。一般在研究(人工智能)領域被稱作數(shù)據庫中知識發(fā)現(xiàn),在工程領域(統(tǒng)計界 )則稱之為數(shù)據挖掘知識發(fā)現(xiàn)(數(shù)據挖掘)的定義The non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data - Fayyad, Platetsky-Shapiro, Smyth (1996) 在1995年第一屆KDD大會上給出了KDD的定義:“非平凡地抽取數(shù)據中隱含的、先前未知的、潛在有用的知識”123。 1 G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991 2 U. M. Fayyad, G. Platetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. 3 G. Piatetsky-Shapiro, U. Fayyad, and P. Smith. From data mining to knowledge discovery: An overview. In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, 1-35. AAAI/MIT Press, 1996 知識發(fā)現(xiàn)(數(shù)據挖掘)的定義l 目前公認的定義是由Fayyad等人提出的。 所謂基于數(shù)據庫的知識發(fā)現(xiàn)(KDD) 是指從大量數(shù)據中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。 定義解釋l 有效的:指發(fā)現(xiàn)的模式有一定的可信度,模式E的可信度c=C(E,F)l 新穎的:要求發(fā)現(xiàn)的模式應該是新的, N(E,F)。 l 潛在有用的:指提取的模式將來有實際效用,u=U(E,F)l 可理解的:要求發(fā)現(xiàn)的模式能被用戶理解,目前它主要是體現(xiàn)在簡潔性上, s=S (E,F)。 l 非平凡:是要有一定程度的智能性、自動性. l 過程:通常指多階段的一個過程,涉及數(shù)據準備、預處理、模式提取、知識評價,以及反復的修改求精,過程優(yōu)化;l 有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱之為感興趣度。l 通常采用權值綜合評判i=I(E,F,C,N,U,S) l KDD過程l 是一個反復迭代的人機交互處理過程。l 可粗略地理解為三部曲:數(shù)據準備(data preparation)、數(shù)據挖掘( Data Mining ),以及結果的解釋評估(interpretation and evaluation)。 知識發(fā)現(xiàn)過程l KDD工作步驟數(shù)據 目標數(shù)據 處理數(shù)據 變換后數(shù)據 模式 知識 l KDD工作步驟數(shù)據準備:了解相關領域的有關情況,熟悉背景知識,弄清用戶要求。數(shù)據選?。焊鶕髲臄?shù)據庫中提取相關的數(shù)據。數(shù)據預處理:主要對前一階段產生的數(shù)據進行再加工,檢查數(shù)據的完整性及數(shù)據的一致性,對其中的噪音數(shù)據進行處理,對丟失的數(shù)據進行填補。 數(shù)據挖掘:運用選定的知識發(fā)現(xiàn)算法,從數(shù)據中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。知識評估:將發(fā)現(xiàn)的知識以用戶能理解的方式呈現(xiàn),根據需要對知識發(fā)現(xiàn)過程中的某些處理階段進行優(yōu)化,直到滿足要求。l KDD過程中的階段l 數(shù)據準備:熟悉背景知識,搞清用戶需求 relevant prior knowledge and goals of applicationl 數(shù)據選取(data selection) :生成目標數(shù)據集l 數(shù)據清洗和預處理 :檢查數(shù)據的完整性和一致性.消除噪聲,濾除冗余數(shù)據,填充丟失數(shù)據(may take 60% of effort!)l 數(shù)據縮減和變換(根據KDD的任務) Find useful features, dimensionality/variable reduction, invariant representation.l 確定KDD目標:根據用戶要求,確定KDD要發(fā)現(xiàn)的知識類型,選擇數(shù)據挖掘功能. summarization, classification, regression, association, clustering.l 選擇挖掘算法(包括模式和參數(shù)):根據數(shù)據特點和用戶需求.l 數(shù)據挖掘:運用所選擇的算法,從數(shù)據庫中提取用戶感興趣的知識,并以一定的方式表示出來. search for patterns of interestl 模式評估:剔除冗余或無關模式,往往反復提取 visualization, transformation, removing redundant patterns, etc.l 數(shù)據挖掘怎么做?l 根據數(shù)據挖掘的方法分,可粗分為:統(tǒng)計方法、機器學習方法、神經網絡方法和數(shù)據庫方法。統(tǒng)計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關分析法等)、以及模糊集、粗糙集、支持向量機等。機器學習中,可細分為:歸納學習方法(決策樹、規(guī)則歸納等)、基于范例的推理CBR、遺傳算法、貝葉斯信念網絡等。神經網絡方法,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競爭學習等)等。數(shù)據庫方法主要是基于可視化的多維數(shù)據分析或OLAP方法,另外還有面向屬性的歸納方法。 l 數(shù)據淘金金蘋果文庫l 方法篇 用電腦從數(shù)據中挖掘有用信息來發(fā)財在傳統(tǒng)的統(tǒng)計數(shù)學方法失靈時另起爐灶數(shù)據挖掘的步驟 模式識別法:在多維空間中看圖像人工神經網絡方法:利用軟件技術模擬人的神經網絡遺傳算法:模仿生物進化的尋優(yōu)算法模糊數(shù)學方法:先模糊,后清晰聚類分析方法:先分類,再研究支持向量機算法:數(shù)據樣本偏少時的“絕招”“十八般武藝一起上”l 數(shù)據淘金金蘋果文庫l 工業(yè)應用篇石油化工生產:應用數(shù)據挖掘最廣泛最有效鋼鐵生產:建設鋼鐵強國需要數(shù)據挖掘化工生產:提高收率,降低成本,防治污染催化劑研制:總結試驗數(shù)據中的規(guī)律新材料、新產品試制:建設“材料智能數(shù)據庫”新藥研制:藥物的分子設計機器檢修:建造機器故障診斷“專家系統(tǒng)”汽車制造:改善零部件質量的捷徑機器人研制:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項目管理考試的技能要求及試題答案
- 思政類創(chuàng)新課題申報書
- 項目成功評價的試題及答案
- 學期心理健康檔案管理計劃
- 加強教師職業(yè)道德的教研活動計劃
- 分析項目管理考試的備考信條與策略試題及答案
- 2025年銀行從業(yè)資格證考試判斷題試題與答案
- 稅務風險管理基本概念試題及答案
- 課題申報書 雙面
- 探索項目實施的控制與調整的關鍵考題試題及答案
- 深層平板載荷試驗檢測地基承載力作業(yè)指導書
- (完整)EHS培訓考核題庫及答案
- 急性肺損傷急性呼吸窘迫綜合征診斷治療指南(2022年)
- 學校財務預算管理制度(5篇)
- 愛在平淡細微處-初中感悟親情作文課件
- 機電一體化畢業(yè)論文范文(精選十五篇)
- (讀書筆記)禮物的流動:一個中國村莊中的互惠原則和社會網絡
- 《醫(yī)療垃圾的分類》課件
- 江蘇師范大學成人繼續(xù)教育網絡課程《英語》單元測試及參考答案
- 雙堿法脫硫操作規(guī)程
- 全國中學生物理競賽及實驗課件
評論
0/150
提交評論