數(shù)據(jù)挖掘與決策支持_第1頁
數(shù)據(jù)挖掘與決策支持_第2頁
數(shù)據(jù)挖掘與決策支持_第3頁
數(shù)據(jù)挖掘與決策支持_第4頁
數(shù)據(jù)挖掘與決策支持_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘與智能決策技術簡介

背景

二十世紀末以來,全球信息量以驚人的速度急劇增長—據(jù)估計,每二十個月將增加一倍。許多組織機構的IT系統(tǒng)中都收集了大量的數(shù)據(jù)(信息)。目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識,數(shù)據(jù)挖掘技術應運而生并顯示出強大的生命力。

背景

數(shù)據(jù)挖掘是八十年代投資AI研究項目失敗后,AI轉(zhuǎn)入實際應用時提出的。它是一個新興的,面向商業(yè)應用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)這一術語。隨后,在1991年、1993年和1994年都舉行KDD專題討論會,匯集來自各個領域的研究人員和應用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算法、知識表示、知識運用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個步驟,其后逐漸演變成KDD的同義詞。

數(shù)據(jù)挖掘定義技術角度的定義數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這一定義包括好幾層含義:數(shù)據(jù)源必須是真實的、海量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。

數(shù)據(jù)挖掘定義商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性信息。簡言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證己知的規(guī)律性,并進一步將其模型化的有效方法。

數(shù)據(jù)倉庫的定義

數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關的、不可修改的數(shù)據(jù)集合。此定義由最為權威的、被稱為“數(shù)據(jù)倉庫之父”的WilliamH.Inmon先生給出。

數(shù)據(jù)內(nèi)容

數(shù)據(jù)庫名(數(shù)據(jù)庫內(nèi)容描述)

注意:信息的完整性;相關業(yè)務人員達成共識。

業(yè)務人員確定

IT人員確定數(shù)據(jù)結(jié)構……...計算機內(nèi)主題數(shù)據(jù)庫數(shù)據(jù)標準化決策支持:從數(shù)據(jù)庫到數(shù)據(jù)倉庫到數(shù)據(jù)集市到……數(shù)據(jù)倉庫的定義

數(shù)據(jù)倉庫是決策支持系統(tǒng)(DecisionSupportSystem,DSS,DSS)的基礎。在數(shù)據(jù)倉庫中只有單一集成的數(shù)據(jù)源,并且數(shù)據(jù)是可訪問的。所以與傳統(tǒng)數(shù)據(jù)庫相比,在數(shù)據(jù)倉庫環(huán)境中DSS分析員的工作將較為容易。

數(shù)據(jù)倉庫的組成一個數(shù)據(jù)倉庫的大小一般都是在100GB以上通常,數(shù)據(jù)倉庫系統(tǒng)應該包含下列程序:(1)抽取數(shù)據(jù)與加載數(shù)據(jù)(2)整理并轉(zhuǎn)換數(shù)據(jù)(采用一種數(shù)據(jù)倉庫適用的數(shù)據(jù)格式)(3)備份與備存數(shù)據(jù)(4)管理所有查詢(即將查詢導向適當?shù)臄?shù)據(jù)源)數(shù)據(jù)倉庫的組成OLAP的定義、特點點60年代,關系數(shù)數(shù)據(jù)庫之父提出了關系模模型,促進了了聯(lián)機事務處處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的的形式而非文文件方式存儲儲)。1993年,提出了OLAP概念,認為OLTP已不能滿足終終端客戶對數(shù)數(shù)據(jù)庫查詢分分析的需要,,SQL對大型數(shù)據(jù)庫庫的簡單查詢詢也不能滿足足終端客戶分分析的要求。??蛻舻臎Q策策分析需要對對關系數(shù)據(jù)庫庫進行大量計計算才能獲得得結(jié)果,而查查詢的結(jié)果并并不能滿足決決策者提出的的需求。因此此,提出了多維數(shù)數(shù)據(jù)庫和多維維分析的概念念,即OLAP。OLAP的定義、特點點OLAP(On-LineAnalysisProcessing)定義是數(shù)據(jù)倉庫上上的分析展示示工具,它建建立在數(shù)據(jù)多多維視圖的基基礎上。OLAP的主要特點一是在線性(OnLine),體現(xiàn)為對用用戶請求的快快速響應和交交互式操作;;二是多維分析析(Multi_Analysis),這是OLAP技術的核心所所在。OLAP的定義和特點點OLAP與OLTP的區(qū)別(1)OLTP主要面向公司司職員;OLAP則主要面向公公司領導者。。(2)OLTP應用主要是用用來完成客戶戶的事務處理理,其數(shù)據(jù)基基礎是操作型型數(shù)據(jù)庫,如如民航訂票系系統(tǒng)、銀行儲儲蓄系統(tǒng)等等等,通常需要要進行大量的的更新操作,,同時對響應應時間要求較較高;而OLAP是以數(shù)據(jù)倉庫庫或數(shù)據(jù)多維維視圖為基礎礎的數(shù)據(jù)分析析處理,是針針對特定問題題的聯(lián)機數(shù)據(jù)據(jù)訪問和分析析,它一般不不對倉庫數(shù)據(jù)據(jù)作修改處理理,而只是查查詢,其應用用主要是對客客戶當前及歷歷史數(shù)據(jù)進行行分析,輔助助領導決策,,其典型的應應用有對銀行行信用卡風險險的分析與預預測、公司市市場營銷策略略的制定等,,主要是進行行大量的查詢詢操作,對時時間的要求不不太嚴格。多維數(shù)據(jù)Salesvolumeasafunctionofproduct,month,andregionProductRegionMonthDimensions:Product,Location,TimeHierarchicalsummarizationpathsIndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay立方體實例TotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum數(shù)據(jù)立方體的的瀏覽VisualizationOLAPcapabilitiesInteractivemanipulation客戶保留目標營銷欺詐檢測購物籃分析客戶細分客戶忠誠度信用打分信用風險評估營銷組合管理和評估盈利能力分析價格優(yōu)化客戶服務自動化銷售收入和需求預測利潤分析交叉銷售和增量銷售活動管理客戶流失分析客戶服務和問題解決業(yè)績和能力管理分銷渠道業(yè)績分析營業(yè)廳和服務商業(yè)績分析流程和質(zhì)量控制稅收監(jiān)控可能受益的商商業(yè)活動數(shù)據(jù)挖掘解決決方案歷史數(shù)據(jù)預測模型新申請者信用等級評價價預測模型::用過去的客客戶數(shù)據(jù)預測測未來理解商業(yè)問題題性別父親的教育程程度被訪者教育程程度工作類型城市當前收入水平平性別父親的教育育程度被訪者教育育程度工作類型城市當前收入水水平當前財政狀狀況未來信用風風險Time1Time2家庭收入銷售數(shù)量喜歡流行音音樂數(shù)據(jù)挖掘解解決方案PreprocessedDataDataTranslatedDataPatterns/ModelsResultsPreprocessingAnalysisInputOutput數(shù)據(jù)挖掘解解決方案主要數(shù)據(jù)挖挖掘技術分類Classification預測Prediction細分Segmentation關聯(lián)Association序列Sequence將您的顧客客和客戶分分類預測未來的的銷量和欺欺詐,流失失將市場、顧顧客細分發(fā)現(xiàn)那些商商品會在一一起銷售或或購買找出時間進進程中的模模式或趨勢勢決策樹規(guī)則偵測回歸分析聚類分析神經(jīng)網(wǎng)絡序列模式DecisionTreesNeuralNetworksRuleInductionNearestNeighborGeneticAlgorithms數(shù)據(jù)挖掘主主要新技術術決策樹神經(jīng)網(wǎng)絡規(guī)則偵測序列規(guī)則基因算法基于層次的的聚類方法法這類方法不不需要預先先給定參數(shù)數(shù)(聚類數(shù)數(shù)),但需需要終止條條件。Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)CURE算法-DataPartitioningandClusterings=50p=2s/p=25xxxyyyyxyxs/pq=5CHAMELEON算法ConstructSparseGraphPartitiontheGraphMergePartitionFinalClustersDataSet客戶總列表30%VIP0-1孩子2-3孩子20%VIP4+孩子$50-75kincome15%VIP$75k+income70%VIP$50-75kincome$20-50kincome85%VIPAge:40-6080%VIPAge:20-4045%VIP分類決策樹樹Attributes={Outlook,Temperature,Humidity,Wind}OutlookHumidityWindsunnyrainovercastyesnoyeshighnormalnostrongweakyesPlayTennis={yes,no}打高爾夫球球的決策樹樹實例(自自頂向下))根據(jù)加薪百百分比、工工作時長、、法定節(jié)假假日、及醫(yī)醫(yī)療保險三三個屬性來來判斷一個個企業(yè)的福福利狀況(good或bad)。對象關系網(wǎng)絡網(wǎng)絡分析強弱路徑自我小群體缺失角色網(wǎng)絡分析神經(jīng)網(wǎng)絡線性回歸Logistics回歸多層神經(jīng)網(wǎng)網(wǎng)絡細胞繁殖神經(jīng)網(wǎng)絡算算法人工神經(jīng)網(wǎng)網(wǎng)(ArtificialNeuralNetwork,ANN)是20世紀80年代后期迅迅速發(fā)展起起來的人工工智能技術術,它對噪噪聲數(shù)據(jù)具具有很高的的承受能力力,對未經(jīng)經(jīng)訓練的數(shù)數(shù)據(jù)具有分分類模擬的的能力,因因此在網(wǎng)站站信息、生生物信息和和基因以及及文本的數(shù)數(shù)據(jù)挖掘等等領域得到到了越來越越廣泛的應應用。在多多種ANN模型中,反反向傳播((BackPropagation,BP)網(wǎng)絡是應應用最廣的的一種。神經(jīng)元通過非線性性函數(shù)n維的輸入向向量x被映射為變變量ymk-fweightedsumInputvectorxoutputyActivationfunctionweightvectorw?w0w1wnx0x1xn神經(jīng)網(wǎng)絡的的組成輸出節(jié)點輸入節(jié)點隱層節(jié)點輸入矢量輸入矢量:xiwij基本的BP網(wǎng)絡由輸入入層、輸出出層和隱層層組成。神經(jīng)網(wǎng)絡的的拓撲結(jié)構構神經(jīng)網(wǎng)絡訓訓練之前,,需要設計計網(wǎng)絡拓撲撲結(jié)構。設設計網(wǎng)絡拓拓撲的關鍵鍵是,確定定隱層的神神經(jīng)元個數(shù)數(shù)及各神經(jīng)經(jīng)元初始權權值和閾值值(偏差))。理論上上講,隱層層的神經(jīng)元元數(shù)越多,,逼近越精精確。但實實際上,隱隱層神經(jīng)元元數(shù)不宜過過多;否則則會極大加加長訓練時時間,并造造成網(wǎng)絡容容錯能力下下降。經(jīng)訓訓練后的神神經(jīng)網(wǎng)絡若若其準確性性不能被接接受,則必必須重新進進行拓撲設設計或改用用不同的初初始權值和和閾值(偏偏差)。神經(jīng)網(wǎng)絡的訓訓練訓練的終止條條件獲得一組權重重值,使得訓訓練集中幾乎乎所有樣本都都分類正確訓練步驟利用隨機值對對權值進行初初始化將訓練樣本逐逐一地輸入給給神經(jīng)網(wǎng)絡,,進行訓練對于每個神經(jīng)經(jīng)元將其所有的輸輸入值進行線線性求和計算算得到總的輸輸入利用激勵函數(shù)數(shù)計算其輸出出值計算誤差修正網(wǎng)絡權值值和閾值(偏偏差)BP神經(jīng)網(wǎng)絡BP神經(jīng)網(wǎng)絡通過過迭代處理一一組訓練樣本本,將各樣本本的網(wǎng)絡預測測與實際已知知類標號進行行比較實現(xiàn)學學習訓練,反反向修改網(wǎng)絡絡的權值,使使得網(wǎng)絡預測測與實際類之之間的誤差平平方最小。BP神經(jīng)網(wǎng)絡按照照最優(yōu)訓練準準則反復迭代代,確定并不不斷調(diào)整神經(jīng)經(jīng)網(wǎng)絡結(jié)構,,通過迭代修修改,當誤差差收斂時學習習過程終止。。因此,具有分分類準確、收收斂性好、動動態(tài)性好和魯魯棒性強等優(yōu)優(yōu)點。BP神經(jīng)網(wǎng)絡存在在的問題收斂速度問題題BP分類器最大的的弱點是其訓訓練速度非常常緩慢,難以以收斂。尤其其是當網(wǎng)絡的的訓練達到一一定程度后,,收斂更為緩緩慢。局部極小點問問題BP算法采用的是是梯度下降法法,對一個復復雜的網(wǎng)絡而而言,其誤差差曲面是一個個高維空間中中的曲面,其其中分布著許許多局部極小小點,一旦陷陷入了局部極極小點則算法法很難逃離出出來。BP神經(jīng)網(wǎng)絡存在在的問題網(wǎng)絡癱瘓問題題在訓練過程中中,權值可能能變得很大,,這會使神經(jīng)經(jīng)元的網(wǎng)絡輸輸入變得更大大,從而使得得其激勵函數(shù)數(shù)的一階導函函數(shù)在此點上上的取值很小小。此時的訓訓練步長會變變得非常小,,最終導致網(wǎng)網(wǎng)絡停止收斂斂,這種現(xiàn)象象即是所謂的的網(wǎng)絡癱瘓現(xiàn)現(xiàn)象。關聯(lián)規(guī)則挖掘掘?qū)嵗ㄟ^發(fā)現(xiàn)顧客客放入其購物物籃中不同商商品之間的聯(lián)聯(lián)系,分析顧顧客的購買習習慣。通過了了解哪些商品品頻繁地被顧顧客同時購買買,這種關聯(lián)聯(lián)的發(fā)現(xiàn)可以以幫助零售商商制定營銷策策略。例如,,在同一次購購物中,如果果顧客購買牛牛奶的同時,,也購買面包包(和什么類類型的面包))的可能性有有多大?這種信息可以以引導銷售,,可以幫助零零售商有選擇擇地經(jīng)銷和安安排貨架。例例如,將牛奶奶和面包盡可可能放近一些些,可以進一一步刺激一次次去商店同時時購買這些商商品。關聯(lián)規(guī)則挖掘掘?qū)嵗徫锘@關聯(lián)分分析實例圖基本概念CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer“啤酒與尿布”的關聯(lián)規(guī)則ForruleACsupport=support({AC})=50%confidence=support({AC})/support({A})=66.6%ForCA(50%,100%)TheAprioriprinciple:AnysubsetofafrequentitemsetmustbefrequentMin.support50%Min.confidence50%關聯(lián)挖掘?qū)嵗?.5數(shù)據(jù)挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論