商務(wù)智能-數(shù)據(jù)挖掘原理課件_第1頁
商務(wù)智能-數(shù)據(jù)挖掘原理課件_第2頁
商務(wù)智能-數(shù)據(jù)挖掘原理課件_第3頁
商務(wù)智能-數(shù)據(jù)挖掘原理課件_第4頁
商務(wù)智能-數(shù)據(jù)挖掘原理課件_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘原理

趙衛(wèi)東博士

復(fù)旦大學(xué)軟件學(xué)院

數(shù)據(jù)挖掘原理

趙衛(wèi)東博士

復(fù)旦大學(xué)軟件學(xué)院

1WhatisDataMining?AccordingtotheGartnerGroup,Dataminingistheprocessofdiscoveringmeaningfulnewcorrelations,patternsandtrendsbysiftingthroughlargeamountsofdatastoredinrepositories,usingpatternrecognitiontechnologiesaswellasstatisticalandmathematicaltechniques.Dataminingreferstotheworkofdiscoveringnewanduseful(business)knowledgefromlargerealdatabasesthroughanon-trivialprocessandusingasoundmethodologyandmultipledataprocessingandanalyticaltechniques.Examples:Detecttaxationfraud:notdeclaringallincomefortaxation;Fromthethousandsofmobilephonecustomers,predictwhichcustomersaregoingtoswitchtoacompetitor.WhatisDataMining?According2數(shù)據(jù)挖掘受多學(xué)科的影響

數(shù)據(jù)挖掘是一個(gè)交叉科學(xué)領(lǐng)域,受多個(gè)學(xué)科影響,包括數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。

數(shù)據(jù)挖掘受多學(xué)科的影響數(shù)據(jù)挖掘是一個(gè)交叉科學(xué)領(lǐng)域,受多個(gè)學(xué)3一個(gè)比較正式的數(shù)據(jù)挖掘的定義高層次上的主動(dòng)式自動(dòng)發(fā)現(xiàn)方法,被稱為發(fā)現(xiàn)驅(qū)動(dòng)型知識(shí)發(fā)現(xiàn)。從數(shù)據(jù)中提取正確的、有用的、未知的和綜合的信息并用它進(jìn)行決策的過程。數(shù)據(jù)挖掘的相關(guān)學(xué)科是統(tǒng)計(jì)理論、數(shù)據(jù)庫(kù)技術(shù)和人工智能。前BusinessObjects的ToddRowe曾表示:“從技術(shù)上講,甚至只要有完備的Excel數(shù)據(jù)就能用上BI?!?/p>

一個(gè)比較正式的數(shù)據(jù)挖掘的定義高層次上的主動(dòng)式自動(dòng)發(fā)現(xiàn)方法,被4過程數(shù)據(jù)挖掘并不是一個(gè)裝在軟件包裝盒中的工具可以簡(jiǎn)單的買到并運(yùn)行在商業(yè)智能環(huán)境中,也不會(huì)自動(dòng)開始產(chǎn)生值得注意的商業(yè)規(guī)律。過程數(shù)據(jù)挖掘并不是一個(gè)裝在軟件包裝盒中的工具可以簡(jiǎn)單的買到并5正確的提取的信息應(yīng)該是正確的,并且在統(tǒng)計(jì)上是重要的以支持有依據(jù)的決定。正確意味著確證性和完整性。不但需要從數(shù)據(jù)庫(kù)中得到正確的客戶,還希望得到所有正確的客戶。這就需要原始數(shù)據(jù)和數(shù)據(jù)挖掘過程都具有正確性。正確的提取的信息應(yīng)該是正確的,并且在統(tǒng)計(jì)上是重要的以支持有依6有用的數(shù)據(jù)挖掘過程可能會(huì)傳遞正確的和重要的結(jié)果,但是這些知識(shí)必須是對(duì)商業(yè)有用的。如結(jié)果告訴你要在一個(gè)大量的渠道上多樣化市場(chǎng)運(yùn)作,這可能會(huì)無法辦到。同樣結(jié)果必須使你能搶在競(jìng)爭(zhēng)對(duì)手之前行動(dòng)。有用的數(shù)據(jù)挖掘過程可能會(huì)傳遞正確的和重要的結(jié)果,但是這些知識(shí)7未知的數(shù)據(jù)挖掘要產(chǎn)生新的信息。如果過程只是傳遞一些無關(guān)緊要的結(jié)果,那么數(shù)據(jù)挖掘的商業(yè)動(dòng)力就會(huì)消失。這就是區(qū)分驗(yàn)證和探索的性質(zhì)。未知的數(shù)據(jù)挖掘要產(chǎn)生新的信息。如果過程只是傳遞一些無關(guān)緊要的8最小要求以上顯示了數(shù)據(jù)挖掘最小要求,可以用它來評(píng)價(jià)數(shù)據(jù)挖掘是否對(duì)業(yè)務(wù)環(huán)境增加了附加的價(jià)值其他要求最小要求以上顯示了數(shù)據(jù)挖掘最小要求,可以用它來評(píng)價(jià)數(shù)據(jù)挖掘是9WhyDataMining?GainaninsightintobusinessdataIdentifyusefulpatterns,correlationsandmodelsfromdataautomaticallytoanswerquestionslike,Whichcustomerislikelytochurnintwomonths?Whichcustomerismycrossselltarget?Whatarethecharacteristicsofmyhighspendingandlowspendingcustomers?DataminingisacoretechnologyofbusinessintelligenceDataminingisacoreapplicationofdatawarehousesDataminingisthecoretechnologyofanalyticalCRMDataminingisthecoretechnologyofonlinerecommendationandpersonalizationine-commerceDatamininghasbecomeapartofbusinessfunctioninmanycompaniesWhyDataMining?Gainaninsigh10DataminingisregularlyusedinDataminingisregularlyused11典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)

典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)12Verification-DrivenAnalysisVerification-drivendataminingtoolsextractdata.Theuserisexpectedtogenerateinformationbasedonhisinterpretationofthereturneddata.Verification-DrivenAnalysisVe13NewProcessWithDataMiningDiscovery-drivenComputersiftsthroughmillionsofhypothesesandonlypresentsthemostinteresting/validonesExample:Fromasamplegroupofclientsthathavedefectedtoacompetitivebank-identifyclientcharacteristicsthatarestronglycorrelated,andusingtheseattributes,scoretherestoftheclientandprospectpopulationandthestrengthoftheirrelationshipstosamplegroup.NewProcessWithDataMiningDi14WhatCanDataMiningDo?ClassificationandEstimationPredictionForecastingClusteringandSegmentationAssociationDiscoveryDescriptionandvisualizationMarketBasedAnalysisandUp-Selling/Cross-SellingPharmaceuticalIndustry:DrugEffectivenessbyPatientTypeDefectAnalysisinManufacturingUniversityandEmployeeRecruitmentEmployeeTurnoverPredictionsCreditRiskDeterminationCreditCardFraudCustomerGroupingandBehaviourPredictionWhatCanDataMiningDo?Classi15數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘過程16占70%的工作量,是最重要的階段占25%的工作量系統(tǒng)演示占70%的工作量,是最重要的階段占25%的工作量系統(tǒng)演示17EffortDistribution

EffortDistribution

18CRISP–DMisaniterative,adaptiveprocess.CRISP–DMisaniterative,adap19IBMIntelligentMiner可視化界面IBMIntelligentMiner可視化界面20AlphaMiner界面AlphaMiner界面21數(shù)據(jù)挖掘過程是循環(huán)的過程上圖會(huì)容易造成一個(gè)線性過程的印象。事實(shí)上,每一步的結(jié)果會(huì)導(dǎo)致這樣一個(gè)結(jié)論:需要從前幾步中得到更多的信息,并不斷重復(fù)這一過程。這些循環(huán)保證了最后的結(jié)果是完全為業(yè)務(wù)量身定制的。

數(shù)據(jù)挖掘過程是循環(huán)的過程上圖會(huì)容易造成一個(gè)線性過程的印象。22業(yè)務(wù)分析理想化地,公司中的所有活動(dòng)都在不同程度上通過策略和商業(yè)目標(biāo)與公司的任務(wù)描述相關(guān)。數(shù)據(jù)挖掘使你能夠比以前在更高的層次上控制你的目標(biāo)。業(yè)務(wù)分析涉及到領(lǐng)域?qū)<液屯诰驅(qū)<?。前者專心于?guī)定商業(yè)需求,而后者從數(shù)據(jù)挖掘的觀點(diǎn)上保證這些要求的可行性,并且具體說明滿足這些要求所需的挖掘操作。業(yè)務(wù)分析理想化地,公司中的所有活動(dòng)都在不同程度上通過策略和商23數(shù)據(jù)分析為了研究使用統(tǒng)計(jì)方法的數(shù)據(jù),可能有必要清理數(shù)據(jù),添入缺損的值,或者從幾個(gè)系統(tǒng)中將數(shù)據(jù)整合起來。數(shù)據(jù)分析將會(huì)對(duì)以后步驟中必須的數(shù)據(jù)轉(zhuǎn)換提供一個(gè)初步的了解,比如數(shù)據(jù)清理和整合??赡芤矔?huì)指出獲取外部的信息是必要的,比如說日常商業(yè)運(yùn)作中并不需要的顧客人口統(tǒng)計(jì)數(shù)據(jù)。在這一步中涉及到的角色是挖掘?qū)<?,他們?zhí)行大部分的任務(wù),還有數(shù)據(jù)庫(kù)管理員,他們將通過提供數(shù)據(jù)的訪問權(quán)限來支持這些活動(dòng)。數(shù)據(jù)分析為了研究使用統(tǒng)計(jì)方法的數(shù)據(jù),可能有必要清理數(shù)據(jù),添入24數(shù)據(jù)準(zhǔn)備當(dāng)挖掘所需的數(shù)據(jù)可供使用時(shí),往往需要在真正進(jìn)行挖掘前做一些準(zhǔn)備工作。對(duì)于是否需要做這些準(zhǔn)備工作,大部分在數(shù)據(jù)分析步驟中進(jìn)行評(píng)估。數(shù)據(jù)準(zhǔn)備當(dāng)挖掘所需的數(shù)據(jù)可供使用時(shí),往往需要在真正進(jìn)行挖掘前25數(shù)據(jù)質(zhì)量數(shù)據(jù)顯示出一些特定的值,叫做偏離點(diǎn),它們遠(yuǎn)離預(yù)期的正常范圍。這些值可用多種方法來處理:如果它們?nèi)栽诂F(xiàn)實(shí)中存在的話,對(duì)這些數(shù)據(jù)取對(duì)數(shù)可以將它們轉(zhuǎn)化到較小的范圍。否則可以將包含這些值的記錄除去,或者將所有記錄中的相關(guān)屬性除去。數(shù)據(jù)質(zhì)量數(shù)據(jù)顯示出一些特定的值,叫做偏離點(diǎn),它們遠(yuǎn)離預(yù)期的正26空缺值一個(gè)更常見的問題是空缺值。此外,有些記錄的值可能空缺,或者某一個(gè)屬性可能會(huì)有大量的空缺值。對(duì)第一種情況,可以不使用這些記錄;對(duì)第二種情況,可以丟棄這個(gè)屬性??杖敝狄粋€(gè)更常見的問題是空缺值。27猜測(cè)空缺值另一種處理空缺值的方法是歸咎(imputation)??梢杂脦追N技術(shù)來猜測(cè)空缺值,下面是一些相關(guān)技術(shù),復(fù)雜度逐漸增加:從別的記錄中隨機(jī)抽取一個(gè)值添入。取其他記錄中對(duì)應(yīng)屬性的最頻值,中間數(shù)或平均數(shù)。對(duì)其他記錄中這個(gè)屬性的值分布做一個(gè)統(tǒng)計(jì)模型,然后根據(jù)分布情況,隨機(jī)選一個(gè)值。試圖用統(tǒng)計(jì)或挖掘技術(shù)從相似記錄的值中預(yù)估空缺值。猜測(cè)空缺值另一種處理空缺值的方法是歸咎(imputation28數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理29數(shù)據(jù)中的不一致性數(shù)據(jù)挖掘能夠有效地處理數(shù)據(jù)中的不一致性。即使源數(shù)據(jù)是干凈的、整合的和經(jīng)過驗(yàn)證的,它們?nèi)杂锌赡馨F(xiàn)實(shí)世界的不真實(shí)的數(shù)據(jù)。有效認(rèn)識(shí)和解決數(shù)據(jù)質(zhì)量相關(guān)問題的唯一辦法,就是企業(yè)對(duì)內(nèi)部處理流程進(jìn)行監(jiān)視、分析和報(bào)告。美國(guó)硬盤生產(chǎn)商Maxtor公司的首期信息長(zhǎng)官斯考特.??栒f“商務(wù)智能最大的困難在于需要確保用于總結(jié)性分析和儀表板中的最底層的數(shù)據(jù)永遠(yuǎn)干凈、一致并相關(guān)。我們需要數(shù)據(jù)倉(cāng)庫(kù)具備自我治療能力,能夠自動(dòng)地感應(yīng)、偵查、通告和維修任何不正確、缺失或未經(jīng)核對(duì)的數(shù)據(jù)因素。但這至少需要一到兩年才會(huì)發(fā)生?!睌?shù)據(jù)中的不一致性數(shù)據(jù)挖掘能夠有效地處理數(shù)據(jù)中的不一致性。即使30噪聲這種噪聲可能是由用戶的錯(cuò)誤輸入或是顧客填寫問卷時(shí)的筆誤造成的。如果這些錯(cuò)誤不是發(fā)生的太頻繁,數(shù)據(jù)挖掘工具還是能夠忽略它們,并且找出數(shù)據(jù)中存在的整體模式。噪聲這種噪聲可能是由用戶的錯(cuò)誤輸入或是顧客填寫問卷時(shí)的筆誤造31臟數(shù)據(jù)形成的原因?yàn)E用縮寫詞數(shù)據(jù)輸入錯(cuò)誤不同的慣用語(如:ASAP對(duì)“atfirstchance”)重復(fù)記錄丟失值拼寫變化不同的計(jì)量單位過時(shí)的編碼臟數(shù)據(jù)形成的原因?yàn)E用縮寫詞32數(shù)據(jù)清洗(客戶數(shù)據(jù))Maggie.kline@future_MargaretSmith-KlinephdFUTUREElectronics5/23/031016thavemanhattanny10012001124367Salutation:Ms.Firstname:MargaretLastname:Smith-KlinePostname:Ph.D.Matchstandards:Maggie,Peg,PeggyGender:StrongFemaleCompanyname:FutureElectronicsAddress1:101AvenueoftheAmericasCity:NewYorkState:NYZIP+4:10013-1933Email:maggie.kline@future_SSN:001-12-4367DateMay23,2003輸入記錄輸出記錄數(shù)據(jù)清洗(客戶數(shù)據(jù))Maggie.kline@future33MsMargaretSmith-KlinePh.D.FutureElectronics101AvenueoftheAmericasNewYorkNY10013-1933maggie.kline@future_May23,2003姓名:Ms.MargaretSmith-KlinePh.D.公司名:FutureElectronicsCo.LLC社會(huì)保障號(hào):001-12-4367購(gòu)買日期:5/23/2003地址:101AvenueoftheAmericasNewYork,NY10013-1933緯度:40.722970經(jīng)度:-74.005035Fedcode:36061電話:(222)922-9922Email:maggie.kline@future_輸入紀(jì)錄合并的紀(jì)錄MaggieSmithFutureElectronicsCo.LLC1016thAve.Manhattan,NY10012maggie.kline@future_001-12-4367Ms.PegKlineFutureElect.Co.1016thAve.NewYorkNY10013001-12-4367(222)922-99225/23/03匹配和合并MsMargaretSmith-KlinePh.D.姓34數(shù)據(jù)清理處理內(nèi)容格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除錯(cuò)誤糾正重復(fù)數(shù)據(jù)的清除數(shù)據(jù)清理處理內(nèi)容格式標(biāo)準(zhǔn)化35屬性間的相互依賴性數(shù)據(jù)挖掘?qū)?huì)同時(shí)從不同角度來看待數(shù)據(jù)。這就防止了把某些自身看起來好像不相關(guān)的屬性丟棄的情況。數(shù)據(jù)挖掘?qū)?huì)發(fā)現(xiàn)屬性間的相互依賴性,這些相互依賴性往往需要提取數(shù)據(jù)中的所有相關(guān)信息,甚至是隱藏在多個(gè)屬性的組合中。屬性間的相互依賴性數(shù)據(jù)挖掘?qū)?huì)同時(shí)從不同角度來看待數(shù)據(jù)。這就36結(jié)果解釋對(duì)結(jié)果的解釋完全依賴于數(shù)據(jù)挖掘步驟的可視化輸出。對(duì)結(jié)果的解釋需要挖掘?qū)<液皖I(lǐng)域?qū)<业木o密合作。他們一起將技術(shù)的結(jié)果解釋為商業(yè)的意義,并且評(píng)價(jià)從這些結(jié)果中得出結(jié)論的正確性。當(dāng)結(jié)果從技術(shù)上來說是正確的,但對(duì)商業(yè)上來說并不意味著任何有價(jià)值的東西的時(shí)候,有必要進(jìn)行迭代。結(jié)果解釋對(duì)結(jié)果的解釋完全依賴于數(shù)據(jù)挖掘步驟的可視化輸出。37商業(yè)應(yīng)用一個(gè)例子就是預(yù)測(cè)所有客戶中的可創(chuàng)造高利潤(rùn)的群體,必須決定如何去接近這些客戶,同時(shí)還要決定如何判斷他們是否像模型預(yù)測(cè)的那樣能帶來利潤(rùn)。領(lǐng)域?qū)<乙揽繉?duì)挖掘結(jié)果解釋中的信息,來支持商業(yè)應(yīng)用的決定。在小公司中,領(lǐng)域?qū)<铱赡芫褪菦Q策者,但通常來說,決策者往往是一些顧問。如果領(lǐng)域?qū)<覍?duì)決策是否為挖掘結(jié)果所支持不是很確定,或者他和實(shí)際決策者中有任何的誤解,都需要回復(fù)到結(jié)果解釋階段。商業(yè)應(yīng)用一個(gè)例子就是預(yù)測(cè)所有客戶中的可創(chuàng)造高利潤(rùn)的群體,必須38商業(yè)反饋商業(yè)環(huán)境中的結(jié)果被反饋到商業(yè)智能環(huán)境中,并和數(shù)據(jù)挖掘模型的輸出一起做分析。比如說,假設(shè)你郵寄活動(dòng)的預(yù)測(cè)回復(fù)與實(shí)際回復(fù)作一個(gè)比較。當(dāng)你試圖了解是什么因素使得你對(duì)某些客戶的預(yù)測(cè)出現(xiàn)錯(cuò)誤時(shí),可能會(huì)引發(fā)一輪新的數(shù)據(jù)挖掘過程。商業(yè)反饋商業(yè)環(huán)境中的結(jié)果被反饋到商業(yè)智能環(huán)境中,并和數(shù)據(jù)挖掘39數(shù)據(jù)挖掘原理

趙衛(wèi)東博士

復(fù)旦大學(xué)軟件學(xué)院

數(shù)據(jù)挖掘原理

趙衛(wèi)東博士

復(fù)旦大學(xué)軟件學(xué)院

40WhatisDataMining?AccordingtotheGartnerGroup,Dataminingistheprocessofdiscoveringmeaningfulnewcorrelations,patternsandtrendsbysiftingthroughlargeamountsofdatastoredinrepositories,usingpatternrecognitiontechnologiesaswellasstatisticalandmathematicaltechniques.Dataminingreferstotheworkofdiscoveringnewanduseful(business)knowledgefromlargerealdatabasesthroughanon-trivialprocessandusingasoundmethodologyandmultipledataprocessingandanalyticaltechniques.Examples:Detecttaxationfraud:notdeclaringallincomefortaxation;Fromthethousandsofmobilephonecustomers,predictwhichcustomersaregoingtoswitchtoacompetitor.WhatisDataMining?According41數(shù)據(jù)挖掘受多學(xué)科的影響

數(shù)據(jù)挖掘是一個(gè)交叉科學(xué)領(lǐng)域,受多個(gè)學(xué)科影響,包括數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。

數(shù)據(jù)挖掘受多學(xué)科的影響數(shù)據(jù)挖掘是一個(gè)交叉科學(xué)領(lǐng)域,受多個(gè)學(xué)42一個(gè)比較正式的數(shù)據(jù)挖掘的定義高層次上的主動(dòng)式自動(dòng)發(fā)現(xiàn)方法,被稱為發(fā)現(xiàn)驅(qū)動(dòng)型知識(shí)發(fā)現(xiàn)。從數(shù)據(jù)中提取正確的、有用的、未知的和綜合的信息并用它進(jìn)行決策的過程。數(shù)據(jù)挖掘的相關(guān)學(xué)科是統(tǒng)計(jì)理論、數(shù)據(jù)庫(kù)技術(shù)和人工智能。前BusinessObjects的ToddRowe曾表示:“從技術(shù)上講,甚至只要有完備的Excel數(shù)據(jù)就能用上BI?!?/p>

一個(gè)比較正式的數(shù)據(jù)挖掘的定義高層次上的主動(dòng)式自動(dòng)發(fā)現(xiàn)方法,被43過程數(shù)據(jù)挖掘并不是一個(gè)裝在軟件包裝盒中的工具可以簡(jiǎn)單的買到并運(yùn)行在商業(yè)智能環(huán)境中,也不會(huì)自動(dòng)開始產(chǎn)生值得注意的商業(yè)規(guī)律。過程數(shù)據(jù)挖掘并不是一個(gè)裝在軟件包裝盒中的工具可以簡(jiǎn)單的買到并44正確的提取的信息應(yīng)該是正確的,并且在統(tǒng)計(jì)上是重要的以支持有依據(jù)的決定。正確意味著確證性和完整性。不但需要從數(shù)據(jù)庫(kù)中得到正確的客戶,還希望得到所有正確的客戶。這就需要原始數(shù)據(jù)和數(shù)據(jù)挖掘過程都具有正確性。正確的提取的信息應(yīng)該是正確的,并且在統(tǒng)計(jì)上是重要的以支持有依45有用的數(shù)據(jù)挖掘過程可能會(huì)傳遞正確的和重要的結(jié)果,但是這些知識(shí)必須是對(duì)商業(yè)有用的。如結(jié)果告訴你要在一個(gè)大量的渠道上多樣化市場(chǎng)運(yùn)作,這可能會(huì)無法辦到。同樣結(jié)果必須使你能搶在競(jìng)爭(zhēng)對(duì)手之前行動(dòng)。有用的數(shù)據(jù)挖掘過程可能會(huì)傳遞正確的和重要的結(jié)果,但是這些知識(shí)46未知的數(shù)據(jù)挖掘要產(chǎn)生新的信息。如果過程只是傳遞一些無關(guān)緊要的結(jié)果,那么數(shù)據(jù)挖掘的商業(yè)動(dòng)力就會(huì)消失。這就是區(qū)分驗(yàn)證和探索的性質(zhì)。未知的數(shù)據(jù)挖掘要產(chǎn)生新的信息。如果過程只是傳遞一些無關(guān)緊要的47最小要求以上顯示了數(shù)據(jù)挖掘最小要求,可以用它來評(píng)價(jià)數(shù)據(jù)挖掘是否對(duì)業(yè)務(wù)環(huán)境增加了附加的價(jià)值其他要求最小要求以上顯示了數(shù)據(jù)挖掘最小要求,可以用它來評(píng)價(jià)數(shù)據(jù)挖掘是48WhyDataMining?GainaninsightintobusinessdataIdentifyusefulpatterns,correlationsandmodelsfromdataautomaticallytoanswerquestionslike,Whichcustomerislikelytochurnintwomonths?Whichcustomerismycrossselltarget?Whatarethecharacteristicsofmyhighspendingandlowspendingcustomers?DataminingisacoretechnologyofbusinessintelligenceDataminingisacoreapplicationofdatawarehousesDataminingisthecoretechnologyofanalyticalCRMDataminingisthecoretechnologyofonlinerecommendationandpersonalizationine-commerceDatamininghasbecomeapartofbusinessfunctioninmanycompaniesWhyDataMining?Gainaninsigh49DataminingisregularlyusedinDataminingisregularlyused50典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)

典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)51Verification-DrivenAnalysisVerification-drivendataminingtoolsextractdata.Theuserisexpectedtogenerateinformationbasedonhisinterpretationofthereturneddata.Verification-DrivenAnalysisVe52NewProcessWithDataMiningDiscovery-drivenComputersiftsthroughmillionsofhypothesesandonlypresentsthemostinteresting/validonesExample:Fromasamplegroupofclientsthathavedefectedtoacompetitivebank-identifyclientcharacteristicsthatarestronglycorrelated,andusingtheseattributes,scoretherestoftheclientandprospectpopulationandthestrengthoftheirrelationshipstosamplegroup.NewProcessWithDataMiningDi53WhatCanDataMiningDo?ClassificationandEstimationPredictionForecastingClusteringandSegmentationAssociationDiscoveryDescriptionandvisualizationMarketBasedAnalysisandUp-Selling/Cross-SellingPharmaceuticalIndustry:DrugEffectivenessbyPatientTypeDefectAnalysisinManufacturingUniversityandEmployeeRecruitmentEmployeeTurnoverPredictionsCreditRiskDeterminationCreditCardFraudCustomerGroupingandBehaviourPredictionWhatCanDataMiningDo?Classi54數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘過程55占70%的工作量,是最重要的階段占25%的工作量系統(tǒng)演示占70%的工作量,是最重要的階段占25%的工作量系統(tǒng)演示56EffortDistribution

EffortDistribution

57CRISP–DMisaniterative,adaptiveprocess.CRISP–DMisaniterative,adap58IBMIntelligentMiner可視化界面IBMIntelligentMiner可視化界面59AlphaMiner界面AlphaMiner界面60數(shù)據(jù)挖掘過程是循環(huán)的過程上圖會(huì)容易造成一個(gè)線性過程的印象。事實(shí)上,每一步的結(jié)果會(huì)導(dǎo)致這樣一個(gè)結(jié)論:需要從前幾步中得到更多的信息,并不斷重復(fù)這一過程。這些循環(huán)保證了最后的結(jié)果是完全為業(yè)務(wù)量身定制的。

數(shù)據(jù)挖掘過程是循環(huán)的過程上圖會(huì)容易造成一個(gè)線性過程的印象。61業(yè)務(wù)分析理想化地,公司中的所有活動(dòng)都在不同程度上通過策略和商業(yè)目標(biāo)與公司的任務(wù)描述相關(guān)。數(shù)據(jù)挖掘使你能夠比以前在更高的層次上控制你的目標(biāo)。業(yè)務(wù)分析涉及到領(lǐng)域?qū)<液屯诰驅(qū)<?。前者專心于?guī)定商業(yè)需求,而后者從數(shù)據(jù)挖掘的觀點(diǎn)上保證這些要求的可行性,并且具體說明滿足這些要求所需的挖掘操作。業(yè)務(wù)分析理想化地,公司中的所有活動(dòng)都在不同程度上通過策略和商62數(shù)據(jù)分析為了研究使用統(tǒng)計(jì)方法的數(shù)據(jù),可能有必要清理數(shù)據(jù),添入缺損的值,或者從幾個(gè)系統(tǒng)中將數(shù)據(jù)整合起來。數(shù)據(jù)分析將會(huì)對(duì)以后步驟中必須的數(shù)據(jù)轉(zhuǎn)換提供一個(gè)初步的了解,比如數(shù)據(jù)清理和整合。可能也會(huì)指出獲取外部的信息是必要的,比如說日常商業(yè)運(yùn)作中并不需要的顧客人口統(tǒng)計(jì)數(shù)據(jù)。在這一步中涉及到的角色是挖掘?qū)<?,他們?zhí)行大部分的任務(wù),還有數(shù)據(jù)庫(kù)管理員,他們將通過提供數(shù)據(jù)的訪問權(quán)限來支持這些活動(dòng)。數(shù)據(jù)分析為了研究使用統(tǒng)計(jì)方法的數(shù)據(jù),可能有必要清理數(shù)據(jù),添入63數(shù)據(jù)準(zhǔn)備當(dāng)挖掘所需的數(shù)據(jù)可供使用時(shí),往往需要在真正進(jìn)行挖掘前做一些準(zhǔn)備工作。對(duì)于是否需要做這些準(zhǔn)備工作,大部分在數(shù)據(jù)分析步驟中進(jìn)行評(píng)估。數(shù)據(jù)準(zhǔn)備當(dāng)挖掘所需的數(shù)據(jù)可供使用時(shí),往往需要在真正進(jìn)行挖掘前64數(shù)據(jù)質(zhì)量數(shù)據(jù)顯示出一些特定的值,叫做偏離點(diǎn),它們遠(yuǎn)離預(yù)期的正常范圍。這些值可用多種方法來處理:如果它們?nèi)栽诂F(xiàn)實(shí)中存在的話,對(duì)這些數(shù)據(jù)取對(duì)數(shù)可以將它們轉(zhuǎn)化到較小的范圍。否則可以將包含這些值的記錄除去,或者將所有記錄中的相關(guān)屬性除去。數(shù)據(jù)質(zhì)量數(shù)據(jù)顯示出一些特定的值,叫做偏離點(diǎn),它們遠(yuǎn)離預(yù)期的正65空缺值一個(gè)更常見的問題是空缺值。此外,有些記錄的值可能空缺,或者某一個(gè)屬性可能會(huì)有大量的空缺值。對(duì)第一種情況,可以不使用這些記錄;對(duì)第二種情況,可以丟棄這個(gè)屬性??杖敝狄粋€(gè)更常見的問題是空缺值。66猜測(cè)空缺值另一種處理空缺值的方法是歸咎(imputation)??梢杂脦追N技術(shù)來猜測(cè)空缺值,下面是一些相關(guān)技術(shù),復(fù)雜度逐漸增加:從別的記錄中隨機(jī)抽取一個(gè)值添入。取其他記錄中對(duì)應(yīng)屬性的最頻值,中間數(shù)或平均數(shù)。對(duì)其他記錄中這個(gè)屬性的值分布做一個(gè)統(tǒng)計(jì)模型,然后根據(jù)分布情況,隨機(jī)選一個(gè)值。試圖用統(tǒng)計(jì)或挖掘技術(shù)從相似記錄的值中預(yù)估空缺值。猜測(cè)空缺值另一種處理空缺值的方法是歸咎(imputation67數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理68數(shù)據(jù)中的不一致性數(shù)據(jù)挖掘能夠有效地處理數(shù)據(jù)中的不一致性。即使源數(shù)據(jù)是干凈的、整合的和經(jīng)過驗(yàn)證的,它們?nèi)杂锌赡馨F(xiàn)實(shí)世界的不真實(shí)的數(shù)據(jù)。有效認(rèn)識(shí)和解決數(shù)據(jù)質(zhì)量相關(guān)問題的唯一辦法,就是企業(yè)對(duì)內(nèi)部處理流程進(jìn)行監(jiān)視、分析和報(bào)告。美國(guó)硬盤生產(chǎn)商Maxtor公司的首期信息長(zhǎng)官斯考特.??栒f“商務(wù)智能最大的困難在于需要確保用于總結(jié)性分析和儀表板中的最底層的數(shù)據(jù)永遠(yuǎn)干凈、一致并相關(guān)。我們需要數(shù)據(jù)倉(cāng)庫(kù)具備自我治療能力,能夠自動(dòng)地感應(yīng)、偵查、通告和維修任何不正確、缺失或未經(jīng)核對(duì)的數(shù)據(jù)因素。但這至少需要一到兩年才會(huì)發(fā)生?!睌?shù)據(jù)中的不一致性數(shù)據(jù)挖掘能夠有效地處理數(shù)據(jù)中的不一致性。即使69噪聲這種噪聲可能是由用戶的錯(cuò)誤輸入或是顧客填寫問卷時(shí)的筆誤造成的。如果這些錯(cuò)誤不是發(fā)生的太頻繁,數(shù)據(jù)挖掘工具還是能夠忽略它們,并且找出數(shù)據(jù)中存在的整體模式。噪聲這種噪聲可能是由用戶的錯(cuò)誤輸入或是顧客填寫問卷時(shí)的筆誤造70臟數(shù)據(jù)形成的原因?yàn)E用縮寫詞數(shù)據(jù)輸入錯(cuò)誤不同的慣用語(如:ASAP對(duì)“atfirstchance”)重復(fù)記錄丟失值拼寫變化不同的計(jì)量單位過時(shí)的編碼臟數(shù)據(jù)形成的原因?yàn)E用縮寫詞71數(shù)據(jù)清洗(客戶數(shù)據(jù))Maggie.kline@future_MargaretSmith-KlinephdFUTUREElectronics5/23/031016thavemanhattanny10012001124367Salutation:Ms.Firstname:MargaretLastname:Smith-KlinePostname:Ph.D.Matchstandards:Maggie,Peg,PeggyGender:StrongFemaleCompanyname:FutureElectronicsAddress1:101AvenueoftheAmericasCity:NewYorkState:NYZIP+4:10013-1933Email:maggie.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論