數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

補充:結(jié)合電信領(lǐng)域的特點,通過一種應(yīng)用實例來闡明數(shù)據(jù)倉庫的詳細(xì)實行。第一階段:項目的需求和目的分析一.主題劃分圖1一種簡樸的電信企業(yè)模型在電信企業(yè)中,既有的業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)一般包括客戶服務(wù)DB、網(wǎng)管DB、計費DB、賬務(wù)DB、市場信息DB、營銷信息DB等。一般按照電信企業(yè)的業(yè)務(wù)需求也許將其主題域劃分為:1.客戶發(fā)展:重要是對客戶群體進行分類后,從不一樣的角度展現(xiàn)企業(yè)提供服務(wù)的客戶數(shù)量狀況??梢园凑湛蛻糇陨淼淖匀粚傩裕ㄈ缒挲g、入網(wǎng)時間、受教育程度等)、客戶的擴展屬性(如信用度、客戶價值、流失概率、挽留價值等)等不一樣的角度進行劃分。2.收益分析:重要是通過不一樣的角度對電信企業(yè)的收益狀況進行分析。收益分析的角度可以按照客戶的自然屬性和擴展屬性劃分,也可以按照電信企業(yè)的業(yè)務(wù)運行進行劃分,還可以按照機構(gòu)設(shè)置、地理角度對收益進行劃分。3.呼喊特性分析:分析不一樣類型客戶在呼喊上具有的特性。詳細(xì)的衡量指標(biāo)包括諸多,例如:把呼喊提成長呼喊、中呼喊、短呼喊。4.業(yè)務(wù)發(fā)展:重要是對電信企業(yè)提供的多種業(yè)務(wù)的使用客戶人數(shù)、客戶特性、收益金額進行比較,以發(fā)現(xiàn)具有潛力的業(yè)務(wù)或者為開展可以吸引更多客戶的新業(yè)務(wù)提供指導(dǎo)。5.營銷管理:重要是對各電信營業(yè)廳、電信分銷商、代銷商的經(jīng)營狀況進行分析。6.市場競爭:重要是對電信運行商的競爭對手的客戶發(fā)展、收益、業(yè)務(wù)運行等多方面的信息進行搜集并分析,從而為本企業(yè)提供市場競爭的方略。其中波及的數(shù)據(jù)重要是外部數(shù)據(jù)和非格式化數(shù)據(jù)。7.服務(wù)質(zhì)量:重要包括發(fā)現(xiàn)客戶投訴、征詢的焦點,發(fā)現(xiàn)企業(yè)內(nèi)部在運行上存在的問題等。8.網(wǎng)絡(luò)優(yōu)化管理:分析怎樣有優(yōu)化網(wǎng)絡(luò)的配置、怎樣更好的對網(wǎng)絡(luò)進行管理等問題。二.電信領(lǐng)域常見的數(shù)據(jù)挖掘?qū)哟蔚膯栴}1.客戶群體劃分:客戶群具有兩個金字塔(占總客戶數(shù)10%的大客戶的消費金額占了總客戶消費金額的70%)。對客戶群體進行合理的劃分,有助于企業(yè)理解一下信息:企業(yè)的重要客戶群體的狀況;重要客戶群體的呼喊特性行為;重要客戶群體對業(yè)務(wù)的需求;大客戶群體的呼喊特性行為;大客戶群體對業(yè)務(wù)的需求;在對客戶進行合理劃分的基礎(chǔ)上,可以針對不一樣客戶群體的特點采用不一樣的方略,對其消費行為進行合理的引導(dǎo)。(可以采用聚類或分類的措施)2.客戶流失劃分:挽留一種老客戶比爭取一種新客戶付出的代價要小得多。3.客戶欺詐分析:重要針對也許出現(xiàn)的客戶惡意欠費問題進行分析。4.網(wǎng)絡(luò)規(guī)劃優(yōu)化5.網(wǎng)管中的分析問題:網(wǎng)絡(luò)優(yōu)化、網(wǎng)管故障的有關(guān)性分析、記錄設(shè)備的故障率等。三.項目規(guī)劃在項目初期,應(yīng)當(dāng)選擇目前最急需、能在較短時間內(nèi)發(fā)生效益、業(yè)務(wù)模型清晰、能從既有系統(tǒng)或通過其他方式獲取數(shù)據(jù)的決策目的作為系統(tǒng)初期的任務(wù)。在后續(xù)階段,根據(jù)新的需求、既有系統(tǒng)的改造狀況、積累的經(jīng)驗確定新的決策目的,逐漸發(fā)展完善數(shù)據(jù)倉庫系統(tǒng)。在建設(shè)初期,可以將如下五個主題列在前期任務(wù)考慮之內(nèi)。客戶發(fā)展分析收益狀況分析呼喊特性分析營銷管理分析業(yè)務(wù)發(fā)展分析作為螺旋開發(fā)的第一種循環(huán),提議先將客戶發(fā)展、收益分析、呼喊特性分析列入第一階段的任務(wù)。四.需求分析的形成1.任務(wù)闡明書:在任務(wù)書中,指明了DW中波及的主題有3個:客戶發(fā)展、收益分析、呼喊特性分析。在DM層次上,需要完畢對客戶的流失概率、客戶價值、客戶挽留價值進行合理的評估。2.需求闡明書:任務(wù)闡明書需要設(shè)計人員深入將其細(xì)化成需求闡明書。在進行需求分析的時候,設(shè)計人員至少應(yīng)當(dāng)訪問如下的幾類人:(1)項目負(fù)責(zé)人:對整個項目的宏觀目的和方向有比較精確的把握,對DW項目有全境式的認(rèn)識。(2)主題波及部門的管理人員:理解部門內(nèi)部對數(shù)據(jù)的需求。使得設(shè)計人員可以站在管理人員對數(shù)據(jù)需求的角度來看問題,而不是站在技術(shù)的角度看問題。(3)DSS分析員和未來使用DW系統(tǒng)的最終顧客:從他們那里理解他們目前是怎樣為管理層提供決策輔助信息的,提供信息的內(nèi)容包括哪些,信息的來源有哪些,在處理數(shù)據(jù)中碰到的棘手問題有哪些,另首先是他們對DW系統(tǒng)的需求和但愿,并可以從最終顧客那里理解比較細(xì)致的需求。(4)企業(yè)的信息技術(shù)人員,包括數(shù)據(jù)管理人員(對數(shù)據(jù)質(zhì)量進行管理的人員,不是DBA)、數(shù)據(jù)庫管理員、數(shù)據(jù)庫設(shè)計人員、程序員:從他們那里理解既有業(yè)務(wù)系統(tǒng)是怎樣構(gòu)造的、既有系統(tǒng)的運行狀況、既有系統(tǒng)中存在哪些問題、應(yīng)當(dāng)從哪兒獲取需要的數(shù)據(jù)。各類人員同項目需求的關(guān)系如下圖所示:設(shè)計人員需要將從上述人員那兒理解到的信息進行歸納總結(jié),權(quán)衡各方面的原因,最終給出一種比較詳細(xì)的功能需求描述。下表給出一種收益分析主題的功能需求分析例子。收益分析不一樣步期的收入總量分析及預(yù)測。收益構(gòu)造分析(月租費、當(dāng)?shù)卦捹M、漫游費、入網(wǎng)費、卡費等)功能名稱功能描述度量波及維度維組員品牌和業(yè)務(wù)構(gòu)成收益的品牌構(gòu)成多種品牌在企業(yè)總收益中所占比重和數(shù)量收益、收益比例品牌神州行、全球通收益的業(yè)務(wù)構(gòu)成各項業(yè)務(wù)在企業(yè)總收益中所占比重和數(shù)量收益、收益比例業(yè)務(wù)類別通話、短信息呼喊特性企業(yè)收益的主/被叫構(gòu)成主叫、被叫對于企業(yè)收益的奉獻收益、收益比例主/被叫主叫、被叫企業(yè)收益的呼喊類型構(gòu)成長途、漫游、當(dāng)?shù)貙τ谄髽I(yè)收益的奉獻收益、收益比例通話類型長途、漫游、當(dāng)?shù)仄髽I(yè)收益的呼喊時長構(gòu)成不一樣步長的呼喊對于企業(yè)收益的奉獻收益、收益比例呼喊時長1分鐘如下1~5分鐘5~10分鐘10分鐘以上等客戶特性企業(yè)收益的客戶性別構(gòu)成不一樣性別客戶對于企業(yè)收益的奉獻收益、收益比例、客戶數(shù)量客戶性別男女未知企業(yè)收益的客戶年齡構(gòu)成不一樣年齡段客戶對于企業(yè)收益的奉獻收益、收益比例、客戶數(shù)量客戶年齡段18如下18~22。。。企業(yè)收益的大客戶構(gòu)成大客戶和一般客戶對于企業(yè)收益的奉獻收益、收益比例與否大客戶維大客戶一般客戶企業(yè)收益的客戶類型構(gòu)成企業(yè)收益客戶類型的比例構(gòu)成客戶數(shù)量、比例客戶類型單位、個人企業(yè)收益的不一樣在網(wǎng)時間客戶構(gòu)成不一樣在網(wǎng)時間客戶對于企業(yè)收益的奉獻收益、收益比例、客戶數(shù)量在網(wǎng)時間維一年如下1~2年。。。企業(yè)收益的客戶信用積分構(gòu)成。。。收益、收益比例、客戶數(shù)量客戶信用積分根據(jù)數(shù)據(jù)的詳細(xì)分布企業(yè)收益的客戶信用度層次構(gòu)成。。。信用度客戶信用度按照挖掘后的成果進行劃分企業(yè)收益的客戶消費層次構(gòu)成。。。收益、收益比例、客戶數(shù)量客戶消費層次按照挖掘后的成果進行劃分企業(yè)收益的客戶離網(wǎng)概率層次構(gòu)成。。。收益、收益比例、客戶數(shù)量客戶離網(wǎng)概率層次按照挖掘后的成果進行劃分企業(yè)收益的客戶挽留價值層次構(gòu)成。。。收益、收益比例、客戶數(shù)量客戶挽留價值層次按照挖掘后的成果進行劃分企業(yè)收益的客戶價值層次構(gòu)成。。。收益、收益比例、客戶數(shù)量客戶價值層次按照挖掘后的成果進行劃分企業(yè)收益中小客戶成為大客戶概率層次構(gòu)成。。。收益、收益比例、客戶數(shù)量中小客戶成為大客戶概率層次按照挖掘后的成果進行劃分欠費狀況和預(yù)測欠繳費比例。。。金額(收益)、金額比例、客戶數(shù)量、客戶數(shù)量比例欠繳費欠費、繳費不一樣步期的企業(yè)欠費金額。。。欠費金額時間月、季、六個月、年不一樣步期的企業(yè)欠費數(shù)量。。。欠費客戶數(shù)量時間月、季、六個月、年收益預(yù)測話費收益預(yù)測。。。短信費收益預(yù)測。。。不一樣步期的企業(yè)收益狀況。。。收益收益/欠費比例時間月、季、六個月、年在完畢功能需求后,可以用一種數(shù)據(jù)搜集匯報把所需的不一樣的數(shù)據(jù)源的屬性列出來。此匯報至少包括如下的內(nèi)容:數(shù)據(jù)源(內(nèi)/外部數(shù)據(jù)源)負(fù)責(zé)維護此數(shù)據(jù)的個人/組織設(shè)計該數(shù)據(jù)庫的DBA數(shù)據(jù)使用的存儲方式數(shù)據(jù)中包括的表、字段、記錄的數(shù)據(jù)數(shù)據(jù)的大小數(shù)據(jù)的物理存儲介質(zhì)安全需求數(shù)據(jù)在使用上的限制數(shù)據(jù)與否波及顧客的隱私問題數(shù)據(jù)描述匯報中應(yīng)包括如下內(nèi)容:字段/列的數(shù)據(jù)字段是空缺值的數(shù)據(jù)/比例字段的名字對于每個字段,一般需要記錄:數(shù)據(jù)類型數(shù)據(jù)定義數(shù)據(jù)描述計量單位所有不一樣值的個數(shù)值的列表值的范圍空值的比例搜集信息(例如怎么得到、在哪、什么條件下)時間頻度(每天、每周、每月)尤其時間數(shù)據(jù)主鍵/外鍵關(guān)系第二階段系統(tǒng)構(gòu)造和模型設(shè)計一.系統(tǒng)構(gòu)造設(shè)計1.?dāng)?shù)據(jù)量的估算2.系統(tǒng)硬件構(gòu)造/軟件構(gòu)造選擇:根據(jù)數(shù)據(jù)量的估算,選擇對應(yīng)的軟硬件配制。二.DW模型的設(shè)計1.可運用的數(shù)據(jù):要確定完畢以上3個主題,需要3部分信息:客戶的基本信息表客戶的賬單客戶的呼喊信息表(CDR表)2.粒度確實定:設(shè)計DW中,最重要的環(huán)節(jié)。對于客戶基本信息表采用單一的數(shù)據(jù)粒度即可。對于客戶的賬務(wù)信息也采用單一的數(shù)據(jù)粒度。不過要增長合適的時間段和合適的導(dǎo)出數(shù)據(jù)(按季度綜合、按年度綜合)對于客戶的呼喊信息采用雙重粒度:對于近3~4個月的細(xì)節(jié)呼喊/計費數(shù)據(jù),保留在DW中,并定期聚合成按月綜合表,然后將細(xì)節(jié)數(shù)據(jù)導(dǎo)出至磁帶設(shè)備,為新的細(xì)節(jié)數(shù)據(jù)騰出空間。3.定義DW的關(guān)系模式:這個過程需要第二階段形成的數(shù)據(jù)搜集匯報進行記錄系統(tǒng)的定義。所謂記錄系統(tǒng)的定義就是指明DW中關(guān)系表各個字段來源于哪個業(yè)務(wù)數(shù)據(jù)庫的哪張表的哪個字段。還需要建立一種數(shù)據(jù)字典,將問題中波及的關(guān)鍵詞語的含義、在字段命名中將采用什么關(guān)鍵字等信息記載在數(shù)據(jù)字典中。三.OLAP模型設(shè)計OLAP模型設(shè)計的思緒是先分析問題中也許波及的所有維度,針對每一種主題確定需要的維度和度量變量,然后為每一種主題定義關(guān)系模式,從而形成一種星型構(gòu)造。在這個星型構(gòu)造的基礎(chǔ)上,可以生成多維數(shù)據(jù)表,建立多維數(shù)據(jù)庫。1.項目設(shè)計的維度分析靜態(tài)維度:指客戶詳細(xì)資料維、狀態(tài)維、年齡段維、品牌維等不常常發(fā)生變化的緯度。靜態(tài)維度并不一定是完全不變的,只是相對動態(tài)維度而言。動態(tài)維度:指常常會發(fā)生變化的維度,例如客戶的呼喊地理維度、呼喊時間維度、客戶的費用層次緯度,這些維信息都將伴隨時間的變化而變化。目的維度:需要通過數(shù)據(jù)挖掘分析的目的。根據(jù)項目任務(wù)書中,我們重要的目的有分析客戶的價值、客戶的流失概率、客戶的挽留價值、客戶的信用度等。這些維度在進行DM之前是空缺的,在進行DM之后,運用DM的模型給這幾種指標(biāo)打分,然后在將這些數(shù)據(jù)補充回OLAP的維表和事實表中,供數(shù)據(jù)展現(xiàn)使用。2.各個主題的維度設(shè)計:以收益分析主體的維度設(shè)計闡明書為例:模型名稱:收益分析模塊功能:用于企業(yè)收益構(gòu)成分析對應(yīng)的事實表:profit_s度量:收益,每個顧客賬單記錄產(chǎn)生的總費用金額數(shù)據(jù)粒度:在事實表中,記錄每個顧客每月的費用信息。事實表寄存5年之內(nèi)的數(shù)據(jù),5年以上的數(shù)據(jù)準(zhǔn)時間(月)進行匯總后從事實表中導(dǎo)出。有關(guān)的維度:(1)客戶詳細(xì)資料維(2)客戶性別維(3)客戶年齡段維(4)品牌維(5)收益類別維(6)通話類型維(7)與否大客戶維(8)月總呼喊次數(shù)層次維(9)平均呼喊時長層次維(10)信用積分維(11)信用度層次維(12)消費層次維(13)離網(wǎng)概率層次維(14)挽留價值層次維(15)價值層次維(16)時間維(17)客戶類型維(18)在網(wǎng)時間維注釋:以上各維均與客戶有關(guān),用于分析不一樣客戶群體對企業(yè)收益的奉獻,維的層次和元素與客戶數(shù)量分析模型中相似。收益分析主題的星型構(gòu)造如下:第三部分系統(tǒng)裝載、數(shù)據(jù)挖掘和界面設(shè)計一.?dāng)?shù)據(jù)裝載/數(shù)據(jù)綜合模塊設(shè)計數(shù)據(jù)裝載模塊負(fù)責(zé)從業(yè)務(wù)系統(tǒng)的數(shù)據(jù)表中提取、清洗數(shù)據(jù)以及轉(zhuǎn)化格式變?yōu)镈W中的細(xì)節(jié)表。數(shù)據(jù)綜合模塊運用裝載模塊生成的細(xì)節(jié)表生成各個綜合層次的數(shù)據(jù)表和導(dǎo)出表。在進行數(shù)據(jù)裝載模塊設(shè)計時,需要注意如下幾種問題:定義良好的數(shù)據(jù)清洗規(guī)則:數(shù)據(jù)質(zhì)量的重要保證重視代碼的模塊化和重用性、可維護性。提高代碼的處理效率制定一種調(diào)度計劃:不一樣的裝載程序需要在不一樣的時間運行,設(shè)計人員需要根據(jù)實際系統(tǒng)的狀況,確定一種合理的數(shù)據(jù)抽取計劃,并在DW管理工具中實行這個調(diào)度計劃。二.OLAP模型生成程序OLAP模型生成模塊運用DW中的數(shù)據(jù)構(gòu)建維表和事實表(一般先實現(xiàn)一種主題)。假如需要創(chuàng)立多維數(shù)據(jù)庫,則需要將維表和事實表連接后生成一張詳細(xì)的多維數(shù)據(jù)表,然后在這張多維數(shù)據(jù)表的基礎(chǔ)上創(chuàng)立多維數(shù)據(jù)庫。三.?dāng)?shù)據(jù)挖掘?qū)挶碓O(shè)計和生成要進行DM,需要將所有可以搜集的對分析有用的信息組織成一張非?!皩挕钡臄?shù)據(jù)表,將這張表稱為數(shù)據(jù)挖掘?qū)挶怼?.首先確定同目的變量有關(guān)的數(shù)據(jù):一般需要向該方面的分析專家請教。2.創(chuàng)立新變量:即對細(xì)節(jié)數(shù)據(jù)要進行一定程度的綜合,比原始細(xì)節(jié)數(shù)據(jù)更具有現(xiàn)實意義。3.準(zhǔn)備訓(xùn)練集合與驗證集合數(shù)據(jù)質(zhì)量的檢查選擇合適的數(shù)據(jù)抽樣措施為目的變量附上初始值:目的是為模型準(zhǔn)備訓(xùn)練/驗證數(shù)據(jù)集合,這些初始值并不是最終的成果。根據(jù)算法的需要,對寬表中的變量,尤其是目的變量的形式進行轉(zhuǎn)化:常常將目的變量轉(zhuǎn)化成布爾型變量。例如將目的變量“客戶流失概率”轉(zhuǎn)化為新的目的變量“與否流失”。確定分析的次序:由于目的變量之間存在有關(guān)性,因此需要確定分析的次序。變量選擇:在準(zhǔn)備好數(shù)據(jù)訓(xùn)練/驗證集后,需要將同目的變量具有強有關(guān)性的變量清除。例如:我們要分析客戶價值,就需要將計算客戶價值公式中出現(xiàn)的變量清除,否則DM工具將直接在這些變量和目的變量間建立關(guān)系,而不是我們所但愿的通過劃分客戶與否高價值客戶來發(fā)現(xiàn)高價值客戶在呼喊行為、消費行為、背景信息上的特性。挖掘建模:將訓(xùn)練/驗證集合作為輸入數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論