通話數(shù)據(jù)分析_第1頁
通話數(shù)據(jù)分析_第2頁
通話數(shù)據(jù)分析_第3頁
通話數(shù)據(jù)分析_第4頁
通話數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、A題通話數(shù)據(jù)分析摘要: 概率統(tǒng)計(jì)知識(shí)與我們的實(shí)際生活息息相關(guān)。由于客觀事物內(nèi)部規(guī)律的復(fù)雜性及人們認(rèn)識(shí)程度的限制,無法分析實(shí)際對(duì)象內(nèi)在的因果關(guān)系,因此我們需 要在大量的數(shù)據(jù)基礎(chǔ)上,基于對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析建立合乎機(jī)理規(guī)律的模型,來解 決日常生活中的一些實(shí)際問題。本論文將利用概率統(tǒng)計(jì)知識(shí)來解決對(duì)通話數(shù)據(jù)的 分析問題從而對(duì)用戶進(jìn)行分類,推出新業(yè)務(wù),改建基站位置。首先,對(duì)于問題一針對(duì)用戶通話記錄數(shù)據(jù)進(jìn)行分類,對(duì)用戶在十天內(nèi)的通話 時(shí)長(zhǎng)及通話次數(shù)做了統(tǒng)計(jì)并對(duì)其進(jìn)行相關(guān)性分析,然后對(duì)主叫者通話時(shí)長(zhǎng)建立了 正態(tài)分布的概率模型,并“3?!痹瓌t將用戶進(jìn)行分類。問題二與問題一承上啟下,對(duì)用戶及用戶通話時(shí)長(zhǎng)采用正態(tài)分布

2、建立模型分 析,據(jù)此挑選適合用戶群體,并提出類似“打一返一”的優(yōu)惠政策,另外,對(duì)基 站的使用情況進(jìn)行統(tǒng)計(jì),將用戶根據(jù)區(qū)域進(jìn)行劃分,提出“局域網(wǎng)”內(nèi)的優(yōu)惠政 策,兩種方案分析對(duì)象不同,卻都是以提高公司利益擴(kuò)展客源為目的提出的。模型三的建立首先時(shí)將基站依據(jù)用戶在十天內(nèi)對(duì)每個(gè)基站的使用次數(shù)及基 站的使用時(shí)間分別做出統(tǒng)計(jì)模型,對(duì)每個(gè)基站使用率及分布地域分析,由此考慮 基站建設(shè)的合理與否給出優(yōu)化建議。我們主要用Matlab處理本問題的相關(guān)數(shù)據(jù)。關(guān)鍵詞:概率統(tǒng)計(jì)模型正態(tài)分布 3。原則基站利用率 線性回歸殘差分析參數(shù)估計(jì)一、問題重述及要求:(一)問題背景通信技術(shù)的不斷發(fā)展拉近了人與人之間的距離。電話作為主要

3、的通信工具之 一悄無聲息地將我們聯(lián)系在一起,形成一個(gè)巨大的社交網(wǎng)絡(luò)。這個(gè)巨大的社交網(wǎng) 絡(luò)對(duì)當(dāng)前的通信設(shè)備和業(yè)務(wù)提出了更高的要求。如何利用現(xiàn)有的通話記錄數(shù)據(jù)進(jìn)行概括分析,以便作出合理的決策,進(jìn)而改 善通信設(shè)施、拓展新的通信業(yè)務(wù),依然是很多通信公司所面臨的一個(gè)難題。(二)問題提出附件給出了一家通信公司公布的2009年6月份某地300個(gè)用戶10天內(nèi)的通 話記錄,試完成以下問題。請(qǐng)根據(jù)這些通話記錄信息建立數(shù)學(xué)模型以對(duì)用戶分類。如果需要推出一款新的通信業(yè)務(wù),如何合理選擇部分用戶作為首選推廣人群。 說明你的理由,并撰寫一份不超過兩頁的給公司經(jīng)理的建議。該地現(xiàn)有的通信設(shè)施(如基站等)建設(shè)情況是否合理。如需改

4、進(jìn),請(qǐng)給出合 理的建議。二、模型基本假設(shè):1、被調(diào)查的三百用戶可以反映本地區(qū)的總體情況;2、用戶在此十天之內(nèi)的通話記錄,可以反映用戶平時(shí)的通話記錄情況;3、用戶的通話時(shí)長(zhǎng)與移動(dòng)公司的利益成正相關(guān);4、不同地域的基站的建站成本和覆蓋范圍一樣;5、調(diào)查地區(qū)以圖中柵格進(jìn)行劃分,將面積接近一個(gè)柵格面積的相鄰區(qū)域當(dāng)作整 體,其它占整個(gè)柵格面積的區(qū)域單獨(dú)作為一個(gè)整體。三、符號(hào)變量及說明:i=1,2,3300代表用戶編號(hào);j=1,2,36221代表300個(gè)用戶十天之內(nèi)打的6221個(gè)電話按時(shí)間排序后對(duì)應(yīng)的序號(hào);k=1,2,330代表30個(gè)基站;a(j)=1,2,3300代表第j次電話對(duì)應(yīng)的用戶編號(hào);b(j)代

5、表第j次電話的電話時(shí)長(zhǎng);s(i)代表第i個(gè)用戶通話總次數(shù);t(i) 代表第i個(gè)用戶通話總時(shí)長(zhǎng);三、模型的建立及求解:1)、問題一模型的建立及求解:1、建立算法對(duì)用戶通話時(shí)長(zhǎng)及次數(shù)統(tǒng)計(jì):主叫者總通話次數(shù)統(tǒng)計(jì)圖對(duì)通話次數(shù)及通話時(shí)長(zhǎng)作線性回歸分析可得:利用Mat lab處理數(shù)據(jù)可得 b = 181.9923bint = 180.8284 183.1561由y = P 0 利用Mat lab處理數(shù)據(jù)可得 b = 181.9923bint = 180.8284 183.1561stats =1.0e+004 *0.0001 NaN NaN 5.0063圖一圖一從上圖可知,用戶通話時(shí)長(zhǎng)與通話次數(shù)近似成正比

6、。因此,下面只對(duì)通話時(shí)長(zhǎng)進(jìn) 行分析。我們可以根據(jù)通話時(shí)長(zhǎng)對(duì)用戶進(jìn)行分類。對(duì)于時(shí)間區(qū)域的確定,從如下 模型得出:1)首先對(duì)不同時(shí)長(zhǎng)段用戶進(jìn)行統(tǒng)計(jì),并作圖;首先對(duì)主叫者通話數(shù)據(jù)進(jìn)行正態(tài)分布估計(jì),由圖可知圖形顯示出直線性形態(tài),所 以主叫者通話總時(shí)長(zhǎng)數(shù)據(jù)來自于正態(tài)分布,這時(shí)因?yàn)槎渌怕史植己瘮?shù)顯示出 曲線形態(tài).主叫者通話數(shù)據(jù)正態(tài)分布檢驗(yàn)(圖二)由圖可知,不同通話時(shí)長(zhǎng)段內(nèi)人數(shù)分布總體呈正態(tài)分布。據(jù)圖可以估計(jì)出其概率 密度圖。3.532.523.532.521.510.50010002000300040005000600070008000900010000X io-4主叫者通話時(shí)長(zhǎng)概率密度圖圖四)根據(jù)正

7、態(tài)分布的特征屬性提示:68%的觀察對(duì)象落在均數(shù)1標(biāo)準(zhǔn)差 之內(nèi)。在均數(shù)土 1.96倍標(biāo)準(zhǔn)差內(nèi)含有9 5%的觀察值。換句話說,在 正態(tài)分布中的,觀察對(duì)象值在均數(shù)2倍標(biāo)準(zhǔn)差之外的頻數(shù)低于5%。 為了研究和討論的方便,我們把-。至。之間的區(qū)域稱為基區(qū)(占 60%強(qiáng)以上),-a 至-2、58a 及以下之間的區(qū)域稱為負(fù)區(qū)(占20% 強(qiáng)以上),a至2、58a及以上之間的區(qū)域稱為正區(qū)(占20%強(qiáng)以上)。 為了需要也可以更細(xì)致的劃分區(qū)域。聯(lián)系到黃金分割、20/80法則, 我們從數(shù)字上可以看到他們之間的驚人相似。當(dāng)然也可以更抽象的 依據(jù)定性劃分主區(qū)、負(fù)區(qū)、正區(qū),但定量關(guān)系應(yīng)保持基本不變,即 60%,2 0%,20

8、%的基本比例。所以基于此題,我們可以根據(jù)以上準(zhǔn)則 將三百個(gè)用戶人數(shù)分成60; 18 0; 60三部分。相應(yīng)的可以確定時(shí)間 段 為 02 60 0 ; 2 60 049 00 ; 4 90 070 00,因此,可 由時(shí)間段對(duì)用戶分類,艮叭時(shí)間段通話人數(shù)02 60060260049 00180490070 00602)、問題二模型的建立及求解:方案一:根據(jù)模型一,可知用戶按時(shí)間段分為三類。為了發(fā)展新客戶穩(wěn)定已有客戶優(yōu)惠老客戶,由上圖分析,每人每天通話時(shí)間平均為370分鐘,因 此我們可以根據(jù)時(shí)間累積量采取優(yōu)惠政策,例如超過2600分鐘的用戶每次打 電話時(shí)實(shí)行“打十(分鐘)返十(分鐘”超過4900分鐘

9、的實(shí)行“打二十(分 鐘)返二十(分鐘)”,以此可以根據(jù)總?cè)巳侯愅?,打得越多送的越多。這樣不 僅加長(zhǎng)了總體通信時(shí)間,給公司帶來了利益,同時(shí)也吸引了大批客戶。另外我 們可以發(fā)現(xiàn)用戶通話時(shí)長(zhǎng)集中在26004900分鐘,因此可以將這個(gè)區(qū)域內(nèi)的 人群作為首選推廣人群。方案二:通過統(tǒng)計(jì)不同時(shí)長(zhǎng)內(nèi)的基站累計(jì)個(gè)數(shù),用matlab作圖將時(shí)長(zhǎng)大 致分為三段。再根據(jù)數(shù)據(jù)確定出不同時(shí)長(zhǎng)段內(nèi)的具體基站,由上述表格發(fā)現(xiàn)大 部分基站使用時(shí)間是在40000分鐘內(nèi)。通話時(shí)間長(zhǎng)的基站主要分布在中心城市 以及周邊相對(duì)集中地區(qū)。因此,我們可以以中心城市為區(qū)域的一定范圍內(nèi)推出 “局域網(wǎng)政策,例如在該范圍內(nèi)的用戶每月可以撥打比正常收費(fèi)情

10、況下更長(zhǎng) 的時(shí)間。以此來吸引更多的客戶加長(zhǎng)通信時(shí)間,從而擴(kuò)寬局域網(wǎng)的范圍使他們 享受到優(yōu)惠政策達(dá)到雙贏目的。不同通話時(shí)長(zhǎng) 內(nèi)基站個(gè)數(shù)累 計(jì)(圖五)通話時(shí)長(zhǎng)(104)所屬基站(紅體為中心城市)041,2,3,4, 5,6,7,8, 9,10,12,14,17, 18, 19, 20, 21, 23, 24, 25, 26, 274913, 15, 16, 2291411, 28, 29, 303)、問題三模型的建立及求解通信的性能可以通過基站覆蓋率來表現(xiàn),以此我們將該調(diào)查地區(qū)以圖中柵格 進(jìn)行劃分,將面積接近一個(gè)柵格面積的相鄰區(qū)域當(dāng)作整體,其它占整個(gè)柵格 面積的區(qū)域單獨(dú)作為一個(gè)整體。(假設(shè)一個(gè)柵格

11、面積為單位1)統(tǒng)計(jì)表格如下:占地面區(qū)域基站積11 30122133 4145 615716817918101通話次數(shù)占地面積/通話次數(shù)863863515111111111211266667171147147135135911 28 291202720271012 13 143420140111513743741216125025013171134134141811041041519198981620115015017211140140182214454451923 24 25338712920261292921271107107基站占地面 積通話時(shí) 長(zhǎng)通話時(shí)長(zhǎng)/占地面 積11 30115929

12、81592982219606960633 41205842058445 61192971929757112126121266811308013080791269692696981012415424154911 28 2913700253700251012 13 1437482624942111516879968799121614570845708131712418324183141811822218222151911703517035162014495444954172112550225502182218208782087區(qū)域23 2419 25369889232962026155175517

13、212711789017890由以上統(tǒng)計(jì)數(shù)據(jù)繪圖如下:單位基站次數(shù)通話率ooz H對(duì)基站通話次數(shù)及時(shí)長(zhǎng)統(tǒng)計(jì)作圖8007006005004003002001000160000各基站通話時(shí)長(zhǎng)長(zhǎng)時(shí)話通4網(wǎng)84長(zhǎng)時(shí)話通4網(wǎng)84啊5100000-_ _ _ _820878000060000291130 2822151613 20921251710 23 2412182761948714226135基站對(duì)基站的通話次數(shù)及通話時(shí)長(zhǎng)作線性回歸分析可得:我們可從通話次數(shù)與通話時(shí)長(zhǎng)圖可知;基站通話次數(shù)與時(shí)長(zhǎng)成正比由單位基站時(shí)長(zhǎng)和次數(shù)通話率圖可知:無論是從通話次數(shù)還是通話時(shí)長(zhǎng)考慮,基 站的使用情況并不均衡,對(duì)大部分

14、基站來說都能在一個(gè)相對(duì)平衡的水平發(fā)揮作 用。對(duì)1,11,15,22這樣的中心城市,基站的通話率較高因而基站的負(fù)載比較高。 所以現(xiàn)有的通訊設(shè)施存在部分不合理。又因?yàn)檫@些中心城市中15,22的使用率相 對(duì)一致。而基站1和11處的通話率則很明顯的偏離于平均水平,尤其是基站11, 因此,在該處應(yīng)相應(yīng)的多建基站進(jìn)行“分流”使基站的利用率處于相對(duì)平衡的狀 態(tài)。而從各個(gè)基站通話時(shí)長(zhǎng)和次數(shù)圖可以看出每個(gè)基站的通話時(shí)長(zhǎng)和通話次數(shù)成 正相關(guān),而1的通話時(shí)長(zhǎng)和次數(shù)明顯不具有線性關(guān)系。猜測(cè)其原因可能是統(tǒng)計(jì)方 面出現(xiàn)誤差,但不影響整體的數(shù)據(jù)分析。四、模型的優(yōu)缺點(diǎn)及改進(jìn):針對(duì)此次建模的三個(gè)問題,我們都一一建立了不同的模型

15、。對(duì)于問題一,分 類有很多種,我們根據(jù)用戶的通話時(shí)長(zhǎng)和次數(shù)進(jìn)行分析得出二者呈正相關(guān),因此 簡(jiǎn)化模型只把通話時(shí)長(zhǎng)作為對(duì)用戶分類的主要指標(biāo)。通過matlab作圖將數(shù)據(jù)進(jìn) 行分類統(tǒng)計(jì),通過圖形直觀的建立起正態(tài)分布模型并采用“3a”原則對(duì)用戶進(jìn) 行分類。本題分類原則較為科學(xué),對(duì)數(shù)據(jù)的分析也較為合理,結(jié)論的得出有一定 的參考意義。對(duì)于問題二,我們應(yīng)該從公司盈利角度出發(fā)同時(shí)又給顧客帶來優(yōu)惠為目的建 立模型。所以模型的建立應(yīng)該從兩方面考慮,一是承接第一問從用戶角度出發(fā), 按時(shí)長(zhǎng)提出優(yōu)惠政策,采取不同時(shí)間段優(yōu)惠不同來激發(fā)更多潛在客戶。二是以基 站為出發(fā)點(diǎn),通過對(duì)基站使用情況統(tǒng)計(jì),將用戶劃分成局域網(wǎng),對(duì)于局域網(wǎng)

16、內(nèi)的 人實(shí)行優(yōu)惠,從而通過擴(kuò)寬局域網(wǎng)范圍提高公司收益。本題的思路較為豐富, 但在一定程度上主觀意識(shí)較強(qiáng),因而只分析了數(shù)據(jù)背后可以提供哪些政策卻缺乏 相關(guān)的理論依據(jù),對(duì)于具體政策提出的原因也沒有給予準(zhǔn)確意見。對(duì)于問題三,我們認(rèn)為一個(gè)基站建設(shè)的合理與否,需要從通信的覆蓋率,一 個(gè)地區(qū)的基站的密集度及基站的承受通信能力等方面考慮。對(duì)密集度定義產(chǎn)生的 模型能很好的放映通信設(shè)施建設(shè)是否合理。但由于是人為將區(qū)域進(jìn)行劃分,并且 在面積估計(jì)方面為方便起見均設(shè)成單位一,缺乏一定實(shí)際意義,所以定量的分析 方面做得不是很精確。五、參考文獻(xiàn):【1】趙靜,但琦,嚴(yán)尚安,楊秀文,數(shù)學(xué)建模與數(shù)學(xué)實(shí)驗(yàn),高等教育出版社, 20

17、08 年:【2】石博強(qiáng),趙金,MATLAB數(shù)學(xué)計(jì)算與工程分析范例教程,中國(guó)鐵道出版社, 2005 牛:【3】姜啟源,數(shù)學(xué)模型,高等教育出版社2000年:【4】沈恒范概率論與數(shù)理統(tǒng)計(jì)教程,高等教育出版社,2006年:六、附錄:部分程序:(1)用戶通話時(shí)長(zhǎng)統(tǒng)計(jì)直方圖首先將“通話1.Xls”導(dǎo)入Mat lab建立 data double 文件1)用戶通話時(shí)長(zhǎng)統(tǒng)計(jì)直方圖a=(data(1:6221,2);%調(diào)入主叫者通話編號(hào)數(shù)據(jù)b=(data(1:6221,5);%調(diào)入主叫者通話時(shí)長(zhǎng)s=zeros(300,1); for i=1:300for j=1:6221;if (a(j)=i);s(i)=s(i

18、)+b(j);endendends%導(dǎo)出每個(gè)主叫者通話總時(shí)長(zhǎng)d=zeros(14,1);for i=1:300for n=1:14if (n-1)*500s(i)&s(i)n*500)d(n)=d(n)+1;endendendd%對(duì)主叫者通話總時(shí)長(zhǎng)統(tǒng)計(jì)排序r=500:500:7000bar(r,d)%畫頻率直方圖bar(r,d)2)主叫者正態(tài)分布均值方差及概率密度函數(shù)程序計(jì)算對(duì)主叫者進(jìn)行正態(tài)分布估計(jì)a=(data(1:6221,2);b=(data(1:6221,5); s=zeros(300,1); for i=1:300for j=1:6221;if (a(j)=i);圖二s(i)=s(i

19、)+b(j); end end ends;%對(duì)主叫者通話數(shù)據(jù)進(jìn)行正態(tài)分布檢驗(yàn)normplot(s)a=(data(1:6221,2);b=(data(1:6221,5); s=zeros(300,1);for i=1:300for j=1:6221;if (a(j)=i);s(i)=s(i)+b(j);endendends;%求平均值%求期望%求平均值%求期望%對(duì)統(tǒng)計(jì)量估計(jì)正態(tài)分布函數(shù)%畫正態(tài)分布函數(shù)圖象d=std(s);m,v=normstat(e,d);y=normpdf(x,e,d);plot(x,y)3.7757e+0031.6010e+006(3)對(duì)主叫者通話時(shí)長(zhǎng)及次數(shù)作線性回歸分析:a=(data(1:6221,2);%調(diào)入主叫者數(shù)據(jù)b=(data(1:6221,5);%調(diào)入主叫者通話時(shí)長(zhǎng)s=zeros(300,1); n=zeros(300,1);for i=1:300for j=1:6221;if (a(j)=i);圖一程序%畫主叫者通話次數(shù)及通話時(shí)長(zhǎng)散點(diǎn)圖s(i)=s(i)+b(j);圖一程序%畫主叫者通話次數(shù)及通話時(shí)長(zhǎng)散點(diǎn)圖n(i)=n(i)+1;endendends;n;plot(n,s,o)%比例系數(shù)%置信區(qū)間%檢驗(yàn)回歸模型的統(tǒng)計(jì)量三個(gè)數(shù)值:相關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論