短信種子用戶識(shí)別11_第1頁
短信種子用戶識(shí)別11_第2頁
短信種子用戶識(shí)別11_第3頁
短信種子用戶識(shí)別11_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

/基于因子分析和層次分析的手機(jī)短信種子用戶識(shí)別模型李燕寅傅山鋮趙振煜王詩云(沈陽航空航天大學(xué)機(jī)電工程學(xué)院沈陽110136)摘要:本文運(yùn)用各種數(shù)值分析方法,對(duì)大量數(shù)據(jù)進(jìn)行了分析處理,綜合運(yùn)用因子分析法、層次分析法這兩種綜合評(píng)價(jià)法建立了較為準(zhǔn)確地手機(jī)短信種子用戶識(shí)別模型。關(guān)鍵詞:種子用戶、手機(jī)用戶識(shí)別、因子分析、層次分析文件標(biāo)識(shí)碼:A0。引言:隨著移動(dòng)通信、互聯(lián)網(wǎng)業(yè)務(wù)的迅速發(fā)展,手機(jī)已經(jīng)從生活奢侈品變成了生活日用品,是人們?nèi)粘I钪胁豢扇鄙俚囊徊糠帧H藗冞\(yùn)用手機(jī)打電話、發(fā)短信、上網(wǎng)等等,在這些功能之中,短信是手機(jī)用戶最常用的功能之一?,F(xiàn)在,每逢佳節(jié),一些人會(huì)自創(chuàng)或下載節(jié)日祝?;蛴哪绦挪⑷喊l(fā)給其他用戶,收到此類短信的人有時(shí)也會(huì)隨手將其轉(zhuǎn)發(fā)給其他親朋好友。有些頗具創(chuàng)意的短信可能會(huì)引起大量的轉(zhuǎn)發(fā),其中短信種子用戶起到了重要的作用.所謂短信種子用戶,又稱“短信領(lǐng)袖",他們?cè)诖罅堪l(fā)送短信之后,能引起接收者的大量轉(zhuǎn)發(fā),形成強(qiáng)大的傳播能力.因此,精確識(shí)別短信種子用戶,制定相應(yīng)的營銷策略對(duì)運(yùn)營商來說非常有必要。我們研究的內(nèi)容就是通過用戶的基本信息和消費(fèi)信息建立短信種子用戶識(shí)別模型.我們采用的原始數(shù)據(jù)來自2012年“深圳杯全國大學(xué)生數(shù)學(xué)建模夏令營"的用戶信息表。種子用戶評(píng)價(jià)模型種子用戶評(píng)價(jià)模型層次分析因子分析數(shù)據(jù)預(yù)處理原始數(shù)據(jù)模型的整體結(jié)構(gòu)如圖1所示,我們通過對(duì)原始數(shù)據(jù)的分析處理,然后運(yùn)用因子分析法從眾多的用戶屬性中提取出與種子用戶相關(guān)的n個(gè)因子,如果僅僅依靠各個(gè)因子的方差貢獻(xiàn)率來確定每個(gè)因子的權(quán)重,顯然方差貢獻(xiàn)率與種子用戶的識(shí)別沒有必然聯(lián)系。因此,我們采用層次分析法來確定各個(gè)因子的權(quán)重,然后通過將各個(gè)因子的得分與權(quán)重的線性組合得到識(shí)別函數(shù).最后運(yùn)用單目標(biāo)非線性規(guī)劃建立評(píng)價(jià)體系判定用戶是否為種子用戶。問題分析數(shù)據(jù)預(yù)處理由于原始數(shù)據(jù)中存在很多缺失信息、錯(cuò)誤信息,而且,原始數(shù)據(jù)中的變量過多,有的變量屬于重復(fù)變量,不同變量之間的數(shù)量級(jí)相差較大.針對(duì)這些問題,我們對(duì)數(shù)據(jù)處理主要從以下三個(gè)方面進(jìn)行。作者簡(jiǎn)介:李燕寅(1991-),男,沈陽航空航天大學(xué),學(xué)生,tel:。基金項(xiàng)目:2012年遼寧省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(2)缺失值和極端值處理原始數(shù)據(jù)中存在很多極端值、異常值,其中有一部分是統(tǒng)計(jì)時(shí)的錯(cuò)誤造成,但也有一些是真實(shí)的信息,因此為了最大限度保持?jǐn)?shù)據(jù)原貌,我們只刪除一些明顯錯(cuò)誤的數(shù)據(jù),如某些用戶的消費(fèi)金額、市話費(fèi)、通話費(fèi)等屬性為負(fù)值。對(duì)于某些用戶信息的缺失,我們針對(duì)不同的用戶屬性的特點(diǎn)分別采用不同的缺失值處理方法對(duì)數(shù)據(jù)進(jìn)行補(bǔ)充.最后為了便于分析,將字符串型變量轉(zhuǎn)換成數(shù)值變量,如性別M轉(zhuǎn)換為0,F(xiàn)轉(zhuǎn)換為1。數(shù)據(jù)標(biāo)準(zhǔn)化處理由于不同變量的數(shù)據(jù)數(shù)量級(jí)相差較大,為了方便進(jìn)行接下來的分析,運(yùn)用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化法(z-score)對(duì)所有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,化為服從平均數(shù)為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布.用戶屬性精簡(jiǎn)原始數(shù)據(jù)中的用戶屬性條目繁多,有許多屬性是重復(fù)的,有的屬性則是對(duì)短信種子用戶評(píng)價(jià)毫無價(jià)值。通過對(duì)無關(guān)屬性的刪除,對(duì)重復(fù)屬性運(yùn)用相關(guān)系數(shù)法進(jìn)行合并.最后得到了19個(gè)用戶屬性。如表1所示。屬性名稱變量類型屬性名稱變量類型城鄉(xiāng)標(biāo)識(shí)num。市話費(fèi)num。性別num.長(zhǎng)途費(fèi)num。用戶等級(jí)num。漫游費(fèi)num。用戶操作系統(tǒng)num.通話費(fèi)num。手機(jī)價(jià)格num.增值費(fèi)num。是否3Gnum。短信費(fèi)num.套餐檔次num。上網(wǎng)流量num.消費(fèi)金額num.上網(wǎng)時(shí)長(zhǎng)num。流量費(fèi)num.短信發(fā)送量num.相對(duì)年齡num.因子分析因子分析法(FactorAnalysisMethod)是一種降維、簡(jiǎn)化數(shù)據(jù)的技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)系,探求觀測(cè)數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個(gè)“抽象”的變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個(gè)抽象的變量被稱作“因子”,能反映原來用戶評(píng)價(jià)分類工作的進(jìn)行通常是建立在可定量化指標(biāo)的基礎(chǔ)之上,只有建立比較完善的指標(biāo)評(píng)價(jià)體系,采取合理的評(píng)價(jià)方法進(jìn)行評(píng)價(jià),結(jié)果才具有說服力,才能為運(yùn)營商提供合適的決策依據(jù).然而,在多指標(biāo)綜合評(píng)價(jià)方法中,傳統(tǒng)方法對(duì)于權(quán)重的設(shè)置往往帶有一定的主觀隨意性.將因子分析方法運(yùn)用于綜合評(píng)價(jià)方法,克服了傳統(tǒng)評(píng)價(jià)方法在處理指標(biāo)高度相關(guān)和人為確定權(quán)數(shù)的缺陷,使得綜合評(píng)價(jià)結(jié)果唯一,而且客觀合理。用戶資料表中的用戶屬性很多,經(jīng)過數(shù)據(jù)預(yù)處理后,它不但包含22個(gè)量綱不同的指標(biāo),而且并未給出這些指標(biāo)之間的相對(duì)重要性(權(quán)重)。為了確定是否有必要使用因子分析法,我們進(jìn)行了變量相關(guān)性分析。通過SPSS軟件,我們從20個(gè)用戶屬性中提取了11個(gè)因子,又根據(jù)各個(gè)因子的成分得分系數(shù)矩陣,如表1所示。對(duì)每個(gè)因子做出了合理的解釋,如表1所示。提取因子所占權(quán)重通話需求因子0.07上網(wǎng)需求因子0.12短信需求因子0。44用戶等級(jí)因子0.09地域因子0。01年齡因子0.07消費(fèi)能力因子0.02信號(hào)需求因子0.05終端需求因子0.02增值需求因子0.07性別因子0。02層次分析層析分析法(Theanalytichierarchyprocess,簡(jiǎn)稱AHP)是一種定性和定量相結(jié)合的、系統(tǒng)化、層次化的分析方法??紤]到用戶通訊是人的主觀活動(dòng),故采用層次分析法確定用戶屬性的權(quán)重,使得模型更加準(zhǔn)確。我們通過對(duì)用戶屬性的精簡(jiǎn),剔除無關(guān)以及合并相關(guān)用戶屬性,得到了以用戶的基本特征、消費(fèi)特征、通訊特征為準(zhǔn)則層,年齡、城鄉(xiāng)標(biāo)志、消費(fèi)金額、套餐等級(jí)、短信費(fèi)、短信量、通話次數(shù)為方案層建立的層次分模型如圖2所示。運(yùn)用0~9標(biāo)度法對(duì)各個(gè)屬性進(jìn)行重要性判斷,最后得出用戶屬性的權(quán)重如表2所示。種子用戶評(píng)價(jià)模型用戶屬性得分系數(shù)根據(jù)最終得出的各因素的權(quán)重比,建立一個(gè)種子用戶識(shí)別符合度函數(shù)S。式中為因子的成分得分系數(shù)矩陣,為通過層次分析法得出的各個(gè)因子權(quán)重向量。評(píng)價(jià)模型我們構(gòu)造了短信種子用戶得分函數(shù)為用戶i的得分,為用戶i的標(biāo)準(zhǔn)化處理后的屬性值。我們將用戶所得總分進(jìn)行以下劃分:5個(gè)等級(jí)第一等級(jí):該用戶一定為種子用戶(90<100)第二等級(jí):該用戶為種子用戶的可能性較大(80<90)第三等級(jí):該用戶可能為種子用戶(60<80)第四等級(jí):該用戶為種子用戶的可能性較小(40<60)第五等級(jí):該用戶一定不是種子用戶(40)模型評(píng)價(jià)本模型成功的運(yùn)用基于數(shù)據(jù)本身的因子分析法對(duì)大量數(shù)據(jù)進(jìn)行了有效的簡(jiǎn)化,然后運(yùn)用層次分析法對(duì)各個(gè)用戶屬性進(jìn)行綜合評(píng)價(jià),這樣就充分考慮到了客觀和主觀因素的影響,是模型具有更高的準(zhǔn)確度。參考文獻(xiàn):[1](美)金在溫,(美)米勒著.因子分析統(tǒng)計(jì)方法與應(yīng)用問題。上海市:上海人民出版社格致出版社,2012。07.[2]胡永宏,賀思輝編著。綜合評(píng)價(jià)方法.北京市:科學(xué)出版社,2000.[3]杜強(qiáng),賈麗艷編著.SPSS統(tǒng)計(jì)分析從入門到精通。北京市:人民郵電出版社,2009[4]黃宇芳涂玉梅王斌魏智華,中國CDMA手機(jī)用戶消費(fèi)行為分析,廣州,通訊世界,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論