復(fù)雜網(wǎng)絡(luò)與人類動(dòng)力學(xué)中的常見分布律及數(shù)據(jù)擬合、參數(shù)估計(jì)_第1頁(yè)
復(fù)雜網(wǎng)絡(luò)與人類動(dòng)力學(xué)中的常見分布律及數(shù)據(jù)擬合、參數(shù)估計(jì)_第2頁(yè)
復(fù)雜網(wǎng)絡(luò)與人類動(dòng)力學(xué)中的常見分布律及數(shù)據(jù)擬合、參數(shù)估計(jì)_第3頁(yè)
復(fù)雜網(wǎng)絡(luò)與人類動(dòng)力學(xué)中的常見分布律及數(shù)據(jù)擬合、參數(shù)估計(jì)_第4頁(yè)
復(fù)雜網(wǎng)絡(luò)與人類動(dòng)力學(xué)中的常見分布律及數(shù)據(jù)擬合、參數(shù)估計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

復(fù)雜網(wǎng)絡(luò)與人類動(dòng)力學(xué)中的常見分布律及數(shù)據(jù)擬合、參數(shù)估計(jì)基本術(shù)語連續(xù)分布的概率密度函數(shù)PDF:probabilitydensityfunction離散分布的概率分布函數(shù)PMF:probabilitymassfunction連續(xù)分布的累積分布函數(shù)CDF:cumulativedistributionfunction,F(a)=P(x<a)連續(xù)分布的互補(bǔ)累積分布函數(shù)CCDF:complementarycumulativedistributionfunction,F(a)=P(x>a)方差:variance標(biāo)準(zhǔn)差:standarddeviation均值:mean期望:expectation橫坐標(biāo):abscissa縱坐標(biāo):ordinate 坐標(biāo)系:coordinatesystem最小二乘回歸:Ordinaryleast-square(OLS)regression 極大似然估計(jì):Maximumlikelihoodestimation(MLE)K-S檢驗(yàn):Kolmogorov-Smirnovtest擬合優(yōu)度:Goodness-of-fit 顯著性水平:Significancelevel常見的分布律? 正態(tài)/高斯分布Normaldistribution/Gaussiandistribution連續(xù)型正態(tài)分布是一種最重要最廣泛的分布形式,和其它類型的分布(如泊松分布、二項(xiàng)分布等)有著密切關(guān)系。Thenormal(orGaussian)distributionisacontinuousprobabilitydistributionthathasabell-shapedprobabilitydensityfunction,knownastheGaussianfunctionorinformallythebellcurve.PDF:尸)PDF:尸)一(令)其中為均值,為標(biāo)準(zhǔn)差。,PDF:正態(tài)分布也經(jīng)常寫為:e+e日一(工,PDF:正態(tài)分布也經(jīng)常寫為:e+e日一(工-p%杼)—時(shí)為標(biāo)準(zhǔn)正態(tài)分布standardnormaldistribution正態(tài)分布的累積分布不常用,常用標(biāo)準(zhǔn)正態(tài)分布的累積分布。?對(duì)數(shù)正態(tài)分布Log-normaldistribution連續(xù)型如果一個(gè)隨機(jī)變量的對(duì)數(shù)服從正態(tài)分布,就稱該隨機(jī)變量服從對(duì)數(shù)正態(tài)分布。即:若X是服從正態(tài)分布的

隨機(jī)變量,則Y=隨機(jī)變量,則Y=exp(X)服從對(duì)數(shù)正態(tài)分布;若Y服從對(duì)數(shù)正態(tài)分布,則X=log(Y)服從正態(tài)分布。whereerfcisthecomplementaryerrorfunction,and①isthecumulativedistributionfunctionofthestandardnormaldistribution.? 指數(shù)/負(fù)指數(shù)分布Exponentialdistribution/Negativeexponentialdistribution連續(xù)型指數(shù)分布用于描述泊松過程的時(shí)間間隔,泊松過程中的事件以恒定速率連續(xù)且獨(dú)立發(fā)生。是幾何分布的連續(xù)類別。需要注意的是指數(shù)分布與指數(shù)分布族e(cuò)xponentialfamiliesofdistributions的區(qū)別,后者是一大類分布,包括指數(shù)PDF:分布、正態(tài)分布、二項(xiàng)分布、伽馬分布、泊松分布等。PDF:rr>0,x<Q.其中稱為rateparameter,表示泊松過程的到達(dá)率。CDF:指數(shù)分布的PDFCDF:指數(shù)分布的PDF有時(shí)也會(huì)寫成另外一種形式:其中是的倒數(shù),稱為scaleparameter。指數(shù)分布的一個(gè)重要特征是無記憶性memoryless,即在等待時(shí)間已經(jīng)超過s秒的前提下繼續(xù)等待超過t秒的概率和一開始的時(shí)候等待時(shí)間超過t秒的概率相等。并且,指數(shù)分布和幾何分布是唯一具有無記憶性的概率分布。?泊松分布Poissondistribution離散型泊松分布是離散型概率分布,用于描述在固定的時(shí)間或空間內(nèi),給定數(shù)量的事件發(fā)生的概率。事件以已知平均速率發(fā)生,且獨(dú)立于時(shí)間。I,代人)=Pr(X=&?)=、,whereeisthebaseofthenaturallogarithm(e=2.71828...)andk!isthefactorialofk.

?幕律分布Powerlawdistribution、e土八—心六/土亓… dx=Pr(T<X<j?+di)=Cx~adx>冪律分布的連續(xù)形式:? 一其中X是觀測(cè)值,C是歸一化常數(shù),顯然當(dāng) 時(shí)該式無意義,因此定義xmin來表示服從冪律的最小值。時(shí)有當(dāng)其中是Hurwitzzetafunction。>時(shí)有當(dāng)其中是Hurwitzzetafunction。>冪律分布的離散形式:同樣計(jì)算歸一化常數(shù)得到>定義累積分布CDF:" =一連續(xù)形式:離散形式:連續(xù)形式:離散形式:>冪律分布廣泛存在,其一個(gè)重要特征是標(biāo)度不變性scaleinvariance,即/(CT)=a{cr)fc— (H)ocf{x).也就是說,具有相同標(biāo)度指數(shù)的冪律分布實(shí)際上可以看作另一個(gè)冪律的scaledversion,也正是這樣的特征導(dǎo)致了的犬])和x對(duì)數(shù)之間的線性關(guān)系,即在雙對(duì)數(shù)坐標(biāo)下呈現(xiàn)一條直線。但需要指出的是,不能僅僅憑借這樣的直線就判定分布服從冪律,因?yàn)橛衅渌植荚陔p對(duì)數(shù)坐標(biāo)下也可能呈現(xiàn)直線形式。冪律還具有普適性。如上所述,特有的標(biāo)度指數(shù)可以區(qū)分不同的冪律,因此具有相同標(biāo)度指數(shù)的冪律可視為一個(gè)普適類,于是就有了當(dāng)年Vazquez等人將人類動(dòng)力學(xué)分為冪指數(shù)分為1和1.5的兩個(gè)離散的普適類。此夕卜,這種標(biāo)度不變性本身就意味著一種自相似特征,即Theratiooftheprobabilitiesofoccurrenceoftwosizesx1andx2dependsonlyontheirratiox1/x2andnotontheirabsolutevalues.并且越來越多的發(fā)現(xiàn)證實(shí)冪律與分形在復(fù)雜系統(tǒng)中確實(shí)有著密切聯(lián)系。冪律的判定有多種方法,一般都是判斷其尾部是否服從冪律,因?yàn)殡p對(duì)數(shù)坐標(biāo)下會(huì)更強(qiáng)調(diào)頭部的作用。CDF:尸⑴=Pr(X>x)=C廠p(X)dX=、「X-adX=(二)Jx ^'minJh \min/顯然,冪律分布的累積分布仍然服從冪律,只不過度指數(shù)會(huì)減一。>帕累托定律和齊普夫定律都屬于冪律分布,前者描述的是個(gè)人收入X不小于某個(gè)特定值x的概率與x的常數(shù)次冪存在簡(jiǎn)單的反比關(guān)系;后者描述的是每個(gè)單詞出現(xiàn)的頻率與它的名次的常數(shù)次冪存在的反比關(guān)系。實(shí)際上,二者都是簡(jiǎn)單的冪律函數(shù),Zipf定律是冪律分布在有限值域上的離散形式而Pareto定律是冪律分布的一種累積形式。八LM f】P(x)(X.torxlarge>在有些文獻(xiàn)中,冪律分布也會(huì)寫成如下形式: ,whereL(x)isaslowlyvaryingfunctiondefinedby 'foranyfinitet(typically,withnfinite).Inmathematicallanguage,aL(x)isalogarithmln(x)orpowerofalogarithmsuchasfunctionsuchasissaidtobe“regularlyvarying”.withnfinite).Inmathematicallanguage,a> 在離散情況下,冪律分布的PDF往往還會(huì)用到Riemann-Zeta分布函數(shù)。指數(shù)截?cái)嗟哪宦煞植糚owerlawwithexponentialcutoff帶指數(shù)截?cái)嗟膬缏煞植际莾缏傻囊环N重要變形,是一種冪律與指數(shù)混合的分布形式。其原理非常簡(jiǎn)單,在冪律項(xiàng)后面乘一個(gè)指數(shù)項(xiàng)即可。PDF:?:、‘?’或!指數(shù)截?cái)嘀械闹笖?shù)衰減因子會(huì)在分布尾部超越冪律行為占據(jù)主導(dǎo)作用,這樣的分布不是冪律的近似,而是在尾部之前的有限區(qū)域內(nèi)有近似的標(biāo)度行為。Thisdistributionisacommonalternativetotheasymptoticpower-lawdistributionbecauseitnaturallycapturesfinite-sizeeffects.(關(guān)于finite-sizeeffects詳見EPJB200438205-209:Cut-offsandfinitesizeeffectsinscale-freenetworks)截?cái)嗉蒚runcatedpowerlaw這種分布是指數(shù)截?cái)嗟膬缏煞植嫉牧硪环N叫法,是一種冪律與指數(shù)混合的分布形式,在文獻(xiàn)中,該分布也被視為doublepowerlaw,且這樣的冪律可由stretchedexponentialform擬合。詳見下節(jié)。PDF:p(k)?k~Te~^k^kc\PDF:? 廣延指數(shù)分布Stretchedexponentialdistribution通常我們?cè)陔p對(duì)數(shù)坐標(biāo)下研究?jī)缏桑p對(duì)數(shù)坐標(biāo)有缺陷,并且實(shí)證中的冪律也很難在整個(gè)區(qū)間都表現(xiàn)為一條直線,于是有學(xué)者提出廣延指數(shù)分布,作為整個(gè)區(qū)間上的一種替代性的分布。PDF:曲半1呵世沁參數(shù)往往都小于等于1,顯然當(dāng) 時(shí)即為指數(shù)分布, 時(shí)為指數(shù)冪律混合分布,數(shù)值越小就越偏離指數(shù)而接近冪律,即在雙對(duì)數(shù)坐標(biāo)下表現(xiàn)出線性行為。其它形式:PDF:其它形式:PDF:類似的,當(dāng) 時(shí)為高斯分布, 時(shí)為指數(shù)分布, 時(shí)表現(xiàn)出重尾特征。在上式兩端取兩次對(duì)數(shù),可得【「hL顯然,若在雙對(duì)數(shù)坐標(biāo)下與 的關(guān)系表現(xiàn)為一條直線,則為廣延指數(shù)分布,且斜率即為參數(shù)的值。如下圖所示:?漂移籍律ShiftedpowerlawPDF:8)='收+幻口漂移冪率也是一種綜合了冪律與指數(shù)特征的混合分布形式,其中參數(shù)稱為漂移量,可以控制分布在冪律( )與指數(shù)( )之間自由轉(zhuǎn)換。這種分布在網(wǎng)絡(luò)度分布理論中使用較多,在人類動(dòng)力學(xué)中使用較少。?補(bǔ)充

namedistributionp(T)=Cf(x)加) cpowerlawpowerlawwithcutoffexponentialstretchedexponentiallog-normalL ST)福1,P—Ocp—Aj: 入]—口xe 叩-心工林)C—Ah工 制JVrfcIm)\discretepowerlawYuledistributionexponentialPoissonr(i+a) E )r(imiji)£_人工 (1-g [驢-£霄T引TDefinitionofthepower-lawdistributionandseveralothercommonstatisticaldistributions.數(shù)據(jù)擬合與參數(shù)估計(jì)我們已經(jīng)知道,隨機(jī)變量如果服從冪律分布的話會(huì)在雙對(duì)數(shù)坐標(biāo)下表現(xiàn)為一條直線。然而,直線的尾部可能由于統(tǒng)計(jì)誤差而產(chǎn)生波動(dòng)。解決尾部波動(dòng)的一個(gè)方法是去掉尾部數(shù)據(jù)只擬合前半段,但這樣做是一種舍本逐末的方法,會(huì)丟失其中包含的重要信息。另一種辦法是進(jìn)行裝箱處理,但不論是線性裝箱還是對(duì)數(shù)裝箱也都屬于粗?;椒?,仍然會(huì)產(chǎn)生統(tǒng)計(jì)噪聲。因而常用最后一種方法:計(jì)算累積分布。使用累計(jì)分布不需要進(jìn)行裝箱操作,避免了確定裝箱寬度的問題,并且對(duì)所有數(shù)據(jù)由較好的使用效果,不丟失任何信息。數(shù)據(jù)擬合和參數(shù)估計(jì)有很多辦法,包括計(jì)算累積分布、QQ圖、Loglog圖、Log-binning、OLS、MLE等等,目前的觀點(diǎn)普遍認(rèn)為雙對(duì)數(shù)坐標(biāo)下考察累積分布函數(shù)是正確的做法,冪律分布的指數(shù)應(yīng)用極大似然方法估計(jì),最后進(jìn)行KS檢驗(yàn)。基本步驟如下:構(gòu)造Survivordistribution即thecomplementarycumulativedistributionfunction,也就是統(tǒng)計(jì)物理中的累積分布,數(shù)學(xué)中的累積分布的補(bǔ)分布。原分布也一定要研究,因?yàn)槔鄯e分布并不是十全十美,可能在冪律的區(qū)間上讓人難以判斷,所以要結(jié)

合原分布來判斷是否是冪律,或者偏離冪律的根源。繪圖,在線性、半對(duì)數(shù)、雙對(duì)數(shù)坐標(biāo)下都繪圖,很多分布就可以判斷出來了。如下表所示:linear-linearcoordinateslog-linearcoordinateslog-logcoordinatespowerlaw凸曲線(向下凸)凸曲線直線Gaussian鐘形曲線反拋物線明顯下凹,急速衰減exponential凸曲線直線凹曲線例如:若一個(gè)分布在雙對(duì)數(shù)坐標(biāo)下表現(xiàn)為向上凸起,說明其不是嚴(yán)格的冪律分布,在線性-對(duì)數(shù)坐標(biāo)下觀察,如果是直線,說明是指數(shù)分布,若向下凹,則是一種介于二者之間的分布,可能是Gamma分布,可能是廣延指數(shù)分布。注意不要僅僅在雙對(duì)數(shù)坐標(biāo)系判斷,因?yàn)殡p對(duì)數(shù)下表現(xiàn)為直線的分布不僅僅是冪律,可能是其它類型的分布!附圖,通過圖形判斷分布類型。文獻(xiàn)Modellingcollaborationnetworksbasedonnonlinearpreferentialattachment中對(duì)不同形態(tài)分布的描述。

指數(shù)分布在不同坐標(biāo)下的圖形指數(shù)分布在不同坐標(biāo)下的圖形冪律分布在不同坐標(biāo)下的圖形對(duì)于冪律分布,因?yàn)楫?dāng)變量趨于0時(shí)會(huì)偏離冪律,故需要確定變量符合冪律區(qū)間的最小值。通常的方法要么在圖形上憑視覺判斷Xmin,要么是繪制冪指數(shù)與Xmin的散點(diǎn)圖,這兩種方法都比較主觀,會(huì)受到噪聲和波動(dòng)的干擾。因而較準(zhǔn)確的方法是進(jìn)行KS估計(jì),計(jì)算:

D=max|S(t)—P(時(shí). (3.9)Here$(定)istheCDFofthedatafortheobservationswithvalueatleastrmin7andP(rr)istheCDFforthepower-lawmodelthatbestfitsthedataintheregionx>Emin-Ourestimate吏箱thenthevalueofTminthatininiiiiizesD:'對(duì)變量取對(duì)數(shù)后用最小二乘法進(jìn)行參數(shù)擬合,得到參數(shù)的估計(jì)值。但是使用最小二乘法時(shí)隱含一個(gè)條件,即默認(rèn)實(shí)際數(shù)據(jù)的對(duì)數(shù)與理論值的對(duì)數(shù)之間的偏差服從正態(tài)分布,這一假設(shè)并不合理,所以O(shè)LS法產(chǎn)生的估計(jì)是有偏估計(jì)。需要指出的是,所有基于圖形的擬合都是最小二乘法。用極大似然法估計(jì)參數(shù)值。MLE方法通過極大化模型的似然函數(shù)來估計(jì)參數(shù)值,較為科學(xué)合理。對(duì)于冪律分布來說,常常按照下面的公式對(duì)其參數(shù)進(jìn)行估計(jì):冪指數(shù):其中xmin為x符合冪律部分的的最小值標(biāo)準(zhǔn)差:這兩個(gè)公式都是連續(xù)形式下推導(dǎo)得出的,對(duì)于離散數(shù)據(jù)則復(fù)雜的多,一般也套用這樣的公式。冪指數(shù):其中xmin為x符合冪律部分的的最小值標(biāo)準(zhǔn)差:這兩個(gè)公式都是連續(xù)形式下推導(dǎo)得出的,對(duì)于離散數(shù)據(jù)則復(fù)雜的多,一般也套用這樣的公式。離散整數(shù)數(shù)據(jù)也有下面的近似公式:雖然說目前普遍認(rèn)為最好的方法是累積分布+極大似然估計(jì),但這兩種方法也并非十全十美,累積分布的一個(gè)重要缺陷是在尾部往往會(huì)偏離冪律,故常用的方法是在擬合之前截掉尾部的數(shù)據(jù)。同樣,頭部的數(shù)據(jù)也常常會(huì)被去掉,因?yàn)楝F(xiàn)實(shí)中的冪律分布很難在整個(gè)區(qū)間內(nèi)都很好的服從冪律。上一步進(jìn)行參數(shù)估計(jì)的時(shí)候是假設(shè)數(shù)據(jù)服從某種分布的,而這種假設(shè)或者猜想未必正確,因此需要通過KS檢驗(yàn)進(jìn)行判定。具體步驟如下:①按照下面的公式計(jì)算實(shí)際值和理論值的累積分布之間的最大距離D=max|S(e)—F(x)|「5、 ,得到一個(gè)d值;②令N二數(shù)據(jù)量,即整個(gè)樣本中數(shù)據(jù)的個(gè)數(shù),在下表中查找對(duì)應(yīng)的樣本量。例如:如果N=1354,那么取表中的N=1000,當(dāng)然可以選擇更高的2000,但實(shí)際中樣本量如果不是很接近臨界值如N=1900,選擇近似值即可;Table2.KStesttableforpower-lawdistributions,assumingMIjEestimation.#samplesQuantile0.90.950.990.999100.17650.21030.28350.3874200.12570.14860.20030.2696300.10480.12390.16270.2127400.09200.10750.14390.1857500.08260.09790.12810.17191000.05800.06920.09220.11645000.02580.03070.04120.055010000.01860.02160.02830.035820000.01290.01510.01970.024630000.01020.01180.01550.020240000.00870.01010.01310.017250000.00730.00860.01130.0147100000.00590.00690.00890.0117500000.00250.00340.00610.0077③然后在下表中查找最接近的分位數(shù),如N=1000對(duì)應(yīng)的分位數(shù)0.0186,而剛才計(jì)算得到的D=0.0117,小于該分位數(shù),這就意味著在該顯著性水平下,有超過10%的幾率該分布服從冪律,因此拒絕冪律假設(shè)的證據(jù)不足,可以認(rèn)定該分布服從冪律。重要參考文獻(xiàn)Ming-ShengShang,LinyuanLv,Yi-ChengZhangandTaoZhou.Empiricalanalysisofweb-baseduser-objectbipartitenetworks.EPL,90(2010)48006.(二部圖,廣延指數(shù)分布)TAOZHOU,BING-HONGWANG,etal.MODELLINGCOLLABORATIONNETWORKSBASEDONNONLINEARPREFERENTIALATTACHMENT.InternationalJournalofModernPhysicsC,18(2)(2007)297-314.(網(wǎng)絡(luò)的一些基本概念,truncatedpowerlaw,廣延指數(shù)分布)JeanLAHERREREandDidierSORNETTE.STRETCHEDEXPONENTIALDISTRIBUTIONSINNATUREANDECONOMY:FATTAILSWITHCHARACTERISTICSCALES/冪律--分形,廣延指數(shù)分布的性質(zhì))M.L.Goldstein,S.A.Morris,andG.G.Yen.Problemswithfittingtothepower-lawdistribution.Eur.Phys.J.B41,255258(2004).(KS檢驗(yàn)實(shí)例,分位數(shù)表)HeikoBauke.Parameterestimationforpower-lawdistributionsbymaximumlikelihoodmethods.Eur.Phys.J.B58,167-173(2007).(極大似然估計(jì))Fittingempiricaldistributionstotheoreticalmodels.(分布簡(jiǎn)介與Matlab代碼R代碼)AndreasKlaus,ShanYu,DietmarPlenz.StatisticalAnalysesSupportPowerLawDistributionsFoundinNeuronalAval

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論