大數(shù)據(jù)財務(wù)決策 課件_第1頁
大數(shù)據(jù)財務(wù)決策 課件_第2頁
大數(shù)據(jù)財務(wù)決策 課件_第3頁
大數(shù)據(jù)財務(wù)決策 課件_第4頁
大數(shù)據(jù)財務(wù)決策 課件_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)財務(wù)決策常用方法“大數(shù)據(jù)財務(wù)決策第三章01聚類分析聚類分析是關(guān)于分組或劃分?jǐn)?shù)據(jù)的方法,目的是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的潛在結(jié)構(gòu)。聚類分析作為從數(shù)據(jù)中獲取知識的重要途徑,是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的一個重要研究領(lǐng)域。定義及算法種類基于劃分的聚類方法⑴K-均值(K-means)聚類算法實(shí)施步驟(2)盡means++聚類算法實(shí)施步驟(3)K-中心點(diǎn)(K-medoids)聚類實(shí)施步驟主要實(shí)施步驟基于層次的聚類方法基于層次的聚類方法的實(shí)施步驟如下:首先,將數(shù)據(jù)集中的每個樣本作為一個簇;其次,根據(jù)不同簇中最近樣本間的距離找到最近的兩個簇,合并這兩個簇,生成新的簇的集合;最后,合并的過程反復(fù)進(jìn)行,直至不能再合并或者達(dá)到終止條件為止。終止條件為:①設(shè)定一個最小距離閾值d,如果最相近的兩個簇間的距離已經(jīng)超過d,則無須合并,即聚類終止;②限定簇的個數(shù)*,如果得到的簇的個數(shù)巳經(jīng)達(dá)到婦則聚類終止。主要實(shí)施步驟基于密度的聚類方法的實(shí)施步驟如下:①通過檢查數(shù)據(jù)集中各個點(diǎn)的,-鄰域來搜索簇,如果點(diǎn)p的A鄰域包含的點(diǎn)多于設(shè)定值,則創(chuàng)建一個以戸為核心對象的簇;而將在核心點(diǎn)鄰域內(nèi)的噪聲點(diǎn)則標(biāo)記為邊界點(diǎn);②迭代地聚集從這些核心對象直接密度可達(dá)的對象,并對所有的密度可達(dá)簇進(jìn)行合并;③重復(fù)①和②,直到?jīng)]有新的點(diǎn)添加到任何簇時,該過程結(jié)束?;诿芏鹊木垲惙椒ㄖ饕獙?shí)施步驟基于劃分的聚類方法⑴K-均值(K-means)聚類算法實(shí)施步驟(2)盡means++聚類算法實(shí)施步驟(3)K-中心點(diǎn)(K-medoids)聚類實(shí)施步驟主要財務(wù)應(yīng)用領(lǐng)域02分類方法1.決策樹的基本原理決策是根據(jù)信息和評價準(zhǔn)則,用科學(xué)方法尋找或選取最優(yōu)處理方案的過程或技術(shù),對于每個事件或決策,都可能引出兩個或多個事件,導(dǎo)致不同的結(jié)果或結(jié)論。把這種分支用一棵搜索樹表示,即叫做決策樹。2.決策樹分類的主要實(shí)施步驟:(1)決策樹的構(gòu)建(2)決策樹的修剪基于決策樹的數(shù)據(jù)分類1.支持向量機(jī)的工作原理SVM是一個二分類或多分類的分類模型。SVM方法是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(對特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(無錯誤地識別任意樣本的能力)之間尋求最佳折中,以期獲得最好的推廣能力(或稱泛化能力)?;谥С窒蛄繖C(jī)的數(shù)據(jù)分類2.支持向量機(jī)算法步驟第一步:識別訓(xùn)練樣本中的正負(fù)樣本,統(tǒng)計樣本總數(shù)m、特征向量維數(shù)〃,建立訓(xùn)練樣本的向量矩陣T;第二步:將樣本的特征向量寫入向量矩陣,如正樣本』,讀取&中的特征項(xiàng),假設(shè)第z?個特征項(xiàng)為0.123,則7I0][z]=0.123o第三步:引入核函數(shù),高斯核函數(shù)的公式為第四步:根據(jù)最優(yōu)決策面公式可得第五步:SVM分類器一次訓(xùn)練過程完畢基于支持向量機(jī)的數(shù)據(jù)分類1.二元logistic回歸模型的原理①選擇能夠代表待分類對象特征的自變量,同時對每個自變量選擇合適的量化方法。②定義自變量的線性組合V,即針對自變量的線性回歸結(jié)果。③將線性回歸結(jié)果y映射到logistic回歸函數(shù),生成一個0?1范圍取值的函數(shù)概率值。④根據(jù)概率值,定義閾值(通常為0.5),判定分類結(jié)果的正負(fù)。⑤重復(fù)以上步驟①?④,直到得出滿意的分類結(jié)果。2.二元logistic回歸模型的主要實(shí)施步驟基于邏輯回歸的分類方法1.成本分析利用分類分析方法能幫助管理者確定成本動因,更加準(zhǔn)確計算成本。同時,也可以通過分析成本與價值之間的關(guān)系,確定采用其最佳策略的成本,持續(xù)改進(jìn)和優(yōu)化企業(yè)價值鏈。管理者可以利用數(shù)據(jù)分類工具來評價企業(yè)的財務(wù)風(fēng)險,建立企業(yè)財務(wù)危機(jī)預(yù)警模型,進(jìn)行破產(chǎn)預(yù)測。破產(chǎn)預(yù)測或稱財務(wù)危機(jī)預(yù)警模型能夠幫助管理者及時了解企業(yè)的財務(wù)風(fēng)險,提前采取風(fēng)險防范措施,避免破產(chǎn)。2.財務(wù)風(fēng)險分析主要財務(wù)應(yīng)用領(lǐng)域03回歸分析1.求解大數(shù)據(jù)邏輯回歸分析的正則化問題描述2.求解大數(shù)據(jù)正則化邏輯回歸問題的方法在大規(guī)模問題下,分布式計算是一種提升計算效率的重要方法,隨機(jī)坐標(biāo)下降法對分布式數(shù)據(jù)有種天然優(yōu)勢,同時隨機(jī)坐標(biāo)下降法也適用于穩(wěn)定數(shù)據(jù),在迭代過程中,坐標(biāo)下降法無法收斂,而隨機(jī)坐標(biāo)下降法通過其隨機(jī)性跳出循環(huán)的迭代值,達(dá)到收斂?;诖髷?shù)據(jù)的回歸分析方法1.貸款違約預(yù)測(1)樣本和指標(biāo)的選擇和數(shù)據(jù)的預(yù)處理(2)預(yù)測結(jié)杲與分析基于大數(shù)據(jù)的回歸分析的財務(wù)應(yīng)用領(lǐng)域2.上市公司財務(wù)預(yù)警(1)樣本和指標(biāo)的選擇和數(shù)據(jù)的預(yù)處理(2)預(yù)警結(jié)果與分析基于大數(shù)據(jù)的回歸分析的財務(wù)應(yīng)用領(lǐng)域04關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘知識模式中比較重要的一種。關(guān)聯(lián)規(guī)則模式屬于描述型模式,挖掘關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)范疇。關(guān)聯(lián)規(guī)則的概念是AgrawakImielinski、Swami提出,隱含于數(shù)據(jù)中的一種簡單而實(shí)用的知識模式,是對一個事物和其他事物相互關(guān)聯(lián)的一種描述。針對數(shù)據(jù)而言是發(fā)現(xiàn)數(shù)據(jù)中項(xiàng)集之間潛在的關(guān)聯(lián)或依賴聯(lián)系。關(guān)聯(lián)規(guī)則分析010203①關(guān)聯(lián)規(guī)則:反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個或多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個事物發(fā)生就能夠預(yù)測與它相關(guān)聯(lián)的其他事物的發(fā)生。②關(guān)聯(lián)規(guī)則分析:用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中令人感興趣的聯(lián)系,所發(fā)現(xiàn)的模式通常用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集的形式表示。關(guān)聯(lián)規(guī)則挖掘問題:給定事務(wù)的集合"關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于或等于minsup并且置信度大于或等于minconf的所有規(guī)則,minsup和minconf是對應(yīng)的支持度和置信度閾值。定義及算法Apriori算法Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法。該算法的先驗(yàn)原理是:如果一個項(xiàng)集是頻繁的,則它的所有子集一定也是頻繁的;相反,如果一個項(xiàng)集是非頻繁的,則它的所有超集也一定是非頻繁的。該算法的核心思想是通過對候選集的產(chǎn)生和對情節(jié)的向下封閉檢測這兩個過程來挖掘頻繁項(xiàng)集。與最小支持度相比較的情況下,大于或等于的集合為頻繁項(xiàng)集,其中的支持度用于表示給定數(shù)據(jù)集的頻繁程度。定義及算法FP-Growth算法FP-Growth算法是釆用樹結(jié)構(gòu)對事務(wù)進(jìn)行壓縮的同時,保留事務(wù)當(dāng)中屬性之間的關(guān)系。該方法并不會產(chǎn)生候選項(xiàng)集,而是通過加大頻繁集方法進(jìn)行數(shù)據(jù)的挖掘。定義及算法CARMA算法CARMA算法的提出是為了在交易集合。中找出數(shù)據(jù)項(xiàng)頻集的集合。CARMA算法的過程是將整個交易集合進(jìn)行遍歷兩次,所以算法可以分為兩個步驟,分別為第一次PhaseI遍歷、第二次PhaseII遍歷。在第一次的遍歷中會產(chǎn)生一個超集,也就是數(shù)據(jù)項(xiàng)頻集的集合,稱之為數(shù)據(jù)項(xiàng)頻集的潛在的集合(PotentiallyLargeItemsets)0在第二次的遍歷過程中會把第一次遍歷所產(chǎn)生的集合進(jìn)行刪減,從而得到最終的結(jié)果。定義及算法基于距離的量化關(guān)聯(lián)算法最初關(guān)聯(lián)規(guī)則的挖掘都是針對交易數(shù)據(jù)庫進(jìn)行的,即布爾型關(guān)聯(lián)規(guī)則的挖掘,使用的都是經(jīng)典的Apriori算法。但實(shí)際生活中關(guān)系型數(shù)據(jù)庫應(yīng)用廣泛,并且大部分包含量化屬性,如工資、年齡。由于量化屬性的有序性和多值性,區(qū)間劃分成為量化關(guān)聯(lián)規(guī)則挖掘的預(yù)處理方法,即把量化屬性離散化,轉(zhuǎn)化成布爾型數(shù)據(jù),再使用經(jīng)典的Apriori算法進(jìn)行挖掘。定義及算法①生成候選集:找出候選集,即有可能成為頻繁集的項(xiàng)集。②生成頻繁集:通過數(shù)據(jù)庫掃描篩選出滿足條件的候選集組成頻繁集。③生成關(guān)聯(lián)規(guī)則:用得到的頻繁集生成關(guān)聯(lián)規(guī)則。?對于每個頻繁項(xiàng)集£,產(chǎn)生匕的所有非空子集。?對于£的每個非空子集s和它的補(bǔ)集a-s),如果條件概率大于最小置信度閾值,則輸出規(guī)則“ST(L-s)”。1.Apriori算法步驟(1)對原始FP樹的創(chuàng)建①對事務(wù)集合所進(jìn)行掃描,將符合支持度計數(shù)條件的項(xiàng)找出來,把這些得到的項(xiàng)合并1-頻繁項(xiàng)集合K,按照支持度計數(shù)把K降序排列從而得到K_nullo對原始FP樹的構(gòu)造,同時將“Null”設(shè)置為根節(jié)點(diǎn)。。2.FP-Growth算法步驟主要實(shí)施步驟③項(xiàng)頭表的構(gòu)建。在項(xiàng)頭表中一個頻繁項(xiàng)用每一行來表示,并且用相應(yīng)的指針向FP樹中的節(jié)點(diǎn),這樣可以使得遍歷原始FP樹變得更加方便。④對事務(wù)集合甲進(jìn)行掃描,將根據(jù)K_null對所中的所有事務(wù)項(xiàng)的順序進(jìn)行整理。對每個整理后的事務(wù)建立一個事務(wù)分支。(2)通過遞歸的方法在FP樹上找出全部的最大頻繁項(xiàng)集①通過遞歸的方法在FP樹上搜索頻繁項(xiàng)集,要是單獨(dú)一個分支在FP樹上,那么在這個分支上的所有節(jié)點(diǎn)的結(jié)合就是一個前綴模式。②釆用同樣的方法在條件FP樹上尋找頻繁項(xiàng)集。③將所有的最大頻繁項(xiàng)集都進(jìn)行取子集的操作,當(dāng)中的每個子集作為一個頻繁項(xiàng)集。①第一次PhaseI遍歷:在第一次的遍歷中會產(chǎn)生一個超集,也就是數(shù)據(jù)項(xiàng)頻集的集合,稱之為數(shù)據(jù)項(xiàng)頻集的潛在的集合(PotentiallyLargeItemsets)。②第二次PhaseII遍歷:在第二次的遍歷過程中會把第一次遍歷所產(chǎn)生的集合進(jìn)行刪減,從而得到最終的結(jié)果。3.CARMA算法步驟主要實(shí)施步驟①對某量化屬性進(jìn)行聚類,形成滿足要求的簇。為了能把屬性間的關(guān)系考慮進(jìn)來,用聚類算法對數(shù)據(jù)的所有屬性整體進(jìn)行聚類,找岀滿足稠密度和頻繁度閾值的簇,然后這些簇投影到用戶所關(guān)心的各個數(shù)值型屬性上。這樣就可以得到簇在各屬性上的投影區(qū)間。②將簇組合得到基于距離的關(guān)聯(lián)規(guī)則。將上步產(chǎn)生的區(qū)間內(nèi)的數(shù)據(jù)作為在各屬性上的簇,再將簇組合,根據(jù)基于距離的關(guān)聯(lián)規(guī)則的定義,找出滿足條件的簇組合,最后形成規(guī)則。4.基于距離的量化關(guān)聯(lián)算法步驟主要實(shí)施步驟公司在經(jīng)營發(fā)展過程中對于客戶信息的管理非常重要,在公司數(shù)據(jù)庫中及時地錄入各種客戶信息,通過對這些客戶的數(shù)據(jù)進(jìn)行充分的挖掘,較為全面地抽象出每一個用戶的信息全貌。然后分析這些用戶的行為,最終為每個用戶打上標(biāo)簽,以及該標(biāo)簽的權(quán)重,這樣能夠快速了解客戶情況并且方便計算機(jī)進(jìn)行處理。對公司客戶的流失、忠誠度以及價值貢獻(xiàn)等信息進(jìn)行關(guān)聯(lián)分析,充分保證每個客戶的行為規(guī)律都能夠被充分地掌握。同時還可以追蹤重要客戶,確保公司為重要客戶提供信息的全面性以及針對性。1.客戶畫像分析主要財務(wù)應(yīng)用領(lǐng)域關(guān)聯(lián)規(guī)則在現(xiàn)實(shí)中的應(yīng)用主要體現(xiàn)在銷售系統(tǒng)當(dāng)中,即確定產(chǎn)品與產(chǎn)品之間的關(guān)聯(lián)性,考慮產(chǎn)品之間的共同趨勢。2.產(chǎn)品銷售預(yù)測主要財務(wù)應(yīng)用領(lǐng)域運(yùn)用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)分析可以在一定程度上降低企業(yè)未來可能面臨的風(fēng)險。例如,可以在網(wǎng)易財經(jīng)、任意券商平臺上搜集所有ST公司四大主要財務(wù)指標(biāo)數(shù)據(jù),并剔除掉含有異?;驓埲睌?shù)據(jù)的公司。然后,把選取的財務(wù)指標(biāo)輸入SAS軟件,使用Apriori算法進(jìn)行數(shù)據(jù)關(guān)聯(lián)挖掘,通過設(shè)置不同的置信度值和支持閾值,在財務(wù)指標(biāo)之間尋找關(guān)聯(lián)規(guī)則數(shù)目,從而找出企業(yè)發(fā)生危機(jī)時哪些指標(biāo)會頻繁出現(xiàn)。對于這些頻繁出現(xiàn)的風(fēng)險性財務(wù)指標(biāo),企業(yè)可以密切關(guān)注并提前采取措施進(jìn)行預(yù)防。。3.風(fēng)險預(yù)測主要財務(wù)應(yīng)用領(lǐng)域05離群點(diǎn)分析Hawkins在1980年給出了離群數(shù)據(jù)的最初定義:“離群數(shù)據(jù)是數(shù)據(jù)集中一些特殊的數(shù)據(jù)對象,這些對象同數(shù)據(jù)集中其他對象明顯不同,從而使人懷疑這些特殊的數(shù)據(jù)對象不屬于隨機(jī)誤差或方差,可能由另一種截然不同的機(jī)制產(chǎn)生?!彪x群點(diǎn)檢測和聚類分析是兩個高度相關(guān)的任務(wù)。聚類分析發(fā)現(xiàn)數(shù)據(jù)集中的相似模式并將其組織成聚簇,而離群數(shù)據(jù)挖掘同聚類分析正好相反,它旨在發(fā)現(xiàn)不相似對象,試圖捕捉那些偏離多數(shù)模式的例外情況。離群點(diǎn)檢測和聚類分析有著不同的用途。離群數(shù)據(jù)挖掘與數(shù)據(jù)演化中的新穎性檢測有關(guān)。內(nèi)涵及特征1.基于距離的離群挖掘方法該類算法的核心步驟是需要反復(fù)計算對象與對象之間的距離,因此,具有較高的時間復(fù)雜度。一種特殊的基于距離的離群挖掘是提出密度的概念,釆用密度來判斷離群,主要應(yīng)用在局部離群數(shù)據(jù)檢測。2.基于近鄰的離群挖掘方法該類方法可以看成是基于距離或基于密度方法的擴(kuò)展,能適用于海量高維的數(shù)據(jù)特征,可用于天體光譜、物聯(lián)網(wǎng)、醫(yī)學(xué)等應(yīng)用領(lǐng)域。主要方法及實(shí)施步驟3.基于子空間的離群挖掘方法基于子空間的離群挖掘方法是通過搜索子空間來檢測異常值。多數(shù)傳統(tǒng)算法是從數(shù)據(jù)集的全維空間中來檢測離群數(shù)據(jù),但隨著海量、高維數(shù)據(jù)的涌現(xiàn),從部分屬性上檢測離群數(shù)據(jù)具有更高價值。通常情況下,高維空間中的數(shù)據(jù)對象是稀疏的,因而源于部分維度而不是源于整個空間的離群數(shù)據(jù)是更加精確、有意義的。主要方法及實(shí)施步驟1.內(nèi)部審計中的大數(shù)據(jù)孤立點(diǎn)分析在金融內(nèi)部審計里,使用大數(shù)據(jù)孤立點(diǎn)分析能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論