![(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘在稅收管理中的研究與應(yīng)用.pdf_第1頁](http://file.renrendoc.com/FileRoot1/2019-12/14/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a5/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a51.gif)
![(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘在稅收管理中的研究與應(yīng)用.pdf_第2頁](http://file.renrendoc.com/FileRoot1/2019-12/14/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a5/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a52.gif)
![(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘在稅收管理中的研究與應(yīng)用.pdf_第3頁](http://file.renrendoc.com/FileRoot1/2019-12/14/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a5/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a53.gif)
![(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘在稅收管理中的研究與應(yīng)用.pdf_第4頁](http://file.renrendoc.com/FileRoot1/2019-12/14/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a5/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a54.gif)
![(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘在稅收管理中的研究與應(yīng)用.pdf_第5頁](http://file.renrendoc.com/FileRoot1/2019-12/14/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a5/4ba9f8b9-d51e-4f9a-9c94-300aaa3528a55.gif)
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘在稅收管理中的研究與應(yīng)用.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
摘要 摘要 伴隨著信息高速公路的建設(shè),數(shù)字技術(shù)、數(shù)據(jù)庫技術(shù)迅猛發(fā)展,人類的數(shù)據(jù) 庫罩積累了越來越多的歷史數(shù)據(jù),而從這些海量的數(shù)據(jù)里探索出實(shí)用的有價(jià)值的 信息對(duì)人類社會(huì)的發(fā)展有著重要的指導(dǎo)意義,這便形成了近幾年學(xué)術(shù)研究的熱 點(diǎn),應(yīng)運(yùn)而生的就是“數(shù)據(jù)挖掘”學(xué)科。簡(jiǎn)單的解釋就是通過數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、 人工智能、統(tǒng)計(jì)學(xué)等領(lǐng)域的技術(shù),從數(shù)據(jù)庫或w e b 中提取出隱含的,有應(yīng)用價(jià) 值的知識(shí)和模式,為人們的決策提供有意義的支持和指導(dǎo)。 數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸應(yīng)用到了銀行、證券公司以及零售行業(yè)的領(lǐng)域中,并 且取得了不錯(cuò)的業(yè)績(jī),深受研究人員和商業(yè)組織的青睞。當(dāng)前隨著我國(guó)稅收工作 的不斷完善,稅控系統(tǒng)的應(yīng)用將會(huì)越來越廣泛。它的主要核心技術(shù)在于,通過嵌 入在銷售企業(yè)p o s 終端軟件中,時(shí)時(shí)的采集企業(yè)的銷售數(shù)據(jù),并將企業(yè)完整的銷 售記錄及時(shí)地儲(chǔ)存起來,以便于稅務(wù)機(jī)關(guān)隨時(shí)進(jìn)行核查并進(jìn)行合理的收稅,對(duì)消 除企業(yè)的逃稅、漏稅起著積極的重要作用。 然而,現(xiàn)在銷售行業(yè)的規(guī)模越來越大,企業(yè)的銷售數(shù)據(jù)己越來越龐大,如何 在這些海量的銷售數(shù)據(jù)中挖掘出有意義的,對(duì)國(guó)家稅收有幫助的,并對(duì)企業(yè)的經(jīng) 營(yíng)策略有價(jià)值的知識(shí)便成為了現(xiàn)在一個(gè)重要的研究課題,而數(shù)據(jù)挖掘技術(shù)正是從 這一點(diǎn)出發(fā),利用它本身的各種挖掘技術(shù),從中探索出那些鮮為人知的知識(shí),從 而有效地解決了以上問題。 本文主要從稅收管理分析的角度來討論數(shù)據(jù)挖掘技術(shù)。首先介紹了數(shù)據(jù)挖掘 的概念和一些算法以及商業(yè)智能的應(yīng)用,然后針對(duì)稅控?cái)?shù)據(jù)源進(jìn)行分析處理:大 量數(shù)據(jù)遷移、數(shù)據(jù)預(yù)處理,以及建立稅源檢測(cè)數(shù)據(jù)模型。接著重點(diǎn)研究了聚類算 法。并對(duì)k 一均值算法進(jìn)行了有效的學(xué)習(xí)和改進(jìn),將其良好的整合到第三方開源挖 掘工具一w 酞a 。w e k a 的全名是懷卡托智能分析環(huán)境,已將大量的數(shù)據(jù)挖掘和機(jī) 器學(xué)習(xí)算法嵌入其中,并且為我們提供了算法融入接口。最后通過對(duì)其進(jìn)行算法 的改進(jìn)和界面的更新,達(dá)到用數(shù)據(jù)描述現(xiàn)狀、預(yù)測(cè)趨勢(shì)的目的,使困繞稅務(wù)部門 的零稅申報(bào)、低稅申報(bào)、虛假申報(bào)、發(fā)票違章等難題得到進(jìn)一步解決。 關(guān)鍵詞數(shù)據(jù)挖掘;稅收管理;算法;w e k a a b s t r a c t 曼曼曼曼鼉曼! 曼曼曼曼量皇曼皇曼璺曼璺皇曼寰a i m i a m i 二i i l i i m 鼉曼曼毫曼! 曼蔓皇曼曼曼曼曼曼! 曼曼! 皇曼曼曼曼葛 a b s tr a c t w i t ht h ec o n s t r u c t i o no fi n f o r m a t i o nh i g h w a y , d i g i t a la n dd a t a b a s et e c h n o l o g y h a sb e e ng r e a t l yd e v e l o p e d ,a n do u rd a t a b a s eh a ss t o r e dm o r ea n dm o r eh i s t o r i c a ld a t a h o wt oe x p l o r e rv a l u a b l ei n f o r m a t i o nf r o mt h em a s sd a t ah a sa ni m p o r t a n tg u i d i n g s i g n i f i c a n c et ot h ed e v e l o p m e n to fh u m a ns o c i e t y , w h i c hc a m ei n t ob e i n gt h eh o t f o c u sd a t am i n i n g ,o fa c a d e m i cr e s e a r c hi nr e c e n ty e a r s t h es i m p l ee x p l a n a t i o ni s t h a tw i t ht h et e c h n o l o g yo fd a t a b a s e ,m a c h i n el e a r n i n ga r t i f i c i a li n t e l l i g e n c ea n ds oo n , p i c ku pt h ei m p l i e da n dv a l u a b l ek n o w l e d g ea n dp a t t e r nf r o md a t a b a s eo rw e b ,s oa s t op r o v i d ep e o p l ew i t hs t r o n gs u p p o r ta n dg u i d a n c et om a k ed e c i s i o n d a t am i n i n gt e c h n o l o g yh a sb e e ng r a d u a l l ya p p l i e dt ob a n k s ,s e c u r i t i e s c o m p a n i e s ,a sw e l la st h ea r e ao ft h er e t a i li n d u s t r ya n da c h i e v e dg o o dr e s u l t s ,w h i c h f a s c i n a t e st h er e s e a r c h e r sa n dc o m m e r c i a lo r g a n i z a t i o n s a tp r e s e n t ,w i t ht h e c o n t i n u o u si m p r o v e m e n to fo u rt a xw o r k ,t a x c o n t r o ls y s t e mw i l lb eu s e dm o r ea n d m o r ew i d e l y i t sm a i nc o r et e c h n o l o g yi st oc o l l e c ts a l e sd a t af r o mt i m et ot i m e t h r o u g ht h em o n i t o r i n gs o f t w a r ee m b e d d e d i nt h et e r m i n a lp o s ,a n dw i l lc o m p l e t et h e s a l eo fc o r p o r a t er e c o r d ss t o r e di nat i m e l ym a n n e r , s ot h a tt a xa u t h o r i t i e sv e r i f ya t a n yt i m ea n dt a xr e a s o n a b l y i tp l a y sa l li m p o r t a n tr o l et ot h ee l i m i n a t i o no fc o r p o r a t e t a xe v a s i o n b u tn o w , t h es c a l eo fs a l e si n d u s t r yb e c o m e sb i g g e ra n db i g g e r , t h es a l e sq u a n t i t y b e c o m e sl a r g e ra n dl a r g e r , a n dh o wt oe x c a v a t es i g n i f i c a n t l ya n di n s t r u m e n t a lt ot h e s t a t e st a xv a l u a b l ek n o w l e d g ef o rt h eb u s i n e s ss t r a t e g yh a sc o m ei n t ob e e na n i m p o r t a n tr e s e a r c ht o p i c d a t am i n i n gb a s e d o nt h ea b o v er e q u i r e m e n t ,u s ei t so w na v a r i e t yo fm i n i n ga l g o r i t h m st op r o b et h o s el i t t l e k n o w nk n o w l e d g e ,a sar e s u l t e f f e c t i v e l ys o l v i n gt h ea b o v ep r o b l e m s t h i sp a p e ra i m st od i s c u s sd a t am i n i n gt e c h n o l o g yi nt h ea n a l y s i so ft a x a d m i n i s t r a t i o na s p e c t f i r s t l y , i n t r o d u c et h ec o n c e p to fd a t am i n i n g ,a l g o r i t h m sa n d b u s i n e s si n t e l l i g e n c ea p p l i c a t i o n s e c o n d l y , d ot h ea n a l y s i sa n dp r o c e s s ,f o re x a m p l e , d a t am i g r a t i o n ,d a t ar e p r o c e s s i n g ,a n dc o n s t i t u t i o no fd a t ac h e c km o d e la n ds oo n t h i r d l y , f o c u so nt h ec l u s t e r i n ga l g o r i t h m ,e s p e c i a l l yi m p r o v eo i lk - m e a n sa l g o r i t h m t h e ni n t e g r a t ei ti n t oao p e n s o u r c em i n i n gt o o l ,w e k a ,n a m e dw a i k a t oe n v i r o n m e n t f o rk n o w l e d g ea n a l y s i s ,w h i c hh a sal a r g en u m b e ro fd a t am i n i n ga n dm a c h i n e l e a r n i n ga l g o r i t h m se m b e d d e d ,a n dp r o v i d e u sw i t hi n t e r f a c ef o ra l g o r i t h ma c c e s s a t l a s t ,u s et h eg r a p h i c a li n t e r f a c et oc o m p l e t et h ep u r p o s e o fd e s c r i b ep r e s e n ts i t u a t i o n i i i 北京t 業(yè)人學(xué)t 學(xué)碩十學(xué)位論文 a n df o r e c a s tt h et r e n d ,i no r d e rt os o l v et h et a xd e p a r t m e n tp l a g u e dc o n u n d r u m so f z e r o t a xr e p o r t i n g , l o w t a xr e p o r t i n g ,f a l s er e p o r t i n ga n di n v o i c e sa n t i - r e g u l a t i o n s k e y w o r d sd a t am i n i n g ;t a xm a n a g e m e n t ;a l g o r i t h m ;w e k a i v 獨(dú)創(chuàng)性聲明 本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研 究成果。盡我所知,除了文中特另j j n 以標(biāo)注和致謝的地方外,論文中不包含其他 人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得北京工業(yè)大學(xué)或其它教育機(jī)構(gòu) 的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均 已在論文中作了明確的說明并表示了謝意。 簽名:至盤蘭日期:蘭竺2 笸 簽名: 生& 塹型日期:蘭竺z 臣 關(guān)于論文使用授權(quán)的說明 本人完全了解北京工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán) 保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜炕虿?分內(nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。 ( 保密的論文在解密后應(yīng)遵守此規(guī)定) 簽名: 害龜乏乙導(dǎo)師簽名: 嗍學(xué) 第1 章緒論 1 1 研究背景與意義 第1 章緒論 在信息時(shí)代,數(shù)據(jù)與信息同時(shí)存在,相互依賴。隨著時(shí)代的發(fā)展,我們身邊 充滿了各式各樣的數(shù)據(jù),只有將這些雜亂無章的海量數(shù)據(jù)進(jìn)行甄別、挑選、分析, 轉(zhuǎn)化為信息和知識(shí),才能幫助我們做出明智的選擇。隨著從數(shù)據(jù)到智慧這種層次 的出現(xiàn),數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。 在商業(yè)中,數(shù)據(jù)挖掘被定義為一種新的商業(yè)信息處理技術(shù)。其主要特點(diǎn)是對(duì) 商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提 取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)【1 2 l 【1 6 】【2 6 】。 當(dāng)前,隨著我國(guó)市場(chǎng)經(jīng)濟(jì)的不斷完善和稅收改革的不斷深入,納稅根據(jù)和方 式同益重要,并漸漸出現(xiàn)在我國(guó)的稅收管理工作中。以銷售額為根據(jù)納稅已經(jīng)逐 漸成為是現(xiàn)代稅收的主要方式,它是一種通過利用稅控系統(tǒng)等一系列信息化平 臺(tái),對(duì)企業(yè)的各項(xiàng)銷售數(shù)據(jù)和銷售信息進(jìn)行采集、加工和處理,從而對(duì)企業(yè)征收 合理稅費(fèi)并對(duì)納稅人納稅情況進(jìn)行評(píng)價(jià)的新的管理模式【9 】【2 7 】。 通過對(duì)現(xiàn)有數(shù)據(jù)的分析和利用,可以為稅務(wù)部門決策提供科學(xué)的參考依據(jù), 強(qiáng)化稅收收入分析預(yù)測(cè),規(guī)范數(shù)據(jù)源頭,提高數(shù)據(jù)質(zhì)量。由此稅務(wù)部門可以更好 的掌握企業(yè)的銷售情況,推測(cè)企業(yè)有無逃稅漏稅等問題,并對(duì)將來稅率的改革起 到極其重要的指導(dǎo)作用【2 9 】【3 0 】。 作為占市場(chǎng)主導(dǎo)的企業(yè)來講,通過對(duì)銷售數(shù)據(jù)的挖掘和處理,可以更準(zhǔn)確地 了解市場(chǎng)行情,市場(chǎng)的銷售趨勢(shì),從而編制出一套有效地更適應(yīng)市場(chǎng)發(fā)展的經(jīng)營(yíng) 戰(zhàn)略,更好的推動(dòng)市場(chǎng)的擴(kuò)大和企業(yè)的攀升 2 4 1 。 但是目前,我國(guó)的納稅分析系統(tǒng)還沒有一套完整的可行方案,評(píng)估納稅人員 只能依據(jù)一些常用的指標(biāo)以及一些歷史經(jīng)驗(yàn)做出推算,缺乏科學(xué)依據(jù),而且費(fèi)時(shí) 費(fèi)力,不能進(jìn)行全面有效的評(píng)估考核,得出來的結(jié)果,往往與實(shí)際差異甚大。另 外,由于外界因素的影響,各種指標(biāo)和數(shù)據(jù)維度的建立也會(huì)有波動(dòng)變化,依靠人 工維護(hù)非常困難,常常導(dǎo)致數(shù)據(jù)的分析結(jié)果嚴(yán)重偏離實(shí)際【l 4 1 。 基于此的數(shù)據(jù)挖掘技術(shù)恰恰能夠很好的解決上述各種問題。利用稅控系統(tǒng)這 個(gè)網(wǎng)絡(luò)信息化平臺(tái),可以通過數(shù)據(jù)挖掘找出隱藏在大量歷史數(shù)據(jù)中的有用數(shù)據(jù)模 式,來輔助稅收部門進(jìn)行科學(xué)地科學(xué)的判斷和合理的收稅,使得稅收工作更加客 觀公正,大幅度地提高稅收管理效能。 北京t 業(yè)大學(xué)t 學(xué)碩卜學(xué)位論文 1 2 研究現(xiàn)狀 隨著我國(guó)稅收信息化工作的不斷深入,在各級(jí)稅務(wù)機(jī)關(guān)的信息系統(tǒng)內(nèi)部已經(jīng) 積累了大量的基礎(chǔ)數(shù)據(jù)。這些數(shù)據(jù)本應(yīng)該為稅務(wù)部門即決策者提供大量有用的信 息,但是因?yàn)闆]有得到合理的分析利用,造成了大量的數(shù)據(jù)流失。但是在西方發(fā) 達(dá)國(guó)家,數(shù)據(jù)挖掘與分析技術(shù)已經(jīng)在政府稅務(wù)部門應(yīng)用的非常廣泛并趨于成熟。 澳大利亞稅部門將數(shù)據(jù)挖掘技術(shù)應(yīng)用于稅務(wù)行業(yè),系統(tǒng)經(jīng)過九年的穩(wěn)定運(yùn)行,投 人回報(bào)率達(dá)到1 :1 5 。美國(guó)加利福尼亞州特許稅務(wù)委員會(huì)應(yīng)用數(shù)據(jù)倉(cāng)庫解決方案, 使得征稅效率和政府稅收收人大幅提高,并因此榮獲2 0 0 2 年數(shù)據(jù)倉(cāng)庫協(xié)會(huì)( t d w i ) 最佳實(shí)踐獎(jiǎng)。 相比而言,我國(guó)在同類產(chǎn)品的研究和應(yīng)用與西方國(guó)家還存在一定的差距。盡 管數(shù)據(jù)挖掘已經(jīng)不是一項(xiàng)新的研究領(lǐng)域,但在我國(guó),應(yīng)用在稅收管理分析中卻剛 剛起步。還存在以下不足和缺陷: ( 1 ) 數(shù)據(jù)異構(gòu)、分散 從納稅單位申報(bào)上來的稅收數(shù)據(jù)主要集中在地市級(jí)單位,并沒有統(tǒng)一集中到 省級(jí)或者總局。在實(shí)現(xiàn)了數(shù)據(jù)集成的大部門當(dāng)中,大都把數(shù)據(jù)集中到低級(jí)的稅務(wù) 部門,沒有建立真正意義的數(shù)據(jù)倉(cāng)庫。在數(shù)據(jù)庫使用方面,存在s y b a s e 、o r a c l e 、 s o ls e r v e r 等非單一軟件,其中有些單位甚至使用了兩種以上的數(shù)據(jù)庫軟件。 這樣就不利于稅務(wù)部門進(jìn)行數(shù)據(jù)監(jiān)控與分析。 ( 2 ) 未監(jiān)控真正的數(shù)據(jù)指標(biāo) 這也是當(dāng)前稅收管理中最為嚴(yán)重的問題現(xiàn)在的稅收分析只是針對(duì)各企業(yè)各 單位上報(bào)的稅收數(shù)據(jù)加以分析利用,而高層部門并沒有真正的得到企業(yè)的銷售數(shù) 據(jù)以及盈利情況等。簡(jiǎn)而言之,就是一種盲目的征管,沒有真正到達(dá)以票控稅的 目的。 另外還有很多問題,比如挖掘什么、稅務(wù)部門關(guān)心哪些有用的指標(biāo)等還沒有 明確的限定。這就需要我們認(rèn)真把握數(shù)據(jù)挖掘與納稅評(píng)估的關(guān)系,數(shù)據(jù)挖掘與數(shù) 據(jù)分析的關(guān)系,數(shù)據(jù)挖掘在稅收工作中的地位等??傊?,要明確數(shù)據(jù)挖掘在稅收 管理分析中的目標(biāo)與任務(wù),才更能突出它的作用與意義。 從技術(shù)角度上看,數(shù)據(jù)挖掘是直接服務(wù)于數(shù)據(jù)分析工作的技術(shù)手段,它不僅 是稅收數(shù)據(jù)分析的有力工具,而且代表著稅收分析的發(fā)展方向,即智能化與自動(dòng) 化的決策支持;從政策角度上看,稅收數(shù)據(jù)挖掘不僅是技術(shù)實(shí)現(xiàn)的過程,同時(shí)也 是業(yè)務(wù)精細(xì)化與科學(xué)化的體現(xiàn)。數(shù)據(jù)挖掘是稅收工作的偵聽器,它發(fā)現(xiàn)稅收征管 的薄弱環(huán)節(jié),成為稅收分析、納稅評(píng)估、稅務(wù)稽查、稅收監(jiān)控這一良性互動(dòng)機(jī)制 的發(fā)動(dòng)機(jī)和觸發(fā)器,直接關(guān)系到互動(dòng)機(jī)制的運(yùn)行質(zhì)量,從而解決稅務(wù)部門稅收工 作的盲目性和不合理性,為他們下一步的工作提供科學(xué)合理的決策支持,同時(shí)也 2 第1 章緒論 為企業(yè)的市場(chǎng)規(guī)劃和市場(chǎng)管理提供了有力的證據(jù)和保障。 1 3 本課題的主要研究?jī)?nèi)容 商業(yè)稅收是國(guó)家財(cái)政的重要組成部分,為了對(duì)商業(yè)銷項(xiàng)稅進(jìn)行管理,掌控銷 項(xiàng)數(shù)據(jù),國(guó)家先后出臺(tái)了稅控收款機(jī)標(biāo)準(zhǔn)g b1 8 2 4 0 1 g b1 8 2 4 0 5 等六個(gè)部分, 建立了以商業(yè)收款機(jī)+ 稅控器+ 稅控卡+ 稅控收款機(jī)管理系統(tǒng)的基本工作模式,明 確了以票控稅的基本原則,有利地推動(dòng)了商業(yè)稅收工作的有序進(jìn)行【2 7 1 。 本課題來源于國(guó)標(biāo)g b l 8 2 4 0 7 一商業(yè)自動(dòng)化管理。g b l 8 2 4 0 7 的標(biāo)準(zhǔn)制定面 向大、中型商業(yè)流通企業(yè),在其企業(yè)內(nèi)已有的商業(yè)管理信息系統(tǒng)( m i s ) 基礎(chǔ)上進(jìn) 行稅控功能的改造。通過駐留在商用收款機(jī)操作系統(tǒng)核心層中的軟件模塊,時(shí)時(shí) 監(jiān)控企業(yè)的銷售數(shù)據(jù)源,依照發(fā)票的使用情況繳納稅款,滿足稅務(wù)機(jī)關(guān)進(jìn)行稅收 監(jiān)管的工作需要。 面對(duì)大量的商場(chǎng)銷售數(shù)據(jù),如何構(gòu)建數(shù)據(jù)挖掘平臺(tái)是本課題的關(guān)鍵。數(shù)據(jù)挖 掘系統(tǒng)由算法所支撐,然而各種算法都是有一定的針對(duì)性,針對(duì)特定的數(shù)據(jù)集尋 找高效的算法變的尤為重要。學(xué)習(xí)算法要用到各種不同的參數(shù),需要合適的參數(shù) 值,選擇適當(dāng)?shù)膮?shù)可以使獲得的結(jié)果得到顯著的改善。面對(duì)海量的銷售數(shù)據(jù), 要高效的一次性處理是非常困難的。而計(jì)算機(jī)的內(nèi)存是有限的,如何合理的分配 內(nèi)存,使之能夠高效率的分析和處理數(shù)據(jù)也是本課題的重要研究?jī)?nèi)容。運(yùn)用良好 的數(shù)據(jù)挖掘平臺(tái)挖掘出模式、知識(shí),為稅收監(jiān)管部門提供科學(xué)的決策支持才是本 文的最終目標(biāo)。 本文共分為五章,每章的主要內(nèi)容如下: 第一章為緒論,主要介紹了本課題的背景與研究意義、數(shù)據(jù)挖掘在稅收管理 分析中的作用以及當(dāng)前國(guó)內(nèi)外的研究現(xiàn)狀,最后闡述了課題的來源以及本文的組 織結(jié)構(gòu)。 第二章介紹了數(shù)據(jù)挖掘技術(shù),講解了常用的一些挖掘算法。并就當(dāng)前炙手可 熱的商業(yè)智能領(lǐng)域進(jìn)行了一番論述。最后總結(jié)了兩者密不可分的關(guān)系。 第三章開始進(jìn)入我們數(shù)據(jù)挖掘的前半部分,數(shù)據(jù)的繼承與預(yù)處理。針對(duì)課題 國(guó)標(biāo)g b l 8 2 4 0 7 中異構(gòu)數(shù)據(jù)庫集成技術(shù)進(jìn)行了研究,并將其中的大量監(jiān)控?cái)?shù)據(jù)集 中到同一的數(shù)據(jù)源,建立數(shù)據(jù)倉(cāng)庫,為后續(xù)的挖掘階段打好峰實(shí)的基礎(chǔ)。 第四章針對(duì)挖掘算法做文章,選擇w e k a 作為數(shù)據(jù)挖掘平臺(tái)( 平臺(tái)搭建) ,將 改進(jìn)的聚類算法整合于其中。 第五章應(yīng)用平臺(tái),展開分析與挖掘 第2 章數(shù)據(jù)挖掘與商業(yè)知l i 厶匕h i t 第2 章數(shù)據(jù)挖掘與商業(yè)智能 2 1 數(shù)據(jù)挖掘簡(jiǎn)介 一提到數(shù)據(jù)挖掘( d a t am i n i n g ) ,我們并不陌生?,F(xiàn)實(shí)生活中信息數(shù)據(jù)堆積 現(xiàn)象越來越普遍,并趨于嚴(yán)重化。大量信息在給人們帶來方便的同時(shí)也帶來了一 大堆問題:一是信息過量,難以消化;二是信息真假難以辨識(shí)。人們開始慢慢學(xué) 會(huì)“拋棄信息”,但是由此而引發(fā)海量數(shù)據(jù)中隱藏的知識(shí)常常被我們忽視而當(dāng)作 垃圾丟棄,這就迫切需要。人們逐漸開始考慮,如何才能從大量數(shù)據(jù)中及時(shí)發(fā)現(xiàn) 有用的知識(shí),提高信息利用率? 數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)便應(yīng)運(yùn)而生。 數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉研究領(lǐng)域,如下圖2 - 1 它融合了數(shù)據(jù)庫、人工 智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和面向?qū)ο蠓椒ǖ茸钚录夹g(shù)研究成果,并且正在以一種 全新的概念改變著人類利用數(shù)據(jù)的方式。 圖2 1 數(shù)據(jù)挖掘研究領(lǐng)域 f i g u r e2 - 1r e s e a r c ha r e a so f d a t am i n i n g 2 1 1 數(shù)據(jù)挖掘的概念 數(shù)掘挖掘,又稱為數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)( k n o w l e d g ed i s c o v e r yi nd a t a b a s e , k d d ) 和模式探索( p a t t e r ne x p l o r e ) ,就是通過一定的高效率算法,從大量數(shù)據(jù) 中獲取有效的、新穎的、潛在有用的、最終被人們可理解的模式的非平凡過程。 簡(jiǎn)而言之,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中獲取知識(shí)的過程 3 】。 并非所有的從信息中發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。比如,使用數(shù)據(jù)庫管理系 統(tǒng)查找符合條件的記錄,或通過因特網(wǎng)的搜索引擎查找特定的w e b 頁面,則是信 息檢索( i n f o r m a t i o nr e t r i e v a l ) 領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能 涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù) 北京t 業(yè)火學(xué)t 學(xué)碩十學(xué)位論文 據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖 掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。 2 1 2 數(shù)據(jù)挖掘的方法 數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)隱藏的有價(jià)值的知識(shí),而知識(shí)要通過一定的模式才能 表現(xiàn)出來,數(shù)據(jù)挖掘中有許多知識(shí)表示模式及其所采用的方法,比如關(guān)聯(lián)知識(shí)挖 掘、類知識(shí)挖掘等。 要挖掘必須要有挖掘的對(duì)象。數(shù)據(jù)庫作為常用的挖掘?qū)ο笠褜乙姴货r。數(shù)據(jù) 庫技術(shù)作為一種基本的信息存儲(chǔ)和管理方式,仍然以聯(lián)機(jī)事務(wù)處理( o l t p ) 為核 心應(yīng)用,缺少對(duì)決策、分析、預(yù)測(cè)等高級(jí)功能的支持( d e c i s i o ns u p p o r t ) 機(jī)制。 隨著數(shù)據(jù)庫容量的膨脹,特別是數(shù)據(jù)倉(cāng)庫( d a t aw a r e h o u s e ) 以及w e b 、文本等 新型數(shù)據(jù)源的日益普及,聯(lián)機(jī)分析處理( o l a p ) 、分類、聚類方法等復(fù)雜應(yīng)用逐 漸成為必然,大量的挖掘方式和方法也漸漸地進(jìn)入研究領(lǐng)域。通過對(duì)挖掘中知識(shí) 模式以及挖掘方法的研究,我們可以更清楚地了解數(shù)據(jù)挖掘的本質(zhì)和特點(diǎn)。 下面簡(jiǎn)要介紹一下常用的模式表示方式和方法【2 】 1 6 1 【2 6 】: 1 關(guān)聯(lián)分析 關(guān)聯(lián)關(guān)系表達(dá)的是一個(gè)事件和另一個(gè)事件之間的依賴關(guān)系。關(guān)聯(lián)分析,即 利用關(guān)聯(lián)規(guī)則找出數(shù)據(jù)之間聯(lián)系的方法。它主要是指集中在數(shù)據(jù)庫對(duì)象之間的關(guān) 聯(lián)程度的刻畫。人們提出了多種關(guān)聯(lián)規(guī)則的挖掘算法,如s t e m 、a i s 、d h p 等算 法。最為著名的是a g r a w a l 等提出的a p r i o r i 及其改進(jìn)算法,它表示了一組項(xiàng)目 關(guān)聯(lián)在一起的需要滿足的最低聯(lián)系程度。關(guān)聯(lián)規(guī)則的研究是數(shù)據(jù)挖掘中比較常用 的方法并同漸趨于成熟。 2 分類( c l a s s i f i c a t i o n ) 挖掘 分類分析是數(shù)據(jù)挖掘中一個(gè)重要的目標(biāo)和任務(wù),目前應(yīng)用在商業(yè)中比較多。 分類的目標(biāo)是構(gòu)造一個(gè)分類的模型,該模型可以將數(shù)據(jù)庫中的數(shù)據(jù)按照指定的規(guī) 則映射到給定的類別當(dāng)中去。依照此規(guī)則,數(shù)據(jù)庫中的所有信息總體以幾大特征 ( 幾類) 來最終呈現(xiàn)。要構(gòu)造此分類器,必須要抽出一個(gè)數(shù)據(jù)樣本作為原始輸入 源,然后對(duì)源數(shù)據(jù)進(jìn)行過濾、抽取、以及概念提取等。構(gòu)造分類器的方法大體有 以下幾種: ( 1 )決策樹:經(jīng)常使用分治策略來處理決策樹問題,但是要慎重考慮訓(xùn)練 數(shù)據(jù)過渡擬合的情況,特別是推廣到獨(dú)立的訓(xùn)練集上。i d 3 算法是最典型的決策 樹分類算法,之后i d 4 ,i d 5 ,c 4 5 等都對(duì)其做了進(jìn)一步改進(jìn),但是他們的缺點(diǎn) 就是對(duì)大訓(xùn)練樣本集很難適應(yīng) ( 2 ) 貝葉斯分類:來源于概率統(tǒng)計(jì)學(xué),并且在機(jī)器學(xué)習(xí)中被很好的應(yīng)用。 6 第2 章數(shù)據(jù)挖掘j j 商、l k 智能 貝葉斯分類器的分類原理是通過某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后 驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所 屬的類。目前研究較多的貝葉斯分類器主要有n a i v eb a y e s 、t a n 、b a n 和g b n 。 ( 3 ) 人工神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)技術(shù)是一個(gè)獨(dú)立的研究分支。由于需要較長(zhǎng) 的時(shí)間和其可解性較差,為它的應(yīng)用帶來了苦難。但是,人工神經(jīng)網(wǎng)絡(luò)通過對(duì)局 部情況的對(duì)照比較( 而這些比較是基于不同情況下的自動(dòng)學(xué)習(xí)和要實(shí)際解決的問 題的復(fù)雜性所決定的) ,它能夠推理產(chǎn)生一個(gè)可以自動(dòng)識(shí)別的系統(tǒng),具有較強(qiáng)的干 擾力。 ( 4 ) 遺傳算法:它是一類可用于復(fù)雜系統(tǒng)優(yōu)化的具有魯棒性的搜索算法, 是一種基于進(jìn)化理論的機(jī)器學(xué)習(xí)算法。由于與傳統(tǒng)的優(yōu)化算法相比,它具有以決 策變量的編碼作為運(yùn)算對(duì)象、以適應(yīng)度作為搜索信息、使用多個(gè)點(diǎn)的搜索信息以 及使用概率搜索技術(shù)等特點(diǎn),在函數(shù)優(yōu)化、組合優(yōu)化等研究領(lǐng)域等到了很好的應(yīng) 用。 分類規(guī)則是知識(shí)發(fā)現(xiàn)中應(yīng)用最為廣泛的數(shù)據(jù)挖掘技術(shù)。例如,金融業(yè)中可以 通過客戶分類構(gòu)造一個(gè)分類模型來對(duì)銀行貸款進(jìn)行風(fēng)險(xiǎn)評(píng)估;當(dāng)前的市場(chǎng)營(yíng)銷中 很重要的一個(gè)特點(diǎn)是強(qiáng)調(diào)客戶細(xì)分。客戶類別分析的功能也在于此,采用分類技 術(shù),可以將客戶分成不同的幾大類別,比如呼叫中心設(shè)計(jì)時(shí)可以分為呼叫頻繁的 客戶、偶然大量呼叫的客戶、穩(wěn)定呼叫的客戶等,幫助呼叫中心尋找出這些不同 種類客戶之間的特征,這樣的分類模型可以讓用戶了解不同行為類別客戶的分布 特征;另外在設(shè)計(jì)一個(gè)電子商店時(shí),要涉及到商品分類的原則;安全領(lǐng)域有基于 分類技術(shù)的入侵檢測(cè)等??傊跀?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域、分類規(guī)則起著不可替 代的作用。 3 聚類( c l u s t e r ) 分析 聚類是以統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等為依托,把一組個(gè)體按照相似性規(guī)則歸成若干 個(gè)類的方法,目的是使的屬于同一類別的個(gè)體之間的差別盡可能的小,而不同類 別上的個(gè)體間的差別盡可能的大。聚類分析是由若干模式組成的。通常,模式是 一個(gè)度量的向量,或者是多維空間中的一個(gè)點(diǎn)。聚類分析以相似性為基礎(chǔ),在一 個(gè)聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。 聚類的用途是很廣泛的。在商業(yè)上,聚類可以幫助市場(chǎng)分析人員從商業(yè)m i s 數(shù)據(jù)庫中區(qū)分出不同的消費(fèi)群體來,并且概括出每一類消費(fèi)者的消費(fèi)模式或消費(fèi) 觀念,可以幫助稅務(wù)部門更好的了解企業(yè)或個(gè)人的消費(fèi)行為,這也是本文介紹的 重點(diǎn)內(nèi)容。它作為數(shù)據(jù)挖掘中的個(gè)模塊,可以作為一個(gè)單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù) 庫中分布的一些深層的信息,并且概括出每類的特點(diǎn),或者把注意力放在某 個(gè)特定的類上以作進(jìn)一步的分析;并且,聚類分析也可以作為數(shù)據(jù)挖掘算法中其 他分析算法的一個(gè)預(yù)處理步驟。 7 北京t 業(yè)大學(xué)t 學(xué)碩十學(xué)位論文 2 0 0 0 年,h a n 等研究者歸納了基于分類、層次、密度、網(wǎng)格和模型等五大聚 類算法,它們?cè)谀壳暗膽?yīng)用中具有典型的代表性: ( 1 ) 分裂法( p a r t i t i o n i n gm e t h o d s ) :給定一個(gè)有n 個(gè)元組或者紀(jì)錄的數(shù)據(jù)集, 分裂法將構(gòu)造k 個(gè)分組,每一個(gè)分組就代表一個(gè)聚類,k n 。而且這k 個(gè)分組 滿足下列條件:一是每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;二是每一個(gè)數(shù)據(jù)紀(jì)錄屬 于且僅屬于一個(gè)分組;對(duì)于給定的k ,算法首先給出一個(gè)初始的分組方法,以后 通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好, 而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的紀(jì)錄越遠(yuǎn)越 好。使用這個(gè)基本思想的算法有:k m e a n s 算法、k m e d o i d s 算法、c l a r a n s 算法。 ( 2 ) 層次法( h i e r a r c h i c a lm e t h o d s ) :這種方法對(duì)給定的數(shù)據(jù)集進(jìn)行層次 似的分解,直到某種條件滿足為止。具體又可分為“自底向上和“自頂向下 兩種方案。例如在“自底向上 方案中,初始時(shí)每一個(gè)數(shù)據(jù)紀(jì)錄都組成一個(gè)單獨(dú) 的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個(gè)組,直到所有的記 錄組成一個(gè)分組或者某個(gè)條件滿足為止。代表算法有:b i r c h 算法、c u r e 算法、 c h a m e l e o n 算法等; ( 3 ) 基于密度的方法( d e n s i t y b a s e dm e t h o d s ) :基于密度的方法與其它方 法的一個(gè)根本區(qū)別是:它不是基于各種各樣的距離的,而是基于密度的。這樣就 能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點(diǎn)。這個(gè)方法的知道思想 就是,只要一個(gè)區(qū)域中的點(diǎn)的密度大過某個(gè)閥值,就把它加到與之相近的聚類中 去。代表算法有:d b s c a n 算法、o p t i c s 算法、d e n c l u e 算法等; ( 4 ) 基于網(wǎng)格的方法( g r i d - b a s e dm e t h o d s ) :這種方法首先將數(shù)據(jù)空間劃 分成為有限個(gè)單元( c e l l ) 的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個(gè)的單元為對(duì)象的。 這么處理的一個(gè)突出的優(yōu)點(diǎn)就是處理速度很快,通常這是與目標(biāo)數(shù)據(jù)庫中記錄的 個(gè)數(shù)無關(guān)的,它只與把數(shù)據(jù)空i 日j 分為多少個(gè)單元有關(guān)。代表算法有:s t i n g 算法、 c l i q u e 算法、w a v e c l u s t e r 算法; ( 5 ) 基于模型的方法( m o d e l - b a s e dm e t h o d s ) :基于模型的方法給每一個(gè)聚 類假定一個(gè)模型,然后去尋找能很好的滿足這個(gè)模型的數(shù)據(jù)集。這樣一個(gè)模型可 能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。它的一個(gè)潛在的假定就是:目標(biāo) 數(shù)據(jù)集是由一系列的概率分靠所決定的。通常有兩種嘗試方向:統(tǒng)計(jì)的方案和神 經(jīng)網(wǎng)絡(luò)的方案。 俗話說:“物以類聚,人以群分”。在自然科學(xué)和社會(huì)科學(xué)當(dāng)中,存在著大量 的分類聚類問題。分類分析與聚類分析相輔相成,它們之間既存在相同點(diǎn)也存在 不同點(diǎn)。聚類分析是研究分類問題的一種統(tǒng)計(jì)分析方法,起源于分析方法學(xué)。他 們的目標(biāo)最終都是把特定的數(shù)據(jù)源歸成幾類,但聚類與分類不同。前者是通過對(duì) 第2 蘋數(shù)據(jù)挖 j i 與髑j l k 桿能 曼曼曼曼曼iii 一 一 i i ii 鼉曼曼曼曼曼曼! 曼曼曼! 曼曼皇! 曼曼曼! 曼曼曼曼! ! 曼曼! 苧曼曼皇曼曼曼曼皇曼曼舅 數(shù)據(jù)的分析生成新的類標(biāo)識(shí),而后者是在特定的類標(biāo)識(shí)下找出新元素的歸屬類。 聚類沒有訓(xùn)練事例和預(yù)先定義的類標(biāo)識(shí)。在通常情況下,聚類分析形成一些概念, 即一組數(shù)據(jù)可以用一個(gè)概念來概括,由此大量的源數(shù)據(jù)可以按照一定的算法歸納 成幾個(gè)類或簇,這樣一來我們最終可以根據(jù)不同簇的特點(diǎn)性質(zhì)得出不同的結(jié)論。 在稅收管理分析中,根據(jù)不同商品的銷售情況得出不同的模式,采用不同的措施 是我國(guó)稅收征管的必然趨勢(shì)。 4 預(yù)測(cè)性分析 預(yù)測(cè)是數(shù)據(jù)挖掘中非常重要的任務(wù)之一。它指的是根據(jù)歷史的和當(dāng)前的實(shí)例 數(shù)據(jù)總結(jié)出知識(shí)、模式,并能推測(cè)未來數(shù)據(jù)趨勢(shì)走勢(shì)的方法。預(yù)測(cè)型挖掘主要有 兩大方法:分類預(yù)測(cè)和時(shí)間序列預(yù)測(cè)。 ( 1 ) 分類預(yù)測(cè):首先對(duì)輸入樣本進(jìn)行分析處理,得出數(shù)據(jù)的分類模型。這 個(gè)過程可以利用分類技術(shù)的各種算法( 決策數(shù)、遺傳算法等) ,然后利用當(dāng)前剩 余的大量數(shù)據(jù)進(jìn)行模型的驗(yàn)證并不斷地對(duì)模型進(jìn)行修正,最后對(duì)未來新的數(shù)據(jù)依 照模型進(jìn)行歸類,達(dá)到預(yù)測(cè)的目的。 ( 2 ) 統(tǒng)計(jì)預(yù)測(cè):和分類預(yù)測(cè)有很大的不同,在統(tǒng)計(jì)學(xué)中的預(yù)測(cè)是指根據(jù)時(shí) 間序列建立數(shù)學(xué)模型,然后對(duì)未來的某一時(shí)刻可能發(fā)生的情況進(jìn)行預(yù)測(cè)。由于這 類預(yù)測(cè)方法是以時(shí)間為關(guān)鍵屬性的,所以可以稱為時(shí)間序列分析。如對(duì)數(shù)據(jù)源中 某一個(gè)變量x ( t ) 按照時(shí)間先后順序進(jìn)行觀察和分析,在一段觀察時(shí)刻t 1 ,t 2 , t 3 t n ( t 為時(shí)間的先后順序) ,會(huì)得到一組離散的數(shù)值。這就組成了一個(gè)時(shí)間序 列集合。時(shí)間序列分析是對(duì)系統(tǒng)觀測(cè)得到的時(shí)間序列數(shù)據(jù)建立模型的理論依據(jù), 一般采用曲線擬合、參數(shù)估計(jì)和回歸預(yù)測(cè)方法。 一 預(yù)測(cè)型的數(shù)據(jù)挖掘是建立在統(tǒng)計(jì)學(xué)、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)技術(shù)之上的。現(xiàn)在 已經(jīng)有了成熟的幾類模式: ( 1 ) 趨勢(shì)預(yù)測(cè)模式:主要針對(duì)那些具有時(shí)序?qū)傩缘臄?shù)據(jù),如股票價(jià)格,蔬 菜價(jià)格等。 ( 2 ) 序列模式:主要是指在一段時(shí)間內(nèi)根據(jù)某幾個(gè)事件序列發(fā)生的次序以 及出現(xiàn)的頻繁程度來進(jìn)行預(yù)測(cè)的模式。例如在商場(chǎng)銷售中,很多顧客先買了油漆, 然后買家具,接著買家電,那么在 就很有可能是一條序列模 式。 ( 3 ) 神經(jīng)網(wǎng)絡(luò)模式:通過對(duì)歷史數(shù)據(jù)的分析建立神經(jīng)網(wǎng)絡(luò)模型,但是要學(xué) 會(huì)基于時(shí)時(shí)數(shù)據(jù)不斷地更新此網(wǎng)絡(luò)模型。 預(yù)測(cè)分析一直是數(shù)據(jù)分析的目標(biāo),作為數(shù)據(jù)挖掘的一個(gè)有重要實(shí)際意義的分 支,在商場(chǎng)應(yīng)用中,它可以從顧客序列中挖掘出大多數(shù)人的連續(xù)購(gòu)買模式,并且 可以幫助稅務(wù)部門確定大量交易數(shù)據(jù)中多種商品層次中隱含的鮮為人知的序列 模式,對(duì)我國(guó)稅收管理具有重要的現(xiàn)實(shí)意義。 9 北京t 業(yè)人學(xué)t 學(xué)碩- t ? 學(xué)位論文 2 2 商業(yè)智能 當(dāng)商業(yè)智能( b u s i n e s si n t e l l i g e n c e ) 像旋風(fēng)一樣席卷國(guó)內(nèi)時(shí),b i 的概念就猶 如滿天飛絮一樣,飄落在人們的腦海罩。但是在當(dāng)今的i t 界,還是有相當(dāng)多人 對(duì)b i 的認(rèn)識(shí)和認(rèn)知很淺薄。我們不得不承認(rèn)商業(yè)智能的出現(xiàn)與數(shù)據(jù)挖掘是分不 開的。伴隨著經(jīng)濟(jì)的商業(yè)化,對(duì)商業(yè)數(shù)據(jù)分析和處理的需求越來越強(qiáng)烈,可以說 商業(yè)智能為我們正確的了解和應(yīng)用商務(wù)活動(dòng)提供了一種解決方案。 2 2 1 商業(yè)智能的概念 商業(yè)智能的概念最早是g a r t n e rg r o u p 于1 9 9 6 年提出來的。當(dāng)時(shí)將商業(yè)智能 定義為一類由數(shù)據(jù)倉(cāng)庫( 或數(shù)據(jù)集市) 、查詢報(bào)表、聯(lián)機(jī)分析、數(shù)據(jù)挖掘、數(shù)據(jù) 備份和恢復(fù)等部分組成的,以幫助企業(yè)決策為目的的技術(shù)及其應(yīng)用。而現(xiàn)在商業(yè) 智能有了更新更深刻的含義: 1 行業(yè)應(yīng)用b i 解決方案的價(jià)值已經(jīng)逐步成為企業(yè)之間競(jìng)爭(zhēng)的有力武器和目 標(biāo)追求 b i 應(yīng)用作為近幾年中國(guó)i t 界增長(zhǎng)最快的一個(gè)領(lǐng)域,在國(guó)外該系列產(chǎn)品可以 賣到幾十萬甚至上百萬人民幣,國(guó)內(nèi)產(chǎn)品也要賣到幾萬到幾十萬人民幣。企業(yè)只 要認(rèn)知了這個(gè)平臺(tái)價(jià)值,它就能給在當(dāng)今市場(chǎng)競(jìng)爭(zhēng)激勵(lì)的i t 企業(yè)帶來新的利潤(rùn) 增長(zhǎng)點(diǎn),創(chuàng)造高額的利潤(rùn)。其實(shí),許多i t 企業(yè)經(jīng)過多年的運(yùn)作,在不同的領(lǐng)域 里都積累了不少的“行業(yè)經(jīng)驗(yàn)”,例如在保險(xiǎn)、電信、公安等等領(lǐng)域都有相當(dāng)豐富 的“行業(yè)經(jīng)驗(yàn)”和資源,如果能充分認(rèn)知b i ,并能借助b i 工具的優(yōu)勢(shì),搭建行業(yè) b i 解決方案平臺(tái),將會(huì)使企業(yè)如虎添翼,充分發(fā)揮出“行業(yè)經(jīng)驗(yàn)”的價(jià)值。 2 b i 中的統(tǒng)計(jì)報(bào)表與分析挖掘 首先現(xiàn)代商務(wù)中對(duì)報(bào)表的需求己逐漸加大。而b i 中的信息處理包括查詢和 基本的統(tǒng)計(jì)分析,如使用交叉表、圖表或者圖進(jìn)行報(bào)表的展示。分析處理支持基 本的o l a p 操作,如上鉆、下鉆、旋轉(zhuǎn)、切片和切塊等,其表現(xiàn)形式也大都以報(bào) 表為主,并且數(shù)據(jù)源并不只包含傳統(tǒng)報(bào)表的數(shù)據(jù)庫數(shù)據(jù)源,而且融入了各種各樣 的跟企業(yè)運(yùn)作相關(guān)的數(shù)據(jù)形式。其次引入了數(shù)據(jù)倉(cāng)庫的概念。因?yàn)閿?shù)據(jù)倉(cāng)庫夠大、 夠清楚、夠全面,并且對(duì)統(tǒng)計(jì)分析需要的數(shù)據(jù)源支持得夠好,這些優(yōu)點(diǎn)是傳統(tǒng)的 數(shù)據(jù)庫沒有的,數(shù)據(jù)倉(cāng)庫的概念后面一章會(huì)有所介紹。 2 2 2 商業(yè)智能的工具與基本步驟 商業(yè)智能的實(shí)現(xiàn)包含了“數(shù)據(jù)一信息一知識(shí)一智慧一決策”這一過程所運(yùn)用 l o 第2 章數(shù)據(jù)挖掘與商業(yè)智能 的技術(shù)和方法。在國(guó)外已經(jīng)具有廣闊的應(yīng)用前景,吸引了相當(dāng)對(duì)的軟件商為其提 供解決方案。其中有m i c r o s o f t 、i b m 、o r a c l e 、s y b a s e 以及s a s 公司等。一個(gè) 完整的b i 應(yīng)用需要e t l 工具、數(shù)據(jù)倉(cāng)庫工具、o l a p 工具、數(shù)據(jù)挖掘工具和報(bào)表 查詢工具。表2 1 列出了這方面的幾款主要產(chǎn)品【4 】: 表2 - i 商業(yè)智能的兒款常見產(chǎn)品 t a b l e2 - 1s o m ec o m m o nb u s i n e s si n t e l l i g e n c ep r o d u c t s 公司名稱e t l 工具數(shù)據(jù)倉(cāng)庫管理工具o l a p 工具數(shù)據(jù)挖掘j i 具報(bào)表1 :具 m i c r o s o f ts s i s s q ls e r v e r s s a ss s a ss s r s i b mw a r e h o u s ev i s u a lw a r e h o u s eo l a p i n t e l l i g e n ti n s i g h t m a n a g e r s e r v e rm i n e r o r a c l ee t ls e r v e r e n t e r p r i s em a n a g e re x p r e s s d a r w i n e x p r e s s s e r v e r a n a l y s e r s y b a s er e p l i c a t i o n 腸r e h o u s es t u d i o胎r e h o u s es a ss p s si n f om a k e r s e r v e r a n a l y z e r p o w e r s t a g e w e k a 作為研究和學(xué)習(xí)的開源挖掘工具也得到了良好的應(yīng)用。其中集合了大 量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、 聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。與以上工具相比,在非商業(yè) 領(lǐng)域占有一席之地,本文后續(xù)會(huì)有詳細(xì)的研究。 除了選取合適的工具以外,還要明確b i 實(shí)施的目標(biāo)任務(wù),并且按照j 下確的 邏輯步驟,才會(huì)取得良好的實(shí)效。以下是實(shí)施商業(yè)智能的主要步驟: ( 1 ) 需求分析:需求分析是商業(yè)智能運(yùn)作的第一步,在其他活動(dòng)開展之前 必須明確的定義企業(yè)對(duì)商業(yè)智能的期望和需求。包括需要分析的主題,各主題可 能查看的角度( 維度) ,需要發(fā)現(xiàn)企業(yè)那些方面的規(guī)律等??傊脩舻男枨蟊仨?明確 ( 2 ) 數(shù)據(jù)倉(cāng)庫建模:通過對(duì)客戶需求的分析,建立企業(yè)數(shù)據(jù)倉(cāng)庫的邏輯模 型和物理模型,并規(guī)劃好系統(tǒng)的應(yīng)用架構(gòu),將企業(yè)各類數(shù)據(jù)按照分析主題進(jìn)行組 織和歸類。 ( 3 ) 數(shù)掘抽?。簲?shù)據(jù)倉(cāng)庫建立后需將數(shù)據(jù)從業(yè)務(wù)系統(tǒng)中抽取到數(shù)據(jù)倉(cāng)庫中, 簡(jiǎn)稱數(shù)據(jù)集中。在抽取的過程中還必須將數(shù)據(jù)進(jìn)行預(yù)處理、轉(zhuǎn)換、清洗,以適應(yīng) 后面分析的需要。 ( 4 ) 挖掘平臺(tái)搭建:商業(yè)智能的關(guān)鍵。根據(jù)需求選擇合適的挖掘算法創(chuàng)建 智能分析平臺(tái)。基于此平臺(tái)可以輕松的創(chuàng)建商業(yè)智能分析報(bào)表。用良好的界面形 式呈現(xiàn)給客戶。 ( 5 ) 模式知識(shí)的發(fā)現(xiàn):利用創(chuàng)建好的智能系統(tǒng),通過對(duì)大量數(shù)據(jù)的分析處 理,隱藏的、為決策者所關(guān)心的知識(shí)模式是不難發(fā)現(xiàn)的。 北京t 業(yè)大學(xué)t 學(xué)顧十學(xué)位論文 2 2 3 商業(yè)智能的作用與意義 下面2 - 2 以圖示的形式展示了商業(yè)智能帶給我們的方便與快捷。 發(fā)生事件,文數(shù)據(jù)倉(cāng)庫( 1 v 7 以輻嘉1 1 遼一 界面展示,獲取 分析問題c * a 嗡 ? 。、決策需要的各種 n 一1 數(shù)據(jù) f ,j l 橢幽籬圈 黑 圖2 2 商業(yè)智能的作用 f i g u r e2 - 2t h er o l eo fb u s i n e s si n t e l l i g e n c e 由圖可以看出運(yùn)用商業(yè)智能后,企業(yè)內(nèi)的信息都日常性地保存到企業(yè)的數(shù)據(jù) 倉(cāng)庫中,以備決策者做決策時(shí)對(duì)信息訪問的需要。決策者獲得這些信息不需要再 依賴于傳統(tǒng)信息交換流程中的紙質(zhì)報(bào)表、手工數(shù)據(jù)匯總的、落后耗時(shí)費(fèi)力的信息 傳遞方式,他通過非常簡(jiǎn)單的方式訪問企業(yè)數(shù)據(jù)倉(cāng)庫,就可以訪問到他在決策過 程中需要的所有信息,而且這些信息的訪問界面可以是為他的需要量身訂做的。 同時(shí)由于信息獲取過程中完全的自動(dòng)化和規(guī)范化,降低了由于人工傳遞信息而帶 來的無法避免的信息殘缺和誤差,使獲取信息的準(zhǔn)確性得到有力的保證,為企業(yè) 決策與戰(zhàn)略調(diào)整節(jié)省了大量的寶貴時(shí)f n j 。 2 3 數(shù)據(jù)挖掘與商業(yè)智能的依存關(guān)系 提到數(shù)據(jù)挖掘,就不能不提商業(yè)智能??偟恼f來,數(shù)據(jù)挖掘是技術(shù),商業(yè)智 能是形態(tài),兩者是一個(gè)統(tǒng)一體,互為補(bǔ)充。商業(yè)智能技術(shù)并不是基礎(chǔ)技術(shù)或者產(chǎn) 品技術(shù),它是數(shù)據(jù)倉(cāng)庫、聯(lián)機(jī)分析處理o l a p 和數(shù)據(jù)挖掘等相關(guān)技術(shù)走向商業(yè)應(yīng) 用后形成的一種應(yīng)用技術(shù)。商業(yè)智能的本質(zhì)就是將數(shù)據(jù)挖掘的智能計(jì)算技術(shù)應(yīng)用 于傳統(tǒng)商業(yè)領(lǐng)域,從而提高數(shù)據(jù)分析能力,優(yōu)化業(yè)務(wù)過程和規(guī)則,提高企業(yè)競(jìng)爭(zhēng) 力。雖然商業(yè)智能的普及僅僅是最近幾年的事情,但已經(jīng)滲透到金融,電信,零 售,醫(yī)藥,制造,政府等各個(gè)行業(yè)和領(lǐng)域,成為大中型企業(yè)經(jīng)營(yíng)決策的重要組成 部分。數(shù)據(jù)挖掘已經(jīng)逐漸成為商業(yè)智能系統(tǒng)的高層應(yīng)用,是不可或缺的重要部分。 數(shù)據(jù)挖掘是一項(xiàng)技術(shù),由許許多多的算法構(gòu)成,并且每種算法可以有多種實(shí) 現(xiàn)方式。數(shù)據(jù)挖掘滲透到某些行業(yè),產(chǎn)生了一些特定的應(yīng)用,就形成了商業(yè)智能。 1 2 第2 章數(shù)據(jù)挖掘與兩業(yè)桿能 m = i = = = m mm m :m m : i。 。曼曼! ! 曼曼曼皇曼曼曼鼉曼!
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 股權(quán)未出資轉(zhuǎn)讓協(xié)議書
- 期貨交易居間合同
- 鄉(xiāng)村文化旅游土地開發(fā)利用合同
- 工業(yè)互聯(lián)網(wǎng)安全檢測(cè)服務(wù)協(xié)議
- 制造企業(yè)ERP系統(tǒng)升級(jí)改造方案
- 醫(yī)療美容項(xiàng)目合作協(xié)議書8篇
- 全國(guó)人教版初中信息技術(shù)八年級(jí)下冊(cè)第二單元第7課《度量圖形》教學(xué)設(shè)計(jì)
- 發(fā)展邏輯思維學(xué)會(huì)理性表達(dá)-《邏輯的力量》(大單元教學(xué)設(shè)計(jì))高二語文同步備課系列(統(tǒng)編版選擇性必修上冊(cè))
- 第8課《珍愛環(huán)境·活動(dòng)三 廢舊電器的回收和利用》 教學(xué)設(shè)計(jì) 2023-2024學(xué)年粵教版《綜合實(shí)踐活動(dòng)》七年級(jí)下冊(cè)
- 后拋實(shí)心球 教學(xué)設(shè)計(jì)-2023-2024學(xué)年高一上學(xué)期體育與健康人教版必修第一冊(cè)
- 瑜伽課程合同轉(zhuǎn)讓協(xié)議書范本
- 個(gè)人經(jīng)營(yíng)性貸款合同模板
- 2025年山東化工職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試近5年常考版參考題庫含答案解析
- 課題申報(bào)參考:生活服務(wù)數(shù)字化轉(zhuǎn)型下社區(qū)生活圈建設(shè)理念、模式與路徑研究
- 舞臺(tái)機(jī)械基礎(chǔ)知識(shí)培訓(xùn)
- 人教版數(shù)學(xué)八年級(jí)下冊(cè) 第16章 二次根式 單元測(cè)試(含答案)
- 甘肅省民航機(jī)場(chǎng)集團(tuán)招聘筆試沖刺題2025
- 中學(xué)班主任培訓(xùn)內(nèi)容
- 心理學(xué)基礎(chǔ)知識(shí)考試參考題庫500題(含答案)
- 北師大版小學(xué)三年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)教案
- DCMM練習(xí)題練習(xí)試題
評(píng)論
0/150
提交評(píng)論