版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
隨著改革開放的不斷深入,我們國家的社會和經(jīng)濟都有了前所未有的發(fā)展。因為各種經(jīng)濟資料的復(fù)雜特性,常規(guī)的統(tǒng)計資料只能對其作簡單的數(shù)學上的解析,很難將其深度的價值發(fā)掘出來。目前,人們對其進行的開發(fā)和使用的方式比較簡單,已經(jīng)無法適應(yīng)現(xiàn)代社會對其使用的需求。數(shù)據(jù)挖掘技術(shù)是一種由科學技術(shù)發(fā)展所產(chǎn)生的一種新的統(tǒng)計手段,它的優(yōu)勢是可以將數(shù)據(jù)的水平和垂直兩方面進行利用,大大地擴展對經(jīng)濟數(shù)據(jù)進行利用的領(lǐng)域,因此可以獲得更多的、有深度的、有意義的信息,為社會經(jīng)濟發(fā)展和政策的制訂提供更加真實、更加有效的基礎(chǔ)。一、數(shù)據(jù)挖掘技術(shù)的含義一般而言,數(shù)據(jù)挖掘技術(shù)指的是對大量的數(shù)據(jù)信息展開細致的建模,進而發(fā)掘出具有實用意義的信息的一個過程。所以數(shù)據(jù)挖掘技術(shù)歸根結(jié)底就是一個由神經(jīng)網(wǎng)絡(luò)、機器學習機數(shù)據(jù)統(tǒng)計等組成的,可以隨社會的發(fā)展而持續(xù)改變的學科。面對海量的數(shù)據(jù),用常規(guī)的統(tǒng)計學方法進行處理不僅不能有效地處理這些海量的信息,而且還可能導(dǎo)致一些統(tǒng)計學上的錯誤。而數(shù)據(jù)挖掘技術(shù)就是將所獲得的信息,從其中發(fā)掘出一些具有實際應(yīng)用前景的信息。而對于數(shù)據(jù)的高度解析性,更能體現(xiàn)出它的實用價值。數(shù)據(jù)發(fā)掘技術(shù)是一個將數(shù)據(jù)進行高效轉(zhuǎn)化的方法,它的具體步驟可以歸納為:從數(shù)據(jù)的收集到數(shù)據(jù)的發(fā)掘到數(shù)據(jù)的分析。其中,數(shù)據(jù)挖掘技術(shù)發(fā)揮著重要的作用,其具有多種的功能,包括對模型的預(yù)測、數(shù)據(jù)的類聚或者分類等,以及聚焦檢測、銜接分析、關(guān)聯(lián)規(guī)則等技術(shù)手段。所以它具有許多特性和功能,首先,它可以對海量的數(shù)據(jù)進行高效的分析;二是它可以從大量的數(shù)據(jù)中找到有用的信息;三是能夠?qū)Y料中的有用資訊加以剖析與判斷;四是能夠即時、迅速地反映某些功效及功能的資訊。資料開采的一般程序為:資料準備、資料挖掘、資料分析。在這種全流程中,對資料的發(fā)掘是最重要的。其主要的作用是聚類、預(yù)測、分析等。從其功能和特征上分析,該方法的優(yōu)勢在于:可以實現(xiàn)對重要數(shù)據(jù)的自動化發(fā)現(xiàn);具有對海量數(shù)據(jù)的能力;其反應(yīng)速度快,效率高;可以高效地對資料資料進行解析判斷,勾畫出過往與將來。二、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計工作中的應(yīng)用優(yōu)勢(一)綜合應(yīng)用能力強資料探勘不是一種具體執(zhí)行程序,而是一種整體作業(yè)體系,以滿足使用者的資訊需要為特點。在我國,經(jīng)濟持續(xù)快速發(fā)展的今天,各行業(yè)的發(fā)展離不開經(jīng)濟的發(fā)展,因此,在我國的發(fā)展中起到至關(guān)重要的作用。然而,在現(xiàn)實生活中,各種管理部門所擁有的權(quán)限、管理的方式和領(lǐng)域都存在著很大的差異,所以他們對經(jīng)濟統(tǒng)計數(shù)據(jù)的需求也存在著很大的差異,所以這就對經(jīng)濟統(tǒng)計系統(tǒng)的要求更高。不僅必須滿足管理層對資料的需求,而且必須有能力把統(tǒng)計資料轉(zhuǎn)換成各種表達方式。由于其具有的廣泛性,使得數(shù)據(jù)挖掘技術(shù)在廣泛、廣度上得到進一步的提升。(二)實用性很強數(shù)據(jù)采掘技術(shù)是一項深度處理技術(shù),它在一定程度上具有目標清晰的特點。在經(jīng)濟統(tǒng)計與運用的進程中,數(shù)據(jù)挖掘技術(shù)能夠根據(jù)用戶的需要,對長期積累起來的大量數(shù)據(jù)展開深度的加工,它的加工方式有兩種:一種是對大量的數(shù)據(jù)進行高效的管理,從經(jīng)濟數(shù)據(jù)的管理視角出發(fā),在具體的應(yīng)用中,利用對數(shù)據(jù)進行的統(tǒng)計與歸類,對大量混亂的數(shù)據(jù)庫中的信息進行科學性、系統(tǒng)性的處理,從而達到提高數(shù)據(jù)的效率的目的。另一種是對已有數(shù)據(jù)的針對性進行研究,在數(shù)據(jù)統(tǒng)計分析的目的指導(dǎo)下,對原來的信息進行內(nèi)容、關(guān)系和形式上的加工,以確保所得的經(jīng)濟統(tǒng)計信息可以更好地滿足相關(guān)部門的需要。(三)技術(shù)適用性強在我國,各經(jīng)濟管理機構(gòu)的職能比較分散,各經(jīng)濟管理機構(gòu)之間的要求也不盡相同。在我國許多地區(qū)和許多經(jīng)濟管理部門,其經(jīng)濟管理工作仍然采用的是一種比較常規(guī)的統(tǒng)計方式,存在著一定的缺陷,不能有效地為經(jīng)濟管理工作的全局服務(wù)。在現(xiàn)實工作中,往往會出現(xiàn)數(shù)據(jù)統(tǒng)計工作的重復(fù)和丟失的情況,從而對經(jīng)濟數(shù)據(jù)統(tǒng)計工作的效率和品質(zhì)產(chǎn)生一定的影響。建立一個集中性、綜合性的統(tǒng)計體系,是國家經(jīng)濟行政機關(guān)迫切需要解決的問題。如果要確保經(jīng)濟統(tǒng)計信息的準確性,再利用數(shù)據(jù)挖掘技術(shù)加以集成處理,就可以得到更精準、更豐富的數(shù)據(jù)來源。三、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的可行性研究(一)能為經(jīng)濟統(tǒng)計提供有效的服務(wù)根據(jù)相關(guān)數(shù)據(jù)報告調(diào)查結(jié)果顯示,盡管數(shù)據(jù)開采技術(shù)發(fā)展的歷史并不久遠,但其在國內(nèi)外的研究和運用已經(jīng)處于一個比較成熟的階段。在當今世界,尤其是在經(jīng)濟統(tǒng)計學中,人們對數(shù)據(jù)的利用也越來越重視。而數(shù)據(jù)挖掘技術(shù)之所以如此快速地發(fā)展,就是因為其為經(jīng)濟統(tǒng)計提供高效的服務(wù)。而在數(shù)據(jù)挖掘中,數(shù)據(jù)預(yù)處理的作用也不可忽視。數(shù)據(jù)預(yù)處理是指在經(jīng)濟統(tǒng)計工作中,需要將一些不太重要的數(shù)據(jù)去掉,對其中有用的部分進行標準化清理和篩選,以便為數(shù)據(jù)挖掘的工作做準備。(二)能夠為經(jīng)濟統(tǒng)計的不同需要提供不同的服務(wù)當前,最常用的數(shù)據(jù)采集工具有合成型、通用型特點,以及特殊用途的數(shù)據(jù)采集工具。通過這種整合的手段,既可以為企業(yè)中的經(jīng)濟體提供高效的管理報表,也可以對一般經(jīng)濟組織中的數(shù)據(jù)信息進行深度挖掘。(三)建立宏觀經(jīng)濟數(shù)據(jù)庫從當前形勢來看,我國絕大多數(shù)的經(jīng)濟統(tǒng)計工作仍以應(yīng)用性為主。大多數(shù)的經(jīng)濟統(tǒng)計資料都是以一種不集中和不分散的方式存在,沒有一個很好的管理體系。在經(jīng)濟統(tǒng)計工作中,如果在處理問題時產(chǎn)生錯誤,將會直接影響到資料的正確性和精確性。但是只有在構(gòu)建一個國家的宏觀經(jīng)濟學數(shù)據(jù)庫之后,才能找到這些問題的有效途徑。只有將數(shù)據(jù)挖掘技術(shù)與宏觀經(jīng)濟學數(shù)據(jù)庫相結(jié)合,才能確保所發(fā)掘的信息的正確性和可靠性。在此背景下,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于經(jīng)濟統(tǒng)計,既符合實際的需求,又為經(jīng)濟政策的制訂提供準確而重要的依據(jù)。四、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用(一)預(yù)處理方法在經(jīng)濟資料的統(tǒng)計工作中,對資料進行前處理是最基本的手段之一。由于數(shù)據(jù)挖掘是一種在提供基本信息的基礎(chǔ)上進行的智慧分析技術(shù),它自身受到基本的經(jīng)濟信息的制約,不能在一定程度上來取代經(jīng)濟數(shù)據(jù)收集系統(tǒng)的作用,因此,作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟統(tǒng)計數(shù)據(jù)信息都應(yīng)當經(jīng)過預(yù)處理。目前,常用的數(shù)據(jù)清除技術(shù)有:平均法、平滑法,以及預(yù)報法。在這些方法當中,平均法屬于一種運用到現(xiàn)代分析技術(shù)中的模糊概念,在基礎(chǔ)數(shù)據(jù)中的一個數(shù)據(jù)點是空值,或是噪音數(shù)據(jù)的情況下,可以使用平均方法來進行處理,也就是,使用數(shù)據(jù)庫中的所有這個性質(zhì)的已經(jīng)知道的屬性的平均來彌補這個空白,從而確保數(shù)據(jù)挖掘系統(tǒng)可以在正常的情況下進行對基本數(shù)據(jù)的分析和整理,從而得到一個相對來說精度比較高的統(tǒng)計分析數(shù)據(jù)。(二)決策樹方法從當前的實際狀況來看,由于能夠快速直觀地反映出當前的狀況,所以在實際運用中,采用的最多的就是決策樹。采用這種方式,最重要的是要將決策樹構(gòu)造好,一般情況下,它可以被分成兩部分:首先,使用培訓集,對一棵決策樹進行并縮減,并在此基礎(chǔ)上,建立一個可以進行輸出分析的模型。其次,對生成的決策樹進行有效地使用,并進行有效的分類,該方法是從樹根到樹干,再到枝干,直至達到一定的要求為止。在特定的情況下,終止分裂需要兩種情況:一種情況是某一結(jié)點上的全部資料都歸入相同的類型;另外一種情況是不存在用于重新劃分輸入資料的類別屬性。在建立一棵決策樹之后,需要按照用戶的需求來“剪枝”,以減少由于使用大量的訓練樣本而導(dǎo)致的結(jié)果波動。(三)遺傳算法這是一種以生物的遺傳學機制和自然選擇為基礎(chǔ)的一種隨機的搜尋方法,其基本思想是以具體的社會性問題為基礎(chǔ),再從具體的目標中收集有關(guān)的資料,最終將這些資料中所包含的資料進行整理、分析,從而得出結(jié)論。經(jīng)濟問題并不是一成不變的,而是一個發(fā)展和變化的問題,有著密切的關(guān)系,任何一種情況發(fā)生變化,其他的情況也就隨之發(fā)生變化。遵循基因算法的程序,從根源出發(fā),我們就一步一步地往下進行探究,從中抽取出一些有用的信息,從而對整個過程展開深入的分析。這種方式就可以將經(jīng)濟問題具體化、直接化,讓我們在進行問題的時候,能夠更加直接,能夠?qū)㈦[藏的東西展現(xiàn)在我們的面前,讓我們的經(jīng)濟統(tǒng)計工作變得更加直白、簡單。(四)神經(jīng)網(wǎng)絡(luò)法人工神經(jīng)網(wǎng)絡(luò)方法是一種高度仿真人類大腦對信號進行處理的智能化先進技術(shù)。就像人類的大腦活動,先將信息錄入,再進行精確的解析,再將結(jié)果呈現(xiàn)出來。并將其運用于經(jīng)濟統(tǒng)計學中。神經(jīng)元法為我們提供一種準確的、完整的處理經(jīng)濟統(tǒng)計的方法,它讓我們的經(jīng)濟運作模式和人在處理信息的過程很相似,都是實用化、形象化、具體化。這樣就可以在不同的工作流程中建立起不同的工作流程,以達到解決經(jīng)濟數(shù)據(jù)問題的目的。(五)數(shù)據(jù)的預(yù)處理沒有高質(zhì)量數(shù)據(jù),就必定沒有高質(zhì)量數(shù)據(jù)挖掘的結(jié)果。而在現(xiàn)實數(shù)據(jù)的挖掘過程中,因為所采集到的數(shù)據(jù)不可避免地會有缺漏、重要數(shù)據(jù)不全、不一致及包含噪音等問題,所以對數(shù)據(jù)的預(yù)處理是最重要也是最重要的一步。關(guān)于資料的預(yù)處理,具體如下所示:1.數(shù)據(jù)清除所謂的數(shù)據(jù)凈化,就是用合適的方式,去除其中的缺陷、不一致和噪音,提高整個數(shù)據(jù)的品質(zhì)。常用的幾種分析法有平均法、平滑法、預(yù)測法和頻度統(tǒng)計法。每一種方法所相應(yīng)的現(xiàn)實狀況都有差異,如果數(shù)據(jù)屬于噪音數(shù)據(jù)或者是一個空值,那么所要采取的方式就是均值法或者是光滑法。與均值法相比,光滑法強調(diào)的是將k個不為空的數(shù)據(jù)取權(quán)重平均值來代替(均值法以k個不為空的數(shù)據(jù)的平均值來代替)。利用預(yù)報方法對有噪音的資料或空值進行最大概率的估計;預(yù)報方法是對資料缺陷進行分析的方法。2.資料整合一般來說,這些資料都來自于來自于各種資料來源,而在實際處理、分析及應(yīng)用的時候,就需要將這些資料整合成一個完整的資料,這就是資料整合的過程。在現(xiàn)實生活中,統(tǒng)計部門首先要通過各個地方統(tǒng)計局,對經(jīng)濟數(shù)據(jù)進行大量的采集,接下來要進行的就是數(shù)據(jù)整合,這就必然會產(chǎn)生一些問題,比如,如何確定來自不同數(shù)據(jù)源的數(shù)據(jù)可以相互匹配。如果一個資料的特性可以從其他資料庫中的資料的特性推斷出來,那么就會產(chǎn)生一個資料的特性;此外,也就是資料的碰撞乃至排除,這個問題是由于資料來源的資料會因為彼此間的差異而產(chǎn)生互相排斥。3.數(shù)據(jù)轉(zhuǎn)換用某種方法把資料轉(zhuǎn)換為等價的、適用于資訊發(fā)掘的資料,這就是資料轉(zhuǎn)換,它的內(nèi)容主要包含資料的正?;c一般化兩個方面。對資料進行歸一化處理,主要有零均值歸一化、極大極小歸一化等;而資料概括,就是以較高層面的觀念代替較低層面的資料。4.資料與觀念的分散與分類實際中的資料是連續(xù)的,目前所知的方法中,能夠?qū)B續(xù)資料進行有效分析的并不多。資料的離散性就是用一個有標記的資料取代一個真實資料,實現(xiàn)資料的解連續(xù)性。在概念層面上,提出一種基于信息層級的概念來降低信息采集規(guī)模的方法。五、在數(shù)據(jù)挖掘中發(fā)揮互聯(lián)網(wǎng)大數(shù)據(jù)的作用隨著互聯(lián)網(wǎng)的普及,人類活動的范圍得到了前所未有的拓展,海量信息充斥在我們生活之中,如何挖掘其中的潛在價值,已成為每個人都面臨的難題。在大數(shù)據(jù)時代下,數(shù)據(jù)量爆炸式增長,海量數(shù)據(jù)中蘊藏著巨大價值。通過對大數(shù)據(jù)進行分析和挖掘,能夠讓企業(yè)對市場和用戶有更好的理解和把握。在互聯(lián)網(wǎng)大數(shù)據(jù)環(huán)境下,每個人都是大數(shù)據(jù)的一部分,無論是企業(yè)、用戶、政府甚至是普通大眾,都能在海量信息中發(fā)現(xiàn)一些自己不知道的東西。面對大數(shù)據(jù)時代帶來的巨大機遇和挑戰(zhàn),如何有效地利用大數(shù)據(jù)來解決企業(yè)發(fā)展中存在的問題成為了眾多企業(yè)需要面對的現(xiàn)實問題。數(shù)據(jù)挖掘技術(shù)是從大量數(shù)據(jù)中發(fā)現(xiàn)新知識、新規(guī)律并將其轉(zhuǎn)化為有用信息或決策經(jīng)驗的一種技術(shù)。通過挖掘互聯(lián)網(wǎng)大數(shù)據(jù),不僅能夠讓人們獲取到更多有價值的數(shù)據(jù)信息,還能為企業(yè)提供更多決策輔助。對此就可以從網(wǎng)站訪問痕跡入手,網(wǎng)站訪問是互聯(lián)網(wǎng)數(shù)據(jù)采集過程中最為常見的數(shù)據(jù)采集方式,通過對網(wǎng)站訪問記錄進行分析,就可以從中發(fā)現(xiàn)用戶可能存在的規(guī)律。例如,用戶通過搜索引擎在互聯(lián)網(wǎng)上搜索過產(chǎn)品、服務(wù)、品牌等信息。從訪問痕跡中可以分析出用戶訪問網(wǎng)站時可能出現(xiàn)過哪些關(guān)鍵詞或使用哪些關(guān)鍵詞進行
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度鏟車租賃市場推廣合作合同3篇
- 2025年度食品安全管理體系認證合同要求3篇
- 2024版融資租賃合同書模板
- 2025年度廚師職業(yè)保險與福利保障服務(wù)合同3篇
- 二零二五版承臺施工節(jié)能減排合同2篇
- 二零二五版代收款與房地產(chǎn)銷售合同3篇
- 2025版綠化工程設(shè)計變更與施工管理合同4篇
- 二零二五年度網(wǎng)絡(luò)安全培訓合同及技能提升方案3篇
- 2025版房地產(chǎn)租賃合同附家具及裝修改造條款3篇
- 二零二五版電商企業(yè)9%股權(quán)轉(zhuǎn)讓及增值服務(wù)合同3篇
- GB/T 16895.3-2024低壓電氣裝置第5-54部分:電氣設(shè)備的選擇和安裝接地配置和保護導(dǎo)體
- 2025湖北襄陽市12345政府熱線話務(wù)員招聘5人高頻重點提升(共500題)附帶答案詳解
- 計劃合同部部長述職報告范文
- 2025年河北省職業(yè)院校技能大賽智能節(jié)水系統(tǒng)設(shè)計與安裝(高職組)考試題庫(含答案)
- 人教版高一地理必修一期末試卷
- 2024年下半年鄂州市城市發(fā)展投資控股集團限公司社會招聘【27人】易考易錯模擬試題(共500題)試卷后附參考答案
- GB/T 29498-2024木門窗通用技術(shù)要求
- 《職業(yè)院校與本科高校對口貫通分段培養(yǎng)協(xié)議書》
- GJB9001C質(zhì)量管理體系要求-培訓專題培訓課件
- 人教版(2024)英語七年級上冊單詞表
- 二手車車主寄售協(xié)議書范文范本
評論
0/150
提交評論