




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)殺熟背景下的數(shù)據(jù)挖掘技術(shù)與分類算法研究摘要本文以近年來數(shù)據(jù)量激增的現(xiàn)象以及大數(shù)據(jù)殺熟現(xiàn)象為背景,對數(shù)據(jù)挖掘的發(fā)展歷程、國內(nèi)外研究現(xiàn)狀、過程展開了敘述。在文中也結(jié)合近年來一些比較火熱的社會(huì)現(xiàn)象,提出了數(shù)據(jù)挖掘在未來可能的應(yīng)用會(huì)比較多的領(lǐng)域。另外就數(shù)據(jù)挖掘中的分類算法展開了研究,對常見的分類算法利用Python語言進(jìn)行了實(shí)現(xiàn),對結(jié)果進(jìn)行了比對。在未來的日子里,數(shù)據(jù)量仍然會(huì)大幅增長,數(shù)據(jù)挖掘的用武之地也越來越多,這種技術(shù)也顯得越來越重要。將數(shù)據(jù)挖掘技術(shù)和分類算法合理的運(yùn)用在處理海量數(shù)據(jù)的任務(wù)中,可以幫助我們節(jié)省大量的時(shí)間,提高效率;也更能發(fā)現(xiàn)數(shù)據(jù)背后的秘密,為我們提供有用且準(zhǔn)確的信息。關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹算法;貝葉斯算法;最近鄰算法目錄TOC\o"1-3"\h\u27937摘要 19284Abstract 12482目錄 2310651.緒論 4187551.1.研究現(xiàn)狀綜述 4165961.2.選題意義 462431.3.國內(nèi)外研究現(xiàn)狀 4149441.3.1.國外研究現(xiàn)狀 4287001.3.2.國內(nèi)研究現(xiàn)狀 5314231.4.數(shù)據(jù)挖掘的應(yīng)用前景 667851.4.1.生物醫(yī)學(xué)和DNA領(lǐng)域的應(yīng)用 6293541.4.2.Web領(lǐng)域的應(yīng)用 683381.4.3.金融領(lǐng)域的應(yīng)用 675871.4.4.視頻領(lǐng)域的應(yīng)用 7215691.5.論文所要研究內(nèi)容 782962.數(shù)據(jù)挖掘技術(shù) 7162862.1.數(shù)據(jù)挖掘技術(shù)的發(fā)展歷程 871442.2.數(shù)據(jù)挖掘的過程 8190662.2.1.確定挖掘目的 9248022.2.2.數(shù)據(jù)準(zhǔn)備 9127972.2.3.數(shù)據(jù)挖掘 9208992.2.4.結(jié)果分析 925592.3.數(shù)據(jù)預(yù)處理 9272532.3.1.進(jìn)行數(shù)據(jù)的預(yù)處理的原因 9322972.3.2.數(shù)據(jù)預(yù)處理詳解 10283463.分類算法的研究 11310193.1.分類算法總述 11265833.2.決策樹算法詳解 11190793.2.1.決策樹算法基本思想與流程 11195303.2.2.ID3算法 13265573.2.3.C4.5算法 1563073.2.4.Cart算法 1730423.3.貝葉斯算法詳解 20126133.3.1.樸素貝葉斯算法的基本思想與流程 20207103.3.2.樸素貝葉斯算法的實(shí)現(xiàn) 21233133.3.3.樸素貝葉斯算法的優(yōu)缺點(diǎn) 22307443.4.最近鄰算法詳解 22190403.4.1.最近鄰算法的基本思想與流程 229293.4.2.最近鄰算法的實(shí)現(xiàn) 237723.4.3.最近鄰算法的優(yōu)缺點(diǎn) 2443713.5.分類算法的對比 24228284.實(shí)現(xiàn)算法相關(guān)內(nèi)容 2595394.1.數(shù)據(jù)集介紹 2587794.1.1.wine數(shù)據(jù)集的介紹 26235474.1.2.Balloons數(shù)據(jù)集的介紹 28241944.2.所使用語言、模塊、編譯器介紹 29169794.2.1.Python語言的介紹 2997604.2.2.Sklearn庫的介紹 2963144.2.3.Matplotlib庫的介紹 30174454.2.4.Pandas模塊的介紹 31249874.2.5.Jupyternotebook的介紹 31281494.2.6.graphviz模塊的介紹 3134255.結(jié)論 3218851參考文獻(xiàn) 33
緒論研究現(xiàn)狀綜述自從1989年知識發(fā)現(xiàn)一次處初露頭角之后,歷經(jīng)數(shù)十年的發(fā)展,數(shù)據(jù)挖掘已經(jīng)從當(dāng)初那個(gè)只配出現(xiàn)在專題討論會(huì)上的小角色一躍變?yōu)榱巳f千專家學(xué)者在國際性學(xué)術(shù)會(huì)議上一起研究探討的極具潛力的技術(shù)。國內(nèi)外對數(shù)據(jù)挖掘的研究現(xiàn)在來看仍然主要集中在三個(gè)方面:數(shù)據(jù)挖掘的算法、理論、應(yīng)用。畢竟一種技術(shù)的出現(xiàn)歸根結(jié)底還是要用于生活、生產(chǎn)來服務(wù)于人類,為人類創(chuàng)造更多的便利和好處的。所以對一種技術(shù)的研究最終一定會(huì)跑向應(yīng)用。數(shù)據(jù)挖掘技術(shù)的算法數(shù)量龐雜,這些算法主要可以分為三個(gè)大類:分類算法、關(guān)聯(lián)規(guī)則分析算法、聚類算法。其中分類算法又可以細(xì)分為:決策樹、貝葉斯、最近鄰、神經(jīng)網(wǎng)絡(luò)、SVM;關(guān)聯(lián)規(guī)則分析算法細(xì)分的結(jié)果是:Apriori算法、FP樹算法、序列模式;聚類算法進(jìn)行細(xì)分包括:K均值算法、基于密度的聚類方法、使用高斯混合模型來期望最大化聚類、層次聚類算法。無論是國外還是國內(nèi)已經(jīng)出現(xiàn)了很多技術(shù)成熟而且使用價(jià)值很高的軟件,數(shù)據(jù)挖掘的未來值得期待。選題意義當(dāng)今世界飛速發(fā)展,第三次工業(yè)革命帶來了計(jì)算機(jī)之后,世界的發(fā)展速度越來越快。近年來,隨著各種社交媒體,APP的出現(xiàn),每天都有源源不斷的數(shù)據(jù)產(chǎn)生,當(dāng)今的世界,可以說是大數(shù)據(jù)的時(shí)代。在當(dāng)今的世界,各個(gè)行業(yè)的數(shù)據(jù)信息即將達(dá)到爆炸的程度,并快要突破人們收集信息的極限。數(shù)據(jù)量的繁多與格式的復(fù)雜多樣讓我們越來越感受到數(shù)據(jù)信息的重要性,毫不夸張地說,在現(xiàn)如今,數(shù)據(jù)就是金錢。大數(shù)據(jù)時(shí)代,各行各業(yè)的數(shù)據(jù)信息量可謂是達(dá)到了爆炸的地步,并且也快要突破人們搜集信息的極限,再加之大數(shù)據(jù)的四大特點(diǎn)就是海量、高速、多樣和易變。針對這種現(xiàn)象,研究人員也在摸索解決的方法,研發(fā)出了數(shù)據(jù)挖掘技術(shù),在如何尋找有用信息、如何創(chuàng)造出有用信息等方面,已經(jīng)得到一些發(fā)展的成果。通過數(shù)據(jù)挖掘技術(shù),能夠?qū)⒂行У男畔囊欢褟?fù)雜無序的原始數(shù)據(jù)中提取出來,發(fā)揮其最大的用處。深入挖掘數(shù)據(jù)信息中存在的價(jià)值,合理運(yùn)用數(shù)據(jù)挖掘技術(shù)提升數(shù)據(jù)價(jià)值,不僅能夠及時(shí)掌握市場行業(yè)的未來發(fā)展動(dòng)向,也能夠幫助一些企業(yè)解決當(dāng)前存在的發(fā)展危機(jī),創(chuàng)造出更多的生產(chǎn)價(jià)值與自我提升空間。國內(nèi)外研究現(xiàn)狀國外研究現(xiàn)狀知識發(fā)現(xiàn)和數(shù)據(jù)挖掘在經(jīng)過十幾年的發(fā)展之后已經(jīng)成為了數(shù)據(jù)庫領(lǐng)域中不可或缺的研究方向之一。在上世紀(jì)八十年代末,在美國底特律舉辦了一次轟動(dòng)世界的會(huì)議,這個(gè)會(huì)議就是第十一屆人工智能會(huì)議,能轟動(dòng)世界大概就是因?yàn)镵DD一詞在這次會(huì)議上初放異彩,時(shí)間一轉(zhuǎn)來到上世紀(jì)九十年代中期,首屆KDD&DataMining國際學(xué)術(shù)會(huì)議于加拿大蒙特利爾舉辦,之后每年這個(gè)方面的國際性學(xué)術(shù)會(huì)議都如約而至。歷經(jīng)十余年的不懈鉆研,有關(guān)數(shù)據(jù)挖掘技術(shù)這一領(lǐng)域,研究人員已經(jīng)取得了令人滿意的成果,許多開發(fā)軟件的公司已經(jīng)開發(fā)出了可用于數(shù)據(jù)挖掘的軟件,而且廣泛應(yīng)用于北美、歐洲的一些國家。從目前來看,對數(shù)據(jù)挖掘的研究仍然主要集中在技術(shù)、理論和研究三個(gè)方面。在市場需求的推動(dòng)下,在研究人員的不懈努力下,市面上已經(jīng)出現(xiàn)了一些用來進(jìn)行數(shù)據(jù)挖掘的軟件,這些軟件以應(yīng)用價(jià)值高、技術(shù)成熟而聞名,比如:KnowledgeStudio、IBMIntelligentMiner、SPSSClementine、CognosScenario。在眾多研究人員的不懈努力下,數(shù)據(jù)挖掘目前來說經(jīng)常使用的幾大算法分別是:決策樹算法、人工神經(jīng)網(wǎng)絡(luò)算法、遺傳算法、粗糙集算法、模糊集算法、關(guān)聯(lián)規(guī)則算法。細(xì)分之后一些應(yīng)用很好也廣受大眾喜愛的算法具體是:C4.5算法(在ID3算法的基礎(chǔ)上進(jìn)行了改進(jìn))、K-means算法(這是一種聚類算法,其原理簡單,很容易實(shí)現(xiàn))、SVM算法(這是一種分類算法,策略由原來的向高維空間的非線性映射變換為了使用內(nèi)積核函數(shù),有效避免了高維度空間的復(fù)雜性)、Apriori算法(這是有一種極具影響力的挖掘關(guān)聯(lián)規(guī)則的算法)、PageRank算法(用來給網(wǎng)頁排名,是Google一種十分重要的算法)、Adaboost算法、KNN算法、樸素貝葉斯算法。如下圖所示:圖SEQ圖\*ARABIC1數(shù)據(jù)挖掘經(jīng)典算法國內(nèi)研究現(xiàn)狀相比較于國外的研究,國內(nèi)在這一方面的研究可謂是雖遲但到。目前,國內(nèi)對于進(jìn)行數(shù)據(jù)挖掘要使用的軟件的研發(fā)這一方面,主力軍還是高校,比如MSMiner和ScopeMiner。國內(nèi)對于數(shù)據(jù)挖掘技術(shù)的研究方向與國外的也大差不離,還是主要集中在了數(shù)據(jù)挖掘的算法、理論以及應(yīng)用這三個(gè)方面。可以分為三大區(qū)域:數(shù)據(jù)挖掘方法;數(shù)據(jù)挖掘的應(yīng)用;Web挖掘[21]。數(shù)據(jù)挖掘經(jīng)典的技術(shù)的如下圖:圖SEQ圖\*ARABIC2數(shù)據(jù)挖掘的經(jīng)典技術(shù)數(shù)據(jù)挖掘的應(yīng)用前景從目前來看,數(shù)據(jù)挖掘未來可能的應(yīng)用領(lǐng)域主要集中在以下幾個(gè)方面:生物醫(yī)學(xué)和DNA領(lǐng)域的應(yīng)用生物信息以及基因信息對于人類是十分重要的,了解掌握這些信息將有助于人類利用這些信息來治愈疾病,解決一些醫(yī)學(xué)難題,給更多的人送去希望。但任何一個(gè)了解生物的人都知道,基因組合的數(shù)量是極其龐大的。就拿人類基因組來舉例,人類基因組由23對染色體組成,大約含有30億個(gè)DNA堿基對,其中的某些堿基對所含基因數(shù)量大約在20000與25000之間。這么來看,生物信息純靠人工是無法完全提取出來的,所以數(shù)據(jù)挖掘在這個(gè)領(lǐng)域就有了用武之地。但是這也涉及到了計(jì)算機(jī)專業(yè)的學(xué)生可能不是很懂生物,懂生物的學(xué)生又不太了解數(shù)據(jù)挖掘的問題,二者的交叉學(xué)科近幾年也發(fā)展很快,相信數(shù)據(jù)挖掘在這個(gè)領(lǐng)域,在不久的將來一定會(huì)大放異彩的。Web領(lǐng)域的應(yīng)用隨著互聯(lián)網(wǎng)的迅猛發(fā)展,各類網(wǎng)站,電子商務(wù)蓬勃興起。十幾年前無人問津的淘寶、京東,現(xiàn)在幾乎成為了人們生活的必需品,在加之近幾年拼多多的快速發(fā)展,可以說這一領(lǐng)域積攢的數(shù)據(jù)也是十分龐大的。那么利用這些數(shù)據(jù),從中提取出有用的信息,就可以幫助顧客擁有更好的購物體驗(yàn),免受自己不喜歡事物的打擾。從這些紛繁復(fù)雜的數(shù)據(jù)中,分析出顧客的喜好,給顧客推送他們可能喜歡的東西,既節(jié)約了顧客的時(shí)間也能給公司帶來更多的收益,可謂是一舉兩得。金融領(lǐng)域的應(yīng)用隨著經(jīng)濟(jì)的快速發(fā)展,人們的財(cái)富也在日益增多,于是很多人開始有了理財(cái)?shù)南敕?。已?jīng)涉及或者正打算入坑理財(cái)?shù)娜艘欢ǘ贾澜衲旯墒械男星椴皇呛芎?,有人甚至賠光了身家財(cái)產(chǎn)。在金融領(lǐng)域,投資風(fēng)險(xiǎn)極大,可能賺的盆滿缽滿,也可能賠的身無分文。所以,在這個(gè)領(lǐng)域就很有必要利用數(shù)據(jù)挖掘來分析各種關(guān)聯(lián)信息,使投資風(fēng)險(xiǎn)最小化。隨著祖國越來越強(qiáng)大,經(jīng)濟(jì)越來越繁榮,相信會(huì)有更多的人投身于這個(gè)行業(yè),而數(shù)據(jù)挖掘在這個(gè)領(lǐng)域也必將擁有姓名。視頻領(lǐng)域的應(yīng)用近年來,抖音、快手、今日頭條這些軟件以迅雷不及掩耳之勢火遍大江南北,可以說百分之九十的年輕人都或多或少使用過這些軟件,更有甚者一天中的絕大部分時(shí)間時(shí)間都用在了利用這些短視頻軟件刷短視頻上,這些軟件也是有很強(qiáng)的吸引力,這些軟件的吸引力來自于精確地給用戶推薦用戶喜歡的內(nèi)容,刷著自己喜歡的東西,很容易停不下來。這些軟件火了之后,出現(xiàn)了很多類似的軟件,比如好看視頻、微視、刷寶等,足以看出這個(gè)領(lǐng)域現(xiàn)在的火爆,基于億萬用戶產(chǎn)生的信息,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,做到精準(zhǔn)推薦,既能讓用戶放松,也能給軟件帶來用戶,從而為公司創(chuàng)收,更重要的一點(diǎn)就是有利用信息共享。論文所要研究內(nèi)容本論文的研究內(nèi)容為:數(shù)據(jù)挖掘技術(shù)的發(fā)展歷程、研究現(xiàn)狀數(shù)據(jù)挖掘技術(shù)未來用途較多的應(yīng)用場景分類算法總述常用的三種分類算法的基本流程、原理、代碼實(shí)現(xiàn)涉及到的語言、模塊的介紹數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù),見名知意,就是指一種技術(shù),可以達(dá)到從數(shù)量多且繁雜的數(shù)據(jù)中找到有價(jià)值意義的數(shù)據(jù)信息。就一般情況來說,數(shù)據(jù)挖掘主要應(yīng)用在文本數(shù)據(jù)以及圖像數(shù)據(jù)中,作為分析、整理或者預(yù)測風(fēng)險(xiǎn)的基礎(chǔ)技術(shù)手段,數(shù)據(jù)挖掘技術(shù)能夠在海量的信息數(shù)據(jù)中精確尋找到目標(biāo)數(shù)據(jù)內(nèi)容[8]。近年來,隨著智能手機(jī),平板電腦以及個(gè)人筆記本電腦的普及,每個(gè)人無時(shí)無刻都在產(chǎn)生著數(shù)據(jù),數(shù)據(jù)量出現(xiàn)了爆炸式的增長。面對日益龐大而且增加極其快的數(shù)據(jù),對這些數(shù)據(jù)的管理就需要利用到數(shù)據(jù)庫技術(shù)或者數(shù)據(jù)倉庫技術(shù)了。而且從現(xiàn)實(shí)世界中挖掘出的數(shù)據(jù)往往不像已有數(shù)據(jù)集那樣規(guī)整,可能單純只靠一種或少數(shù)幾種數(shù)據(jù)挖掘算法是難以完成對其的處理的,為了達(dá)到從凌亂的數(shù)據(jù)中心提取到有用信息的目的還需要配合使用數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等預(yù)處理數(shù)據(jù)的方法。數(shù)據(jù)挖掘的主要任務(wù)大致可以簡單的概括為數(shù)據(jù)匯總,概念描述,分類,聚類,相關(guān)性分析,偏差分析,建模這幾類。數(shù)據(jù)挖掘是一門在多學(xué)科發(fā)展的基礎(chǔ)上發(fā)展起來的新興學(xué)科,涉及到了很多我們耳熟能詳?shù)膶W(xué)科,比如有:數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等多個(gè)行業(yè)和領(lǐng)域。數(shù)據(jù)挖掘技術(shù)的發(fā)展歷程數(shù)據(jù)挖掘技術(shù)的發(fā)展與相關(guān)學(xué)科的發(fā)展是緊密相關(guān)的,伴隨著數(shù)據(jù)庫技術(shù)的發(fā)展日益成熟以及應(yīng)用日益增多,數(shù)據(jù)量積累的越來越多,在龐雜的數(shù)據(jù)背后隱藏著的重要信息開始吸引了越來越多科學(xué)家的注意力。通常來說儲(chǔ)存數(shù)據(jù)會(huì)使用到是數(shù)據(jù)庫管理系統(tǒng),分析數(shù)據(jù)會(huì)使用到的就是機(jī)器學(xué)習(xí)的方法,這二者的結(jié)合促進(jìn)了數(shù)據(jù)庫中的知識發(fā)現(xiàn)的誕生。二十世紀(jì)八十年代末,在美國底特律舉行了一次另學(xué)術(shù)界發(fā)生翻天覆地變化的會(huì)議——第十一屆人工智能國際聯(lián)合會(huì)議的專題討論會(huì),在這次會(huì)議上知識發(fā)現(xiàn)(KDD)一詞第一次在公眾場合出現(xiàn)。在此之后,迄今為止由美國人工智能協(xié)會(huì)負(fù)責(zé)召開的以kdd為主題的國際研討會(huì)已經(jīng)召開了很多次,從最初的只有少數(shù)人參與的專題討論會(huì)發(fā)展成為世界各地學(xué)者爭先搶后想要參加的國際性學(xué)術(shù)會(huì)議;學(xué)者們在會(huì)議上研討的重點(diǎn)也在慢慢發(fā)生著改變,從最初的單純只是想找到新的方法轉(zhuǎn)變?yōu)榱烁嗟年P(guān)注應(yīng)用,集成多種發(fā)現(xiàn)策略和技術(shù)來解決問題也成為了學(xué)者們關(guān)注研究的重點(diǎn),多學(xué)科之間的相互交叉滲透更是成為了研究中的香餑餑。所謂的知識開發(fā)和探索(kdd)中最常用、最核心的構(gòu)成部分之一就是數(shù)據(jù)挖掘(dm)。全球知識發(fā)現(xiàn)與數(shù)據(jù)挖掘技術(shù)第四次會(huì)議于1998年在國際性的學(xué)術(shù)會(huì)議上大放異彩,不僅是來自世界各地的科學(xué)家,研究人員在學(xué)術(shù)方面進(jìn)行了廣泛深刻的討論,而且有來自全球的30余家軟件公司給我們生動(dòng)耐心地介紹展示了他們先進(jìn)的數(shù)據(jù)挖掘技術(shù)和相應(yīng)的軟件產(chǎn)品,其中許多已經(jīng)應(yīng)用于北美和歐洲等地區(qū)。經(jīng)過十幾年的不斷探索和發(fā)展,數(shù)據(jù)挖掘已成為了一個(gè)完全自成系統(tǒng)的應(yīng)用性學(xué)科。數(shù)據(jù)挖掘的過程圖SEQ圖\*ARABIC3數(shù)據(jù)挖掘的流程數(shù)據(jù)挖掘的過程大致上可以分為以下幾步:確定挖掘目的這個(gè)階段主要就是為了明確數(shù)據(jù)挖掘的目的,數(shù)據(jù)挖掘得出的最終結(jié)果可能是無法預(yù)見的,但是一開始的目的應(yīng)該是可以預(yù)見的,弄清楚數(shù)據(jù)挖掘的目的將會(huì)達(dá)到一舉兩得的效果。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)集的選擇:根據(jù)挖掘的目的選擇合適的數(shù)據(jù)集。數(shù)據(jù)的保存與預(yù)處理:通過深入地研究保存數(shù)據(jù)的質(zhì)量,為進(jìn)一步分析數(shù)據(jù)所做好的準(zhǔn)備。并且確定了將要開展的挖掘運(yùn)算操作。常見的進(jìn)行數(shù)據(jù)預(yù)處理的方法主要包括以下幾種:1)數(shù)據(jù)清洗:這個(gè)方法主要是為了針對缺失值、噪聲、距離群點(diǎn)等情況進(jìn)行處理。2)數(shù)據(jù)集成:這個(gè)集成放大主要是涉及到了適用于識別、冗余、相關(guān)性的分析。3)數(shù)據(jù)歸約:維歸約、數(shù)據(jù)壓縮、數(shù)量歸約這三種是目前來看最受歡迎和最為常見的數(shù)據(jù)歸約方法。4)數(shù)據(jù)變換:光滑,屬性創(chuàng)建,聚集,離散化以及對概念進(jìn)行分層。數(shù)據(jù)的轉(zhuǎn)換:在使用數(shù)據(jù)挖掘算法之前,很關(guān)鍵也很重要的一步就是數(shù)據(jù)的轉(zhuǎn)換了。將我們經(jīng)過保存預(yù)處理的數(shù)據(jù)轉(zhuǎn)換成一個(gè)合適的分析模型。利用合適的分析模型在加上合適的算法才能達(dá)到事倍功半的效果。數(shù)據(jù)挖掘這個(gè)階段實(shí)際的挖掘工作,包括:先決定怎么樣來創(chuàng)建假設(shè):這個(gè)階段可以分為兩種,一種是利用數(shù)據(jù)挖掘系統(tǒng)給用戶創(chuàng)建假設(shè);另一種是以數(shù)據(jù)庫中可能出現(xiàn)的知識為基礎(chǔ),從而產(chǎn)生假設(shè)。前一種稱為發(fā)現(xiàn)型的數(shù)據(jù)挖掘,后一種稱為驗(yàn)證型的數(shù)據(jù)挖掘REF_Ref22990\r\h[21];選擇合適的工具:利用前面提到的數(shù)據(jù)挖掘方法挖掘數(shù)據(jù)庫中的知識[21];證實(shí)發(fā)現(xiàn)的知識[21]。結(jié)果分析這個(gè)階段主要是為了解釋并評估結(jié)果,通常會(huì)用到數(shù)據(jù)可視化工具。分析所得的結(jié)果主要是針對模型的優(yōu)缺點(diǎn)的,客觀公正的看待自己所建立的模型。改進(jìn)就是利用分析的結(jié)果對模型進(jìn)行改進(jìn)優(yōu)化。數(shù)據(jù)預(yù)處理進(jìn)行數(shù)據(jù)的預(yù)處理的原因我們在使用數(shù)據(jù)挖掘技術(shù)的時(shí)候,會(huì)利用到一些算法,因此我們十分希望自己所得到的數(shù)據(jù)能夠滿足算法的要求,便于得出結(jié)果。可事實(shí)上,在我們的日常生活中,由于各種有意無意的行為,經(jīng)常會(huì)導(dǎo)致數(shù)據(jù)的缺失、不完整、甚至是錯(cuò)誤數(shù)據(jù),這對于我們進(jìn)行數(shù)據(jù)挖掘十分的不利,因此進(jìn)行數(shù)據(jù)預(yù)處理至關(guān)重要。數(shù)據(jù)預(yù)處理詳解數(shù)據(jù)預(yù)處理的主要手段包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約以及數(shù)據(jù)變換與數(shù)據(jù)離散化。數(shù)據(jù)清理的主要任務(wù)就是處理缺失值、噪聲數(shù)據(jù)。我們可以分為兩部分來看,首先來看對缺失值的處理。缺失值的處理分為兩種思想,一種是不要缺失值了,另一種是想辦法補(bǔ)起來。那么何為不要缺失值了,在數(shù)據(jù)挖掘中稱為忽略元組,大多數(shù)情況下是用于缺少類標(biāo)記的時(shí)候,而且只有在針對于元組有不止一個(gè)屬性缺失值的情況效果才會(huì)好。至于第二種思想,就可以細(xì)分為五類了。這五種補(bǔ)缺失值的方法分別為:人工填寫缺失值;使用一個(gè)全局常量填充缺失值;使用屬性的中心度量填充缺失值;使用與給定元組同一類的所有樣本的屬性均值或中位數(shù);使用可能的值填充缺失值。最后一種方法就是最常用最受研究者青睞的方法,利用了已有的數(shù)據(jù)進(jìn)行了合理的推測得到彌補(bǔ)缺失值的數(shù)據(jù),要比其他方法的結(jié)果更可靠一些。然后我們來看對噪聲數(shù)據(jù)的處理,仍然是有兩大類方法。第一類是使用回歸技術(shù),找一個(gè)合適的函數(shù)擬合非噪聲數(shù)據(jù),本質(zhì)上還是舍棄。第二類是使用離群點(diǎn)分析,通過利用形成簇來去掉離群點(diǎn)。第三類就是利用分箱的方法來光滑數(shù)據(jù),具體的又有用箱中位數(shù)光滑、用箱邊界光滑。數(shù)據(jù)集成的主要任務(wù)就是進(jìn)行合并,合并之后就會(huì)涉及到同名異義與異名同義的問題了,即數(shù)據(jù)挖掘中的術(shù)語:實(shí)體識別。數(shù)據(jù)集成的另一大任務(wù)就是冗余和相關(guān)性分析。這一任務(wù)可以利用卡方相關(guān)檢驗(yàn)、計(jì)算數(shù)據(jù)間的相關(guān)系數(shù)、計(jì)算數(shù)據(jù)間的協(xié)方差來實(shí)現(xiàn)。數(shù)據(jù)歸約的分類在上文中已經(jīng)提過了,可以分為三類。維歸約這一類,本質(zhì)上思想還是化簡,展開來說就是要精簡隨機(jī)變量或特征的數(shù)量。在維歸約中常見的方法有小波變化和PCA。數(shù)量歸約這一類,本質(zhì)上是替換的思想。具體來說就是把原數(shù)據(jù)進(jìn)行替換,用來替換原數(shù)據(jù)的是那些較小的數(shù)據(jù)。數(shù)據(jù)壓縮這一類,見名之義,壓縮的目的就是為了變小,便于存放。數(shù)據(jù)壓縮就是使用一些變換,將原數(shù)據(jù)壓縮。數(shù)據(jù)變化和數(shù)據(jù)離散化這一部分主要包括:光滑、屬性構(gòu)造、聚集、規(guī)范化、離散化、由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層。規(guī)范化常見方法如下:最大—最小規(guī)范化: vi'=vi?minAZ-score規(guī)范化: vi'=vi?Aσ其中A是屬性A的均值。離散化的常見方法有:通過分箱離散化,通過直方圖分析離散化。這兩種都是無監(jiān)督的離散化技術(shù)。分類算法的研究分類算法總述前文中提到數(shù)據(jù)挖掘的任務(wù)之一就是分類,在現(xiàn)實(shí)生活中我們每個(gè)人每天都在有意無意間做著分類,分類現(xiàn)象在生活中隨處可見。比如:為了環(huán)保而實(shí)施的垃圾分類;為了方便查閱書籍圖書館的書都會(huì)分門別類放置;為了避免自己的生活被無止境的打擾,我們一般都會(huì)分出騷擾電話進(jìn)行攔截;為了使用方便,生活中我們會(huì)將自己的物品分類歸置好分類在生活中處處可見,也為我們的日常生活提供了很多便捷之處,于是我們不禁在想,如果將分類用于生產(chǎn),那豈不是會(huì)有意想不到的收獲嗎。于是在眾多科學(xué)家的研究下,出現(xiàn)了幾大分類算法:決策樹算法[24];基于規(guī)則的分類器[24];最近鄰算法[24];貝葉斯分類算法[24];人工神經(jīng)網(wǎng)絡(luò)算法[24];支持向量機(jī)算法[24]。分類算法的目的就是利用自己設(shè)計(jì)好的分類函數(shù)或分類模型,對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行操作,確定某個(gè)數(shù)據(jù)是屬于哪個(gè)類別。其中,最常見的就是決策樹算法、貝葉斯算法、最近鄰算法,本文將著重介紹這三種算法。決策樹算法詳解因?yàn)闆Q策樹算法兼具了簡單易懂和可解釋性強(qiáng)這兩大優(yōu)點(diǎn),深受大眾的喜愛和追捧,在分類算法中占據(jù)了一席之地,廣泛存在于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中。J.R.Quinlan于1979年提出并在之后逐漸修正完善的ID3算法[18],是決策樹算法中最先面世的算法,當(dāng)然其也有很多的不足。后來有學(xué)者在ID3的基礎(chǔ)之上推出了效率更高、實(shí)用性更強(qiáng)的C4.5算法,它不僅適用于分類問題,又適用于回歸問題[16]。近幾年,在學(xué)術(shù)界出現(xiàn)了新的寵兒——選擇性集成,這個(gè)概念是由西瓜書的作者周志華教授提出的。而且近年來出現(xiàn)了一種稱為GASEN-b的新的選擇性集成算法,這個(gè)算法同樣也是由西瓜書的作者周志華教授所提出的,這個(gè)算法是以遺傳算法為基礎(chǔ)的。決策樹算法基本思想與流程決策樹說白了就是一種類似于樹的層次結(jié)構(gòu),決策樹的根結(jié)點(diǎn)相當(dāng)于樹的根部,決策樹的內(nèi)部結(jié)點(diǎn)相當(dāng)于樹中靠內(nèi)的葉子,決策樹的葉結(jié)點(diǎn)就相當(dāng)于樹最外層的葉子。每棵決策樹也像樹一樣,因此我們也可以得知一個(gè)根節(jié)點(diǎn)、一些內(nèi)部節(jié)點(diǎn)、一些葉結(jié)點(diǎn)就構(gòu)成了一棵決策樹。葉結(jié)點(diǎn)也稱為終結(jié)點(diǎn)。與葉結(jié)點(diǎn)對應(yīng)的是決策結(jié)果,剩下的每個(gè)結(jié)點(diǎn)對應(yīng)的都是一個(gè)屬性測試;每個(gè)結(jié)點(diǎn)會(huì)包含哪些樣本集合,這是根據(jù)屬性測試的結(jié)果來進(jìn)行劃分的;根結(jié)點(diǎn)包含的是整個(gè)樣本集合。決策樹的基本流程采用的是分而治之的思想。決策樹的結(jié)構(gòu)如下圖:圖SEQ圖\*ARABIC4決策樹的結(jié)構(gòu)決策樹算法的基本流程如下表所示:表SEQ表\*ARABIC1決策樹算法的基本流程輸入:訓(xùn)練集D={(x1,y1),(x2,y2),,(xm,ym)}屬性集A={a1,a2,,ad}過程:函數(shù)TreeGenerate(D,A)生成結(jié)點(diǎn)nodeifD中樣本全屬于同一類別Cthen將node標(biāo)記為C類葉結(jié)點(diǎn);returnendififA=?ORD中樣本在A上取值相同then將node標(biāo)記為葉結(jié)點(diǎn),其類別標(biāo)記為D中樣本數(shù)最多的類;returnendif從A中選擇最優(yōu)劃分屬性a*;fora*的每一個(gè)值do為node生成一個(gè)分支;另Dv表示D中在a*上取值為的樣本子集;ifDv為空then將分支結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn),其類別標(biāo)記為D中樣本最多的類;returnelse以TreeGenerate(DV,)為分支結(jié)點(diǎn)endifendfor輸出:以node為根結(jié)點(diǎn)的一棵決策樹從這段偽代碼中可以看出,對于決策樹算法來說,重中之重就是第八行的內(nèi)容——選擇最優(yōu)的劃分屬性在結(jié)點(diǎn)處進(jìn)行分裂,而基于不同的劃分屬性方法,決策樹算法又可以細(xì)分為ID3算法、C4.5算法以及CART算法。下面我將具體介紹這三種算法。在應(yīng)對過擬合的問題方面,決策樹采取的是剪枝方法。剪枝可以分為預(yù)剪枝和后剪枝兩種。預(yù)剪枝:正如名字所說,預(yù)剪枝就是先評估再?zèng)Q定劃不劃分。具體來說就是在生成一棵決策樹的過程中,對于每個(gè)結(jié)點(diǎn),在選定了最優(yōu)劃分點(diǎn)劃分之前先要進(jìn)行評估。對于候選的劃分點(diǎn),若對其進(jìn)行劃分對于決策樹泛化性能的提升沒有幫助的話,那么就停止對這個(gè)劃分點(diǎn)的劃分,并將當(dāng)前的這個(gè)結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)。后剪枝:見名知意,后剪枝就是為了防止出現(xiàn)過擬合的問題,所以在完整的決策樹建立之后,對已經(jīng)建立的完整的決策樹進(jìn)行評估,根據(jù)評估結(jié)果進(jìn)行剪枝。具體來說就是先利用從樣本集中劃分出來的訓(xùn)練集進(jìn)行訓(xùn)練擬合構(gòu)造出完整的決策樹,然后由下到上,對內(nèi)部結(jié)點(diǎn)進(jìn)行評估,如果對于一個(gè)內(nèi)部結(jié)點(diǎn)來說,將這個(gè)內(nèi)部結(jié)點(diǎn)對應(yīng)的子樹用葉結(jié)點(diǎn)來替換可以帶來性能的提升,那么就將該內(nèi)部結(jié)點(diǎn)替換為葉結(jié)點(diǎn),同時(shí)刪去該內(nèi)部結(jié)點(diǎn)原來有的子樹。ID3算法ID3是決策樹算法的其中之一,利用信息增益來對樣本集中的屬性進(jìn)行劃分,遞歸的生成決策樹,從而起到做好分類的效果,是決策樹最經(jīng)典,出現(xiàn)最早的一種算法。ID3算法的基本思想ID3算法的基本流程與上文中的偽代碼一致,ID3算法的具體劃分規(guī)則如下:熵是一種用來度量某一系統(tǒng)混亂程度的標(biāo)準(zhǔn)。在剛開始的樣本數(shù)據(jù)集中肯定是凌亂無比的,熵值會(huì)很大,我們?yōu)槭裁匆獦?gòu)建決策樹呢?就是為了減小數(shù)據(jù)的不可預(yù)見性,使數(shù)據(jù)更純。信息熵是一種十分常見的用來衡量一個(gè)系統(tǒng)純度的標(biāo)準(zhǔn),在信息熵的基礎(chǔ)上進(jìn)行計(jì)算可以得到信息增益,利用信息增益來選擇最優(yōu)的劃分屬性進(jìn)而確定劃分點(diǎn)就是ID3算法的核心所在。假定樣本集合D中第k類樣本所占的比例為pk(k=1,2,,|y|),那么D的信息熵定義為: (SEQ(\*ARABIC3)信息熵的值越小,代表樣本集合越純,越不混亂。假定樣本集合D中某一離散屬性為a,這個(gè)屬性一共有V種取值,DV表示一個(gè)樣本集合,這個(gè)樣本集合由數(shù)據(jù)集D中那些在離散屬性a上的取值為av的樣本個(gè)所構(gòu)成,這個(gè)樣本集合的個(gè)數(shù)記為|DV|,則利用這一離散屬性a對整個(gè)數(shù)據(jù)集進(jìn)行劃分,對應(yīng)的信息增益就可以用以下公式計(jì)算: (SEQ(\*ARABIC4) 其中可以看成是劃分屬性所占的權(quán)重。前文中我們提到信息熵的值越小代表這個(gè)系統(tǒng)越好,那么結(jié)合信息增益的公式來看,在樣本集合確定的情況下,即在Ent(D)確定的情況下,根據(jù)某一屬性來對樣本集進(jìn)行劃分,根據(jù)信息熵越小越好的原則來看,信息增益越大,那么利用這一屬性來進(jìn)行劃分就越好,代表純度提升度越大。ID3算法的實(shí)現(xiàn)利用wine數(shù)據(jù)集與sklearn模塊,實(shí)現(xiàn)了ID3算法,模型的準(zhǔn)確率為94.44%,所畫出來的決策樹為:圖SEQ圖\*ARABIC5利用ID3算法構(gòu)建的決策樹我還利用matplotlib對算法所劃分的測試集以及利用模型進(jìn)行預(yù)測所得出的結(jié)果進(jìn)行了可視化,從可視化的結(jié)果中我們可以更加清楚明晰的了解到這個(gè)模型的分類效果,如下圖所示:圖SEQ圖\*ARABIC6模型效果可視化ID3算法的優(yōu)缺點(diǎn)ID3算法的優(yōu)點(diǎn):訓(xùn)練過程中包容缺少屬性值的實(shí)例。理論簡單,容易實(shí)現(xiàn),受噪音影響很小。速度快,適合于高維數(shù)據(jù)。ID3算法的缺點(diǎn):對屬性樣本數(shù)較大的屬性有傾向性,受計(jì)算信息增益的影響,數(shù)量越多。只能處理離散屬性,對于連續(xù)屬性無法處理。不支持剪枝操作。C4.5算法C4.5算法的基本思想C4.5算法和ID3算法師出同門,都?xì)w屬于決策樹算法。兩者不同之處就是對屬性劃分所使用的標(biāo)準(zhǔn)不一樣。C4.5基于ID3算法又高于ID3算法,彌補(bǔ)了ID3算法的一些不足,但也有自己的問題。從信息增益的計(jì)算公式中我們可以分析出這樣的信息:可取值數(shù)目越多,權(quán)重就越大,權(quán)重越大那么利用這樣的屬性進(jìn)行劃分就會(huì)越好,這也導(dǎo)致了ID3算法有所局限。C4.5算法針對于這一點(diǎn)進(jìn)行了改進(jìn),不在直接使用信息增益來選擇屬性從而選擇出最優(yōu)劃分點(diǎn),而是使用了信息增益率來選擇屬性進(jìn)行劃分。利用信息增益除以了屬性的固有值,便得到了信息增益率。對于ID3算法無法處理連續(xù)值的劣勢,C4.5所做的改進(jìn)是利用二分法的思想,將連續(xù)屬性離散化,具體操作如下:假定這個(gè)連續(xù)屬性是m,則排序成{m1,m2,,mn},排序的規(guī)則是按升序,其中m1,m2,,mn代表這個(gè)屬性的所有取值。利用相鄰的屬性的取值構(gòu)成的區(qū)間[mi,mi+1),從這個(gè)區(qū)間中任意取值所產(chǎn)生的劃分結(jié)果是一樣的。一般來說我們會(huì)取區(qū)間的中位點(diǎn)來作為候選劃分點(diǎn),即: (SEQ(\*ARABIC5) 接下來我們來計(jì)算信息增益率,計(jì)算的時(shí)候是針對每個(gè)待選的劃分點(diǎn)的,我們會(huì)分別計(jì)算每個(gè)待選劃分點(diǎn)所對應(yīng)的信息增益率,找到那個(gè)能使得信息增益率最大的待選劃分點(diǎn),將這個(gè)候選劃分點(diǎn)作為最終的劃分點(diǎn)。具體的計(jì)算如下所示: (SEQ(\*ARABIC6)其中在連續(xù)屬性上取值小于候選劃分點(diǎn)的樣本就歸在類里,在這一屬性上取值大于候選劃分點(diǎn)的樣本歸在類里。針對于非連續(xù)的屬性,信息增益率的計(jì)算做了改進(jìn),具體的計(jì)算公式為: (SEQ(\*ARABIC7) (SEQ(\*ARABIC8)IV(a)稱為屬性a的固有值。C4.5算法化簡為繁,稱之為化簡為繁的原因如下。C4.5算法沒有采用直接選取信息增益率最大的候選劃分屬性來作為最優(yōu)劃分屬性的方法,而是采用了一種啟發(fā)式的方法:先利用信息增益,篩選掉一部分屬性。具體來說就是要先從所有的候選劃分屬性中篩選掉那些信息增益低于平均水平的屬性,留下那些信息增益較高的屬性。然后從余留下來的這些屬性中再來選擇信息增益率最高的屬性來作為最優(yōu)的劃分屬性。雖然增加了運(yùn)算量但是卻在理解性方面有了很大的提升。C4.5算法的實(shí)現(xiàn)C4.5算法我利用了Balloons數(shù)據(jù)集,能編寫代碼實(shí)現(xiàn),所得到的結(jié)果如下圖:圖SEQ圖\*ARABIC7C4.5算法所建立的決策樹C4.5算法的優(yōu)缺點(diǎn)C4.5算法的優(yōu)點(diǎn):彌補(bǔ)了ID3算法的缺點(diǎn),使用信息增益率來選擇最優(yōu)劃分屬性。分類結(jié)果較為可靠。能夠處理具有連續(xù)值的屬性。C4.5算法的缺點(diǎn):用信息增益率代替信息增益選擇最優(yōu)劃分點(diǎn)的策略帶來了對取值數(shù)目較少的屬性的由偏向性的問題。算法的效率非常低,算法的低效來源于C4.5算法在運(yùn)行的過程中需要對數(shù)據(jù)集進(jìn)行多次順序掃描和排序。在選擇最優(yōu)劃分點(diǎn)的時(shí)候并沒有考慮條件屬性間的相關(guān)性問題,有可能會(huì)影響正確性。Cart算法CART算法的基本思想CART算法的英文全稱是classifactionandregressiontree,從其英文全稱中我們可以得知CART算法一個(gè)很大的特別之處——不單只適用于分類也適用于回歸。CART算法的核心思想有兩個(gè),第一個(gè)思想就是使用訓(xùn)練樣本集來遞歸的對屬性進(jìn)行劃分從而生成決策樹;第二個(gè)思想就是進(jìn)行剪枝預(yù)防過擬合的現(xiàn)象。而且CART算法在處理分類問題的時(shí)候從本質(zhì)上來說就是在生成一棵二叉樹。也就是說,每次都會(huì)根據(jù)樣本點(diǎn)在每個(gè)屬性上的每種取值與利用基尼指數(shù)算的劃分標(biāo)準(zhǔn)是否相等來把數(shù)據(jù)分成兩部分。CART算法在用于解決回歸問題時(shí)是使用平方誤差最小準(zhǔn)則作為評估標(biāo)準(zhǔn)來選擇最優(yōu)劃分點(diǎn);在用于解決分類問題的時(shí)候是使用基尼指數(shù)作為評估標(biāo)準(zhǔn)來選擇最優(yōu)劃分屬性的。與熵類似,基尼值也是一種經(jīng)常用來衡量一個(gè)數(shù)據(jù)集的純度的標(biāo)準(zhǔn)?;嶂翟叫≌f明數(shù)據(jù)集越純。基尼值的計(jì)算公式為: (SEQ(\*ARABIC9)對于某一屬性a來說,其所對應(yīng)的基尼指數(shù)的計(jì)算公式為: (SEQ(\*ARABIC10)我們會(huì)選擇將那些基尼指數(shù)取值最小的屬性來進(jìn)行結(jié)點(diǎn)分裂。Cart算法的停止條件是結(jié)點(diǎn)中樣本個(gè)數(shù)小于閾值,或者樣本集的基尼指數(shù)小于指定閾值,或者沒有更多特征[28]。圖SEQ圖\*ARABIC8CART算法的基本流程Cart算法的實(shí)現(xiàn)利用wine數(shù)據(jù)集與sklearn模塊,實(shí)現(xiàn)了CART算法,模型的準(zhǔn)確率為96.3%,所畫出來的決策樹為:圖SEQ圖\*ARABIC9CART算法所構(gòu)建的決策樹我還利用matplotlib對算法所劃分的測試集以及利用模型進(jìn)行預(yù)測所得出的結(jié)果進(jìn)行了可視化,從可視化的結(jié)果中我們可以更加清楚明晰的了解到這個(gè)模型的分類效果,如下圖所示:圖SEQ圖\*ARABIC10CART算法效果可視化Cart算法的優(yōu)缺點(diǎn)Cart算法的優(yōu)點(diǎn):能夠處理連續(xù)值,能處理離散值,也支持剪枝。既可用于分類問題也可用于回歸問題。簡單直觀。Cart算法的缺點(diǎn):受數(shù)據(jù)集的變化影響較大,哪怕是一點(diǎn)點(diǎn)的代表也會(huì)導(dǎo)致樹結(jié)構(gòu)的巨變。分類決策不應(yīng)該由某一屬性決定,應(yīng)該由一組屬性來決定。貝葉斯算法詳解樸素貝葉斯算法的基本思想與流程樸素貝葉斯算法的理論基礎(chǔ)是貝葉斯定理。Bayes’theorem誕生于18世紀(jì),是由英國數(shù)學(xué)家ThomasBayes提出[29],在概率論領(lǐng)域中起著十分重要的作用。貝葉斯定理是用于解決隨機(jī)事件A與B的條件概率的問題的。P(A):代表A事件發(fā)生的概率,P(B):代表B事件發(fā)生的概率;P(A|B):B事件發(fā)生的條件下A事件發(fā)生的概率,A事件發(fā)生的后驗(yàn)概率;P(B|A):A事件發(fā)生的條件下B事件發(fā)生的概率,B事件發(fā)生的后驗(yàn)概率。用這四個(gè)概率中已知的三個(gè)概率進(jìn)行推測得到第四個(gè)概率,這就是貝葉斯定理所能解決的問題。例如:(SEQ(\*ARABIC11)就可以通過已知的P(A|B),P(B),P(A)來計(jì)算P(B|A)。樸素貝葉斯算法的基本思想是:針對已經(jīng)知道的待分類樣本,當(dāng)該樣本發(fā)生的時(shí)候,計(jì)算所有可能的類別出現(xiàn)的概率,最后所求項(xiàng)的類別就是計(jì)算得到的概率最大的類別。那么樸素貝葉斯的分類過程是怎么樣的呢?表SEQ表\*ARABIC2樸素貝葉斯算法的過程設(shè)X={a1,a2,,am}為一個(gè)待分類項(xiàng),而每個(gè)a為X的一個(gè)特征屬性。類別集合為:C={y1,y2,,yn}。計(jì)算P(y1|X),P(y2|X),,P(yn|X)。如果P(yk|X)=max{P(y1|X),P(y2|X),,P(yn|X)},則X的類別為yk。整個(gè)過程中最重要的就是第3步計(jì)算條件概率,依據(jù)貝葉斯定理我們可以得出:(SEQ(\*ARABIC12)P(X)對于所有類別都是一樣的,所以我們需要做的就是最大化分子,最大化了分子就可以得出概率最大的類別,計(jì)算如下:(SEQ(\*ARABIC13)圖SEQ圖\*ARABIC11樸素貝葉斯的分類過程為了避免因?yàn)橛?xùn)練集中從未出現(xiàn)過的屬性其概率為0而在最后計(jì)算的時(shí)候因?yàn)槌肆?導(dǎo)致整個(gè)式子為0的情況發(fā)生,我們在樸素貝葉斯算法中使用的是拉普拉斯修正方法,即:(SEQ(\*ARABIC14)(SEQ(\*ARABIC15)xi的含義是x在第i個(gè)屬性上的取值,Dc,xi代表一個(gè)樣本集合,這個(gè)樣本集合要滿足兩個(gè)條件,第一個(gè)條件是分類結(jié)果為C;第二個(gè)條件是在第i個(gè)屬性上取值為xi。這個(gè)樣本集合就是由這樣的樣本組成的。的含義是訓(xùn)練集D中可能出現(xiàn)的類別總數(shù),Ni的含義是第i個(gè)屬性可能出現(xiàn)的取值總數(shù)。樸素貝葉斯算法的實(shí)現(xiàn)利用的仍然是wine數(shù)據(jù)集加sklearn模塊,用樸素貝葉斯算法進(jìn)行分類準(zhǔn)確率為98.15%,可視化得到的結(jié)果為:圖SEQ圖\*ARABIC12樸素貝葉斯的效果可視化樸素貝葉斯算法的優(yōu)缺點(diǎn)樸素貝葉斯算法的優(yōu)點(diǎn):樸素貝葉斯算法具有極其成熟的理論基礎(chǔ)——貝葉斯定理,有穩(wěn)定的分類效率。在小規(guī)模的數(shù)據(jù)集上表現(xiàn)良好,在增量式的訓(xùn)練方面表現(xiàn)良好。對缺失數(shù)據(jù)不是十分敏感,可以用拉普拉斯法來進(jìn)行修正。樸素貝葉斯算法的缺點(diǎn):要求個(gè)屬性之間相互獨(dú)立,但現(xiàn)實(shí)生活中很難保證相互獨(dú)立,所以經(jīng)常導(dǎo)致效果不是很好。輸入數(shù)據(jù)的不同的表達(dá)形式對結(jié)果影響很大。樸素貝葉斯要通過數(shù)據(jù)和先驗(yàn)概率來確定后驗(yàn)概率,從而決定分類,所以分類決策存在一定的誤差。最近鄰算法詳解最近鄰算法的基本思想與流程最近鄰算法是另一種常見且重要的分類算法,在非參數(shù)法中有著重要的地位,具有很高的應(yīng)用價(jià)值[16]。同時(shí),最近鄰算法也擁有十分成熟的理論基礎(chǔ),尤其是在用于文本分類的時(shí)候,效果特別好。最近鄰算法的核心思想是由距離未標(biāo)記樣本最近的K個(gè)最近鄰來決定未標(biāo)記樣本的類別。未標(biāo)記樣本的類別和與已知類別的距離最近的K個(gè)鄰居一致。最近鄰算法假定所有實(shí)例都是屬于n維歐式空間中的點(diǎn)。算法的實(shí)現(xiàn)過程是:首先計(jì)算距離:選擇一個(gè)點(diǎn),計(jì)算其與其他點(diǎn)之間的距離確定鄰居:確定合適的K值,找出K個(gè)鄰居統(tǒng)計(jì)找最大:對算出的最近的K個(gè)距離進(jìn)行統(tǒng)計(jì),找出分類比例最大的,即為對應(yīng)的類別距離度量:在計(jì)算相似性的時(shí)候,一般使用歐式距離。Lp距離的計(jì)算公式為:(SEQ(\*ARABIC16)當(dāng)p=1的時(shí)候Lp就是常說的曼哈頓距離,當(dāng)p=2的時(shí)候,Lp距離就是更為常用的歐式距離。N為空間中的兩個(gè)點(diǎn)(X1,X2),之間的歐式距離為:(SEQ(\*ARABIC17)表SEQ表\*ARABIC3最近鄰算法的偽代碼輸入:A[n]為N個(gè)訓(xùn)練樣本的分類特征;
k為近鄰個(gè)數(shù);選擇A[1]至A[k]作為x的初始近鄰;計(jì)算初始近鄰與測試樣本x間的歐氏距離d(x,A[i]),i=1,2,...k;按d(x,A[i])從小到大排序;計(jì)算最遠(yuǎn)樣本與x間的距離D,即max{d(x,A[j])|j=1,2...k};for(i=k+1;i<n+1;i++)計(jì)算A[i]與x間的距離d(x,A[i]);If(d(x,A[i])<D)then用A[i]代替最遠(yuǎn)樣本;按照d(x,A[i])從小到大排序;計(jì)算最遠(yuǎn)樣本與x間的距離D,即max{d(x,A[j])|j=1,...i};計(jì)算前k個(gè)樣本A[i]所屬類別的概率,i=1,2,...k;具有最大概率的類別即為樣本x的類;end
for輸出:x所屬的類別。最近鄰算法的實(shí)現(xiàn)仍然利用wine數(shù)據(jù)集和sklearn模塊,得到的準(zhǔn)確率為79.63%,因?yàn)镵值對KNN算法的影響非常大,為了能得到最好的分類效果,我先對最佳的K值進(jìn)行了搜索,將結(jié)果進(jìn)行可視化之后發(fā)現(xiàn),最佳的K值應(yīng)該是4。然后我對KNN分類器的分類效果進(jìn)行了可視化。圖SEQ圖\*ARABIC13尋找最佳K值圖SEQ圖\*ARABIC14KNN算法分類效果可視化最近鄰算法的優(yōu)缺點(diǎn)最近鄰算法的優(yōu)點(diǎn):簡單有效,理論成熟。算法復(fù)雜度低。方便進(jìn)行多分類任務(wù)。最近鄰算法的缺點(diǎn):計(jì)算量的大,要計(jì)算到每個(gè)點(diǎn)之間的距離。k值的選取很關(guān)鍵,k太小容易過擬合,k太大容易欠擬合。對于離群點(diǎn)、不平衡樣本很敏感。是一種消極學(xué)習(xí)的方法。分類算法的對比上文中我對ID3、CART、C4.5、樸素貝葉斯、最近鄰算法的思想以及基本流程進(jìn)行了論述,并且利用Python語言基于wine數(shù)據(jù)集和Balloons數(shù)據(jù)集進(jìn)行了實(shí)現(xiàn)。其中都對wine數(shù)據(jù)集進(jìn)行分類,所使用的算法不同得出的準(zhǔn)確率也有所不同。將代碼運(yùn)行三次,得到的準(zhǔn)確率情況為如下。ID3算法的準(zhǔn)確率分別為:94.44%、88.89%、92.59%;CART算法的準(zhǔn)確率分別為:87.04%、96.30%、94.44%;樸素貝葉斯算法的準(zhǔn)確率分別為:98.15%、100%、96.30%;KNN算法的準(zhǔn)確率分別為:62.96%、70.37%、75.93%。這幾種算法的平均準(zhǔn)確率分別為:ID3(91.97%)CART(92.59%)樸素貝葉斯(98.15%)KNN(69.75%),從對同一數(shù)據(jù)集進(jìn)行分類的結(jié)果來看,樸素貝葉斯算法的分類效果是最好的。但是我們也可看到在使用樸素貝葉斯算法的時(shí)候,對wine數(shù)據(jù)集分類出現(xiàn)了準(zhǔn)確率為100%的情況,這說明模型出現(xiàn)了過擬合的現(xiàn)象。結(jié)合這幾種算法的優(yōu)缺點(diǎn)以及實(shí)現(xiàn)原理來看,因?yàn)闃闼刎惾~斯算法是以貝葉斯定理為基準(zhǔn)的,所以對于條件獨(dú)立這一方面有很強(qiáng)的要求,但是日常生活中產(chǎn)生的數(shù)據(jù)總不太可能是如此規(guī)整的,做不到很強(qiáng)的條件獨(dú)立性,這就給使用這個(gè)算法帶來了很大的不便之處。在日常生活中為了使自己所設(shè)計(jì)的模型能夠得到別人的認(rèn)可、我們一般會(huì)要求可解釋性強(qiáng)一點(diǎn),那么這個(gè)時(shí)候來選擇決策樹算法就在合適不過了。其中,決策樹算法中ID3算法是最基礎(chǔ)也是最原始的算法,由于這個(gè)算法本身的缺陷,研究人員開發(fā)出了新的算法,后續(xù)開發(fā)的算法不論是在準(zhǔn)確率上還是在可解釋性方面都要比ID3算法強(qiáng)一點(diǎn),CART算法已經(jīng)不是單純的分類算法了,其也可以用于回歸,適用性更強(qiáng),可以使用的范圍也更廣。對于KNN算法,因?yàn)槠涫且环N基于樣本實(shí)例的算法,對K值的依賴性很大,確定最佳K值會(huì)額外增加大量工作量。另外分類算法又可以分為單一的分類算法與集成學(xué)習(xí)算法,像本文中提到的這幾種算法就歸屬于單一分類算法,另外常見的單一分類算法還有支持向量機(jī),這種算法可以有效的避免維數(shù)災(zāi)難,也較好的解決了局部極小點(diǎn)的問題。俗話說眾人拾柴火焰高,在算法這一領(lǐng)域這句諺語也很適用,很多情況下,只靠單一的分類算法是無法得到令人滿意的結(jié)果的,這時(shí)候集成學(xué)習(xí)算法就派上了大用場,常見的集成學(xué)習(xí)算法有:裝袋、boosting。實(shí)現(xiàn)算法相關(guān)內(nèi)容數(shù)據(jù)集介紹本文在實(shí)現(xiàn)ID3算法、C4.5算法、CART算法的時(shí)候,是用的數(shù)據(jù)集為wine數(shù)據(jù)集和balloon數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集都是從HYPERLINK"/ml/index.php"/ml/index.php這個(gè)網(wǎng)站上下載的,這個(gè)網(wǎng)站是美國加州大學(xué)所提出的,用來存放可以用于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、數(shù)據(jù)挖掘的數(shù)據(jù)的。這個(gè)網(wǎng)站打開之后是這樣的:圖SEQ圖\*ARABIC15UCI數(shù)據(jù)庫網(wǎng)站然后進(jìn)入該網(wǎng)站的數(shù)據(jù)庫中,如下圖:圖SEQ圖\*ARABIC16UCI數(shù)據(jù)庫從這個(gè)界面中我們可以看到,UCI這個(gè)網(wǎng)站上的數(shù)據(jù)集分門別類的放置,很方便我們尋找適合自己使用的數(shù)據(jù)集。由于要用于分類問題,所以我選擇了wine和Balloons這兩個(gè)數(shù)據(jù)集。wine數(shù)據(jù)集的介紹Wine數(shù)據(jù)集一共有14列,178行。這14列中,第1列代表的是類別,即酒屬于哪一類,剩余的13列,每列代表的都是一種屬性,這13種屬性發(fā)揮作用共同決定酒的類別。下圖貼上我利用Python語言在jupyternotebook中實(shí)現(xiàn)的對數(shù)據(jù)集的讀取截圖。從截圖中我們可以清晰地看到數(shù)據(jù)集的信息,我們還利用類別為分組對象,統(tǒng)計(jì)了一下每個(gè)類別的樣本數(shù)量,在圖17中也有顯示,從圖17中看出每類的樣本數(shù)量分別為59,71,48,看起來相差不是很大,接著我們用matplotlib利用箱圖進(jìn)行一下可視化,直觀的觀看一下差距,可以看出樣本的分布還是十分平衡的,在本文中我們只附上了其中四個(gè)屬性的箱圖結(jié)果。圖SEQ圖\*ARABIC17wine數(shù)據(jù)集的信息圖SEQ圖\*ARABIC18wine數(shù)據(jù)集的前五行圖SEQ圖\*ARABIC19箱圖結(jié)果1圖SEQ圖\*ARABIC20箱圖結(jié)果2圖SEQ圖\*ARABIC21箱圖結(jié)果3Balloons數(shù)據(jù)集的介紹Balloons數(shù)據(jù)集一共有5列,16行。這5列中,第5列代表的是氣球是否是扁平的,剩余的4列,每列代表的都是一種屬性,分別為顏色,尺寸,對氣球的動(dòng)作,年齡。下圖貼上我利用Python語言在jupyternotebook中實(shí)現(xiàn)的對數(shù)據(jù)集的讀取截圖,從圖21中我們可以看出Balloons數(shù)據(jù)集的詳細(xì)信息,分類的結(jié)果為該氣球是不是為扁平狀態(tài)。同樣我們以類別為分組對象,對每類的數(shù)據(jù)量進(jìn)行了統(tǒng)計(jì),從代碼運(yùn)行的結(jié)果來看,數(shù)據(jù)集中的樣本分布很是平衡。分布平衡的數(shù)據(jù)集十分有利于我們利用算法進(jìn)行處理。圖SEQ圖\*ARABIC22Balloons數(shù)據(jù)的信息圖SEQ圖\*ARABIC23Balloons數(shù)據(jù)集的展示圖SEQ圖\*ARABIC24Balloons數(shù)據(jù)集的樣本分布情況所使用語言、模塊、編譯器介紹Python語言的介紹在編程的領(lǐng)域里,有著“人生苦短,我用Python”的說法。我剛開始接觸的編程語言是C語言,然后是java,之后才是Python。對于一道很簡單的兩個(gè)數(shù)的加法題,C語言需要用10行代碼來實(shí)現(xiàn),java語言則需要9行代碼來實(shí)現(xiàn),python只需要4行代碼就可以實(shí)現(xiàn),我們有理由相信在處理一些困難的問題的時(shí)候Python語言的代碼量也會(huì)是最少的。在接觸過C語言和java語言之后再接觸Python語言,就會(huì)發(fā)現(xiàn)利用Python語言編寫代碼的時(shí)候一般就是腦子里怎么想就怎么編寫就可以,不需要向C和java那樣還需要先導(dǎo)入頭文件,變量還要預(yù)先聲明,輸出還在格式方面有嚴(yán)格的規(guī)定。我想正是因?yàn)镻ython語言簡潔易懂,可讀性更強(qiáng)、也更容易理解才會(huì)有更多的人喜歡Python語言吧。Python是由GuidovanRossum所創(chuàng)建的,可以說只要會(huì)英文就能讀懂Python語言編寫的代碼。而且Python語言的可移植性特別好,我們再也不需要擔(dān)心Windows下寫的代碼在linux下不能使用的問題了。同時(shí)Python語言的交互性也很好,在編寫的代碼的過程中你會(huì)有一種有人在和你交流的感覺,很人性化。但是Python語言也有其欠缺之處,比如Python語言在處理一些較為復(fù)雜的問題的時(shí)候,一般來說所用時(shí)間會(huì)比其他語言更久。Sklearn庫的介紹對于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的學(xué)習(xí)者來說,sklearn庫并不陌生。在sklearn庫中封裝著大量的算法,利用sklearn庫我們可以很容易的實(shí)現(xiàn)一些算法,使用之前我們要先導(dǎo)入sklearn庫。我們可以利用sklearn導(dǎo)入數(shù)據(jù)集,比如導(dǎo)入常見的iris數(shù)據(jù)集;利用sklearn對數(shù)據(jù)進(jìn)行預(yù)處理,可以做歸一化啊、正則化啊、one-hot編碼啊,這些在tensorflow中也很常見??梢岳胻rain_test_split()方法對數(shù)據(jù)集進(jìn)行劃分,這個(gè)方法看名字就可以知道用途;利用sklearn中內(nèi)置的fit()、score()、predict()這些方法可以對模型進(jìn)行操作,得到我們想要的結(jié)果。具體來說,sklearn庫可以分為七個(gè)部分,即數(shù)據(jù)導(dǎo)入外加六大模塊。這六大類模塊分別為:分類、回歸、聚類、降維、預(yù)處理以及模型選擇。數(shù)據(jù)導(dǎo)入又可以細(xì)分為三部分,利用load_來導(dǎo)入小型數(shù)據(jù)集;利用fetch_來導(dǎo)入大型數(shù)據(jù)集;利用make_來進(jìn)行數(shù)據(jù)集的創(chuàng)建,具體實(shí)現(xiàn)算法的方法在官網(wǎng)都有介紹,忘了的時(shí)候可以在官網(wǎng)進(jìn)行查看。圖SEQ圖\*ARABIC25sklearn庫官網(wǎng)Matplotlib庫的介紹Matplotlib是用來作數(shù)據(jù)可視化的一種十分方便且好用的庫。利用matplotlib庫可以實(shí)現(xiàn)餅圖、條形圖、折線圖、散點(diǎn)圖、詞云等,只需要在使用之前導(dǎo)入matplotlib庫,對于中文無法顯示的問題還需要添加下面這句代碼:matplotlib.rc("font",family='YouYuan'),對于圖形顯示不出來的還需要添加%matplotlibinline這句代碼。在實(shí)現(xiàn)各種圖的時(shí)候只需要調(diào)用相對應(yīng)的方法即可。將數(shù)據(jù)可視化可以幫助我們很方便清楚的觀看數(shù)據(jù),對數(shù)據(jù)進(jìn)行對比,更容易抓住重點(diǎn)。圖24為matplotlub庫的官網(wǎng)截圖,圖25是自己在使用matplotlib庫的時(shí)候使用度比較高的方法總結(jié)。圖SEQ圖\*ARABIC26matplotlib官網(wǎng)截圖圖SEQ圖\*ARABIC27常用方法總結(jié)Pandas模塊的介紹Pandas模塊對于數(shù)據(jù)挖掘的工作異常重要,我們在日常生活中得到的數(shù)據(jù)大部分情況下是凌亂無比的,一般來說不可能直解可以用于算法,這時(shí)候就需要提前對數(shù)據(jù)進(jìn)行一些處理,使其符合我們算法的要求,這便用到了pandas模塊。可以利用pandas來讀取文本文件、csv文件、excel文件,對讀取的數(shù)據(jù)緊接著就可以進(jìn)行處理。對數(shù)據(jù)進(jìn)行過濾,提取特定的我們需要的數(shù)據(jù),對缺失值進(jìn)行處理,對數(shù)據(jù)進(jìn)行求最大值啊、求最小值、按組分啊,這些都能在最大程度上給我們后續(xù)對數(shù)據(jù)進(jìn)行操作提供幫助。Jupyternotebook的介紹Jupyternotebook是一個(gè)交互式的編寫代碼的軟件,在最開始接觸jupyernotebook的時(shí)候我以為這個(gè)軟件只能用來編寫Python代碼,僅僅是一個(gè)很好的編寫Python代碼的交互式軟件,后來使用下來才發(fā)現(xiàn),其實(shí)jupyternotebook能做的事情不止是編寫Python代碼那么簡單,jupyternotebook還支持markdown,可以利用jupyternotebook來做筆記,可以創(chuàng)建共享文檔,使用的時(shí)候利用win+r打開運(yùn)行命令快捷鍵,然后輸入cmd打開命令提示符,接著在命令提示符里輸入jupyternotebook就可以打開notebook,如果遇到無法自己彈出,可以復(fù)制網(wǎng)址在瀏覽器里打開。然后根據(jù)需要進(jìn)行選擇語言進(jìn)行編寫。graphviz模塊的介紹我相信不管是在我們的日常生活中還是在我們的學(xué)習(xí)生活中,圖形都能使我們更加直觀清楚的了解一些東西,大部分人是沒有耐心去讀一大段文字的,相反圖片總是能吸引人們的注意力。目前市面上用來畫圖的軟件有很多,比較常見的應(yīng)該是幕布、Xmind,然而這些對于程序員來說使用的并不是很多,對于程序員來說使用最多的應(yīng)該就是利用eclipse畫er圖以及利用graphviz畫圖。第一次接觸到graphviz是在學(xué)校數(shù)據(jù)挖掘的實(shí)訓(xùn)課上,老師給我們介紹了這個(gè)畫圖工具,當(dāng)時(shí)就是用來畫決策樹的,當(dāng)然本文也利用到了graphviz畫決策樹。經(jīng)過了解之后,自己才明白graphviz所能做的絕對不是單純的畫決策樹這么簡單,graphviz是國外一個(gè)實(shí)驗(yàn)室開發(fā)的開源的工具,被譽(yù)為程序員的畫圖利器。當(dāng)然談到graphviz就必須提到dot語言了,因?yàn)間raphviz就是來處理dot語言從而來畫圖的。利用graphviz可以繪制無向圖、有向圖、流程圖、鏈表等,可以利用dot語言為節(jié)點(diǎn)起名字,給節(jié)點(diǎn)設(shè)置一些屬性,繪制出來的圖形也很簡潔易懂,方便了我們獲取有用的信息。結(jié)論伴隨著我國綜合國力的不斷提升,經(jīng)濟(jì)文化軟實(shí)力越來越強(qiáng),人們早已不再只滿足于簡單的衣食住行了,不僅在文化娛樂方面的需求大幅提升,而且對于衣食住行來說,更多人追求的是更好的服務(wù),更貼切的推薦。從幾十年前摩托羅拉公司研發(fā)出了第一部智能手機(jī)到現(xiàn)在;從最開始的智能手機(jī)支持WAP1.1無線上網(wǎng)到現(xiàn)在發(fā)展到了6.0;從一開始功能簡單手寫輸入識別準(zhǔn)確率極低到現(xiàn)在可以通過語音控制手機(jī)功能覆蓋生活方方面面,可以說更好的為我們提供了服務(wù),方便了我們的生活。但是這些方便的背后,特別是隨著淘寶的流行,數(shù)據(jù)量也在激增,這一點(diǎn)從手機(jī)的內(nèi)存容量不斷擴(kuò)大,直逼電腦的容量也能看出來。龐雜的數(shù)據(jù)背后隱藏著的豐富的信息如果利用好了,那么將會(huì)為大幅提升我們的生活水平添磚加瓦。在一系列學(xué)科的不斷發(fā)展與龐雜數(shù)據(jù)背后誘人的信息的吸引下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,在數(shù)據(jù)挖掘技術(shù)誕生之后,歷經(jīng)數(shù)十年的發(fā)展,也的的確確使我們的生活更加方便了,省下了很多我們逛商場挑選中意物品的時(shí)間,淘寶、拼多多、京東大幅使用推薦算法,讓我們能夠在最短的時(shí)間內(nèi)買到適合自己的東西。像抖音、火山、今日頭條、微博這類娛樂性的軟件,利用推薦算法也能讓我們最大程度的避免看見自己不感興趣的內(nèi)容,為我們的好心情保駕護(hù)航。在未來的生活中,可以說各個(gè)領(lǐng)域都會(huì)用到數(shù)據(jù)挖掘技術(shù),使用好這個(gè)技術(shù)可以使我們提前預(yù)知一些危險(xiǎn),最大程度避免損失,也能最大程度地節(jié)省時(shí)間,讓我們在有限的時(shí)間內(nèi)做更多的事情,提高我們的效率。相信很多人聽過這樣一句話——人分三六九等,那么這又會(huì)涉及到數(shù)據(jù)挖掘技術(shù)中很重要的一個(gè)分支——分類。從大自然到我們的日常生活,從雞零狗碎的小事到至關(guān)重要的大事,處處體現(xiàn)著分類的思想。將事物、要做的事情分類既能幫助我們更快更準(zhǔn)確的找到自己想要的又能使我們更專注有效的完成多件事情。在專家學(xué)者的不懈努力下,目前已經(jīng)有很多分類算法面世,最基礎(chǔ)也是使用最多的莫過于是決策樹、貝葉斯以及最近鄰算法。在上文中我論述了這些算法的原理以及優(yōu)缺點(diǎn),并利用代碼和從UCI官網(wǎng)上下載的數(shù)據(jù)進(jìn)行了實(shí)現(xiàn),直觀的感受就是凌亂無章的數(shù)據(jù)經(jīng)過分類算法的處理之后很容易看出所屬類別,我想在這些基礎(chǔ)算法之上進(jìn)行更深入的研究,使其更符合工業(yè)的需求,然后投入使用一定會(huì)極大的方便我們的日常生活的。比如說樸素貝葉斯算法會(huì)要求各屬性之間相互獨(dú)立,事實(shí)上在現(xiàn)實(shí)生活中很多事情之間都是或多或少會(huì)有關(guān)聯(lián)的,很難做到相互獨(dú)立,于是就有了貝葉斯信念網(wǎng)絡(luò)。顯而易見,這些基礎(chǔ)算法用于生產(chǎn)實(shí)踐中是需要進(jìn)一步改進(jìn)的。
參考文獻(xiàn)DuXianping,XuHongyi,ZhuFeng.Adataminingmethodforstructuredesignwithuncerta
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國埋地管道重防腐靜電噴涂設(shè)備數(shù)據(jù)監(jiān)測研究報(bào)告
- 統(tǒng)編版二年級語文下冊第八單元達(dá)標(biāo)測試卷(含答案)
- 上海市曹楊二中2024-2025學(xué)年高二上學(xué)期期末考試化學(xué)試卷(含答案)
- 遼寧省鞍山市高新區(qū)2024-2025學(xué)年九年級下學(xué)期開學(xué)考試化學(xué)試題(含答案)
- 技校汽車底盤試題及答案
- 3 2025年耳鼻喉科相關(guān)疾病試題
- 色彩生命測試題及答案
- 遺產(chǎn)繼承分配方案合同
- 高等教育自學(xué)考試《00065國民經(jīng)濟(jì)統(tǒng)計(jì)概論》模擬試卷一
- 2025年度主管護(hù)師考試專項(xiàng)復(fù)習(xí)試題庫70題及答案(四)
- 2025年安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案參考
- 2025年安慶醫(yī)藥高等專科學(xué)校單招職業(yè)適應(yīng)性考試題庫附答案
- 4.1 人要有自信(課件)-2024-2025學(xué)年道德與法治七年級下冊 (統(tǒng)編版2024)
- 2025春季開學(xué)第一課安全教育班會(huì)課件-
- 生物節(jié)律調(diào)節(jié)課件
- 不分手承諾書(2025版)戀愛忠誠協(xié)議
- 2020-2025年中國國有控股公司行業(yè)發(fā)展趨勢及投資前景預(yù)測報(bào)告
- 病區(qū)8S管理成果匯報(bào)
- 2025年人教版七年級歷史下冊階段測試試卷含答案
- 林下經(jīng)濟(jì)中藥材種植基地建設(shè)項(xiàng)目可行性研究報(bào)告立項(xiàng)新版
- 急診預(yù)檢分診標(biāo)準(zhǔn)
評論
0/150
提交評論