玩轉(zhuǎn)大數(shù)據(jù):深入淺出大數(shù)據(jù)挖掘技術(shù)(Apriori算法Tanagra工具決策樹)_第1頁
玩轉(zhuǎn)大數(shù)據(jù):深入淺出大數(shù)據(jù)挖掘技術(shù)(Apriori算法Tanagra工具決策樹)_第2頁
玩轉(zhuǎn)大數(shù)據(jù):深入淺出大數(shù)據(jù)挖掘技術(shù)(Apriori算法Tanagra工具決策樹)_第3頁
玩轉(zhuǎn)大數(shù)據(jù):深入淺出大數(shù)據(jù)挖掘技術(shù)(Apriori算法Tanagra工具決策樹)_第4頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、個人資料整理僅限學(xué)習(xí)使用本課程是怎么樣的一門課程< 全面介紹)1.1 、課程的背景“大數(shù)據(jù)”作為時下最火熱的IT 行業(yè)的詞匯,隨之而來的數(shù)據(jù)倉庫、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)據(jù)的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。 “大數(shù)據(jù)” 其實離我們的生活并不遙遠,大到微博的海量用戶信息,小到一個小區(qū)超市的月銷售清單,都蘊含著大量潛在的商業(yè)價值。 b5E2RGbCAP正是由于數(shù)據(jù)量的快速增長,并且已經(jīng)遠遠超過了人們的數(shù)據(jù)分析能力。因此,科學(xué)、商用等領(lǐng)域都迫切需要智能化、自動化的數(shù)據(jù)分析工具。在這樣的背景下,數(shù)據(jù)挖掘技術(shù)應(yīng)用而生,使得海量數(shù)據(jù)的分析變得易如反掌。 p1EanqFDPw1

2、.2 、課程內(nèi)容簡介本課程名為深入淺出數(shù)據(jù)挖掘技術(shù)。所謂“深入”,指得是從數(shù)據(jù)挖掘的原理與經(jīng)典算法入手。其一是要了解算法,知道什么場景應(yīng)當應(yīng)用什么樣的方法;其二是學(xué)習(xí)算法的經(jīng)典思想,可以將它應(yīng)用到其他的實際工程之中;其三是理解算法,讓數(shù)據(jù)挖掘的算法能夠應(yīng)用到您的工程開發(fā)之中去。所謂“淺出”,指得是將數(shù)據(jù)挖掘算法的應(yīng)用落實到實際的應(yīng)用中。課程會通過三個不同的方面來講解算法的應(yīng)用:一是微軟公司的 SQL Server 與 Excel 等工具實現(xiàn)的數(shù)據(jù)挖掘;二是著名開源算法的數(shù)據(jù)挖掘,如 Weka 、KNIMA 、Tanagra 等開源工具;三是利用 C# 語言做演示來完成數(shù)據(jù)挖掘算法的實現(xiàn)。 DX

3、DiTa9E3d根據(jù)實際的引用場景,數(shù)據(jù)挖掘技術(shù)通常分為分類器、關(guān)聯(lián)分析、聚類算法等三大類別。本課程主要介紹這三大算法的經(jīng)典思想以及部分著名的實現(xiàn)形式,并結(jié)合一些商業(yè)分析工具、開源工具或編程等方式來講解具體的應(yīng)用方法。 RTCrpUDGiT1.3 、課程大綱1>數(shù)據(jù)挖掘概述與數(shù)據(jù)本章講解了數(shù)據(jù)挖掘技術(shù)的起源、應(yīng)用場景以及基本的處理方法,并對于數(shù)據(jù)集、數(shù)據(jù)等基本的概念做了闡釋。更多免費共享視頻資料加群1065376712> 可視化與多維數(shù)據(jù)分析< 實踐課)本章講解了數(shù)據(jù)可視化的基本方法,并分別演示了Excel 數(shù)據(jù)透視表與SQL Server AnalysisService 對

4、于多維數(shù)據(jù)的可視化處理。<OLAP ) 5PCzVD7HxA1 / 7個人資料整理僅限學(xué)習(xí)使用3>分類器與決策樹本章講解了分類器的基本概念與應(yīng)用方法,并具體分析了分類器經(jīng)典算法之一決策樹的實現(xiàn)方法。4> 其他分類器 < 上)本章講解了另外兩種經(jīng)典的分類器算法:基于規(guī)則的分類器與基于距離的分類器。5>其他分類器 < 下)本章講解了其他一些常見的分類器算法,如基于距離的分類器的改良算法、貝葉斯分類器、人工神經(jīng)網(wǎng)絡(luò)、支持向量機與組合方法等。 jLBHrnAILg6>決策樹的應(yīng)用 < 實踐課)本章演示了利用 Weka Explorer 、 KNIME、T

5、anagra 等開源工具進行的數(shù)據(jù)挖掘處理。演示中對比了幾類數(shù)據(jù)挖掘算法,如 Cart 決策樹、 C4.5決策樹、 KNIME 決策樹、簡單貝葉斯分類、組合方法 < 裝袋)、人工神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的分類等。 xHAQX74J0X7>關(guān)聯(lián)分析本章講解了關(guān)聯(lián)分析的常見算法,即Apriori 算法與 FP增長算法。8>購物車數(shù)據(jù)分析 < 實踐課)本章主要演示了利用微軟的解決方案來進行購物車數(shù)據(jù)的關(guān)聯(lián)分析,包括SQL ServiceAnalysis Service 的關(guān)聯(lián)分析與Excel 結(jié)合 SSAS 外接程序等方法。最后還利用Weka KnowledgeFlow工具來進行關(guān)

6、聯(lián)分析,以便對比第六章的實踐。LDAYtRyKfE9>聚類算法本章講解了聚類算法的基本原理與常見算法,包含K 均值算法、層次聚類、基于密度的聚類算法。10>聚類算法 C# 源代碼實現(xiàn) < 實踐課)本章演示如何通過C#源代碼實現(xiàn)聚類算法。1.5 、講師介紹艾倫:世界 500 強頂級企業(yè) 2年云計算工作經(jīng)驗,擁有多年的開發(fā)經(jīng)歷,擅長SQL Server 數(shù)據(jù)庫并對數(shù)據(jù)處理有一定的研究,同時也有許多C/C+ 、C# 、 Jquery 等網(wǎng)頁與桌面應(yīng)用開發(fā)經(jīng)驗。Zzz6ZB2Ltk2 / 7個人資料整理僅限學(xué)習(xí)使用二、為什么需要這么套課程?2.1 、企業(yè)需要什么?數(shù)據(jù)挖掘是一門比較新

7、的技術(shù),而數(shù)據(jù)挖掘的需求并沒有完全的挖掘出來。在這樣的情形下,我們依然看到很多企業(yè)對這樣的新技術(shù)有著強烈的需求。dvzfvkwMI1< 說明:以下企業(yè)需求職位均來自于 51job. )職位 1、數(shù)據(jù)庫工程師職位 2、軟件開發(fā)工程師職位 3、市場分析員更多企業(yè)招聘信息請參考:2.2 、課程學(xué)習(xí)目標 < 我們提供什么?)目標一 . 可以讓學(xué)員了解與理解主要的數(shù)據(jù)挖掘技術(shù)。目標二 . 可以讓學(xué)員迅速掌握各類數(shù)據(jù)挖掘技術(shù)的應(yīng)用場景。目標三 . 可以讓學(xué)員迅速掌握常見的數(shù)據(jù)挖掘工具的使用方法。目標四 . 可以讓有一定基礎(chǔ)的學(xué)員對數(shù)據(jù)挖掘的代碼實現(xiàn)入門。2.3 、課程特色特點一、講師講求深入淺

8、出,從理論、原理出現(xiàn)但是會回歸到實際的應(yīng)用。既照顧到希望提高理解與認識的學(xué)員,也照顧到關(guān)注實踐應(yīng)用的學(xué)員。rqyn14ZNXI3 / 7個人資料整理僅限學(xué)習(xí)使用特點二、實踐應(yīng)用各有側(cè)重,會從幾種不同風(fēng)格的軟件或工具入手來演示。如主流軟件公司的數(shù)據(jù)挖掘產(chǎn)品< 微軟公司的SQL Service Analysis Service )、開源軟件與工具<Weka 、 KNIME 、Tanagra)以及挖掘算法通過C# 代碼的實現(xiàn)。充分照顧到學(xué)員對于應(yīng)用軟件的偏好。EmxvxOtOco特點三、學(xué)習(xí)的過程中理論和實踐相結(jié)合,案例數(shù)據(jù)具備一定的代表性。并且課程提供所有的案例數(shù)據(jù)供學(xué)員自行修改和調(diào)試

9、,以鞏固加深學(xué)習(xí)效果SixE2yXPq52.4 、課程亮點亮點一、數(shù)據(jù)挖掘本身就是前沿的技術(shù),中文的教材、課程數(shù)量非常少,如此的課程在國內(nèi)也不常見。亮點二、理論與實戰(zhàn)相結(jié)合,深入淺出。即照顧到基礎(chǔ)學(xué)員,又照顧到有一定經(jīng)驗的學(xué)員,即講解細致,又一針見血,對技術(shù)絕不含糊。 6ewMyirQFL亮點三、代碼的實現(xiàn)是一行一行手工敲入,手把手一步步帶領(lǐng)學(xué)員從入門到精通。亮點四、實踐演示涉及到的軟件、工具數(shù)目眾多,照顧不同使用習(xí)慣的學(xué)員。亮點五、整個課程雖短,但“麻雀雖小,五臟倶全”。講解過程節(jié)奏緊湊且內(nèi)容充實。3. 課程真心不錯,我可以學(xué)嗎?本課程會涉及到不少數(shù)據(jù)挖掘的算法。為了更好地理解算法,建議學(xué)員

10、可以有一定的基本算法的基礎(chǔ)。除了SQL Service Analysis Service 的應(yīng)用實踐,大部分的演示都避免了使用數(shù)據(jù)庫來導(dǎo)入數(shù)據(jù),因此對于數(shù)據(jù)庫的知識沒有特別要求。若學(xué)員希望理解最后一章的代碼實現(xiàn),需要具備C# 的基本知識。 kavU42VRUs1 、 學(xué)習(xí)基本算法在Java 的實現(xiàn),推薦您學(xué)習(xí)2 、 學(xué)習(xí)基本算法在C# 的實現(xiàn),推薦您學(xué)習(xí)3 、 學(xué)習(xí) C# 的基本知識,推薦您學(xué)習(xí)4 / 7個人資料整理僅限學(xué)習(xí)使用4. 我該怎么學(xué) ,如何才能學(xué)好這門課程,給些建議。4.1 、時間上的安排建議本課程共 10 講,由于內(nèi)容比較緊湊,建議每天一講,深入理解課程內(nèi)容。4.2 、學(xué)習(xí)要求建

11、議按照課程進度仔細觀看學(xué)習(xí),并利用課程的測試數(shù)據(jù)在相應(yīng)的軟件或工具中自己實踐一遍。 < 由于版權(quán)原因, Excel 、SQL Server 與 Visual Studio 未提供下載地址,但其他開源軟件均提供了下載地址) y6v3ALoS89如果您有基礎(chǔ),建議學(xué)習(xí)算法后可以嘗試利用代碼實現(xiàn)算法,并學(xué)會舉一反三4.3 、講師建議 < 講師給學(xué)員的建議)建議:1. 最好看完視頻之后,拋開視頻,仔細想想每個算法的原理與思想;若記憶不深刻,可以回過頭看再看下視頻,如此反復(fù),達到真正理解和熟練掌握的目的。M2ub6vSTnP2. 對于工程實戰(zhàn)部分,一定要自己親自動手做一遍,不要聽完就結(jié)束。3

12、. 很多知識在開源社區(qū)中都有不同的見解,要學(xué)會使用搜索引擎,多逛逛相關(guān)社區(qū)。4. 最后祝您學(xué)有所成。5. 學(xué)完這門課程后能做什么?學(xué)會該課程后,嘗試著問自己幾個問題:1. 在您的生活中、工作中是否有尚未開發(fā)的數(shù)據(jù)?2. 那些尚未開發(fā)的數(shù)據(jù)與數(shù)據(jù)挖掘哪一個模型能夠匹配?3. 能否嘗試使用數(shù)據(jù)挖掘的方法來發(fā)現(xiàn)一些潛在的規(guī)律?本課程是針對數(shù)據(jù)、數(shù)據(jù)分析與挖掘方向,可以幫助您學(xué)會數(shù)據(jù)挖掘的思想,并不限定于某個5 / 7個人資料整理僅限學(xué)習(xí)使用特定的專業(yè)技術(shù)。掌握該技術(shù)后,一定能使您對于自己的業(yè)務(wù)數(shù)據(jù)的分析方法與能力更上一層樓。0YujCfmUCw6. 學(xué)員常見問題:常見問題一:學(xué)習(xí)該教程會使用哪些軟件

13、?軟件有沒有隨教程提供,沒有提供的話,軟件的的下載地址,及他們所使用的版本如何? eUts8ZQVRd講師回答:本課程的軟件分為兩個部分:第一個部分是微軟公司的Office Excel、 SQL Server Analysis Service(SSAS> 、Visual Studio 。Visual Studio 主要用于演示層次聚類算法的C# 實現(xiàn),并不限制于特定的版本。Excel與 SQL Server 結(jié)合所需的版本如下:sQsAEJkW5TExcel 2007與 SQL Server 2005Excel 2007與 SQL Server 2008Excel 2018與 SQL S

14、erver 2018第二部分是一些開源軟件與工具,課程中會提供工具下載的鏈接。常見問題二:學(xué)這個課程需要什么基礎(chǔ)?講師回答:適合對數(shù)據(jù)分析有興趣的學(xué)員。建議對基本算法、數(shù)據(jù)庫等知識有一定了解。開源軟件與工具界面為英文,主要以單詞為主,對英文沒有特別要求。GMsIasNXkA常見問題三:這種技術(shù)一般可用在什么場合?講師回答:本數(shù)據(jù)是數(shù)據(jù)分析領(lǐng)域的一個技術(shù)點,不是一個特定的工具。首先,數(shù)據(jù)分析與挖掘的思想可以借鑒到生活中或者工作中的任意數(shù)據(jù)分析場景;其次,分析與挖掘的方法可以廣泛用于市場定位、客戶關(guān)系分析、工程開發(fā)等領(lǐng)域。掌握它后可以讓你對數(shù)據(jù)的把控能力更得心應(yīng)手,前< 錢)途無限。 TIrRGchYzg常見問題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論