數(shù)據(jù)預處理實驗_第1頁
數(shù)據(jù)預處理實驗_第2頁
數(shù)據(jù)預處理實驗_第3頁
數(shù)據(jù)預處理實驗_第4頁
數(shù)據(jù)預處理實驗_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、重慶交通大學信息科學與工程學院實驗報告班級:曙光1701班姓名學號:實驗項目名稱:數(shù)據(jù)導入與預處理實驗一實驗項目性質(zhì):驗證件、設(shè)計件實驗所屬課程:數(shù)據(jù)導入與預處理實驗室(中心):語音樓八樓指導教師:實驗完成時間:2019年11月1日實驗目的1. 了解和掌握數(shù)據(jù)庫的恢復,數(shù)據(jù)庫數(shù)據(jù)的變換,數(shù)據(jù)的統(tǒng)計以及可視化;掌握Json數(shù)據(jù)集的API下載方法,數(shù)據(jù)提取,以及導入其他數(shù)據(jù)結(jié)構(gòu)的方法。2. 了解和掌握不同數(shù)據(jù)格式之間的轉(zhuǎn)換方法;掌握用計算機編程語言實現(xiàn)數(shù)據(jù)的格式轉(zhuǎn)換以及數(shù)據(jù)信息的提取。二實驗要求1. 安裝Mysql數(shù)據(jù)庫,以及mysqlworkbench客戶端,2. 下載對公眾開放的安然(Enro

2、n)公司的電子郵件數(shù)據(jù)集。下載地址:3. 在mysql中恢復Enron數(shù)據(jù)庫。4. 數(shù)據(jù)統(tǒng)計每一天和每一周發(fā)郵件的數(shù)量,并用可視化軟件實現(xiàn)可視化。5. 采用iTunesAPI做個小實驗,利用關(guān)鍵詞來生成JSON數(shù)據(jù)結(jié)果集。iTunes是由Apple公司提供的一個音樂服務(wù),任何人都可以利用iTunes服務(wù)來查找歌曲、藝術(shù)家和專輯。在查找的時候需要把搜索關(guān)鍵詞添加到iTunesAPIURL的后面。URL中,=后面的是搜索關(guān)鍵詞,是一個樂隊的名字,theGrowlers。注意:URL中用+代替空格字符,URL不允許包含空格字符。iTunesAPI會根據(jù)提供的關(guān)鍵詞從音樂庫中返回50個結(jié)果。整個結(jié)果集

3、形成一個JSON文件,每一條音樂信息中的元素,以名字-值的格式存放在JSON文件中。TheGrowlersAppleiTunes的開發(fā)文檔:6.使用一種熟悉的語言,編寫程序,將下載下來的theGrowlers的所有音樂的歌名提取出來,并可視化顯示。三、需求分析1 .提取出安然公司數(shù)據(jù)集中的每天的閱讀量和每周的閱讀量,并畫出趨勢圖2 .提取出iTunes中的trackname數(shù)據(jù)四、實驗過程1 .安裝好Mysql和MysqlWorkbenchMySQLMySQLShellMySQLWorkbenchSDCfr Installer-Community MySQLServer8.0welcometo

4、MySQLWorkbench2.建立一個新的數(shù)據(jù)庫:3,打開cmd,進入MySQL:10rowsinset10.00se(4 .下載好安然公司的數(shù)據(jù)集5 .選用enron數(shù)據(jù)庫)在Mysql中導入安然公司的數(shù)據(jù)集到數(shù)據(jù)庫6.在MysqlWorkbench中查看已經(jīng)創(chuàng)建好的數(shù)據(jù)庫3丁W7.用SQL語言查找每天的訂閱量(1999年到2017年)8,并導入excel畫圖excel文件如下:再用TableauPublic2019.2,繪制圖形,如下圖所示:9.用sql語言查找每周的訂閱量Qg7c10.并導入excel畫圖11.下載iTunes數(shù)據(jù)集,下載結(jié)果為文本文件將后綴名改為.Json:12.以文

5、本文件格式打開,如下圖:13. 用python將json格式文件中的 Trackname 提取出來14. 打開jupyter)編寫代碼口區(qū)及環(huán)藺resultCounCSO- * results*:coHectionldWZeTeiS4七Mi曲明90 26.七闌盛扇門向 癡酶mto嘩。由0曲心曲勢嘀iHai Rm*ihf*斤,tlcNanneBlaidklBemori, McallecllionCensoredNanne*/Chines&Foutairf,taaEkCnsaredN nre */ 8lac k. MemoriesN( arti it Vie wUaiMp|yQ|4Ausi c.

6、h p pSexom/us/a rtis*qowle 國都BM 如523uo t4, tlectk)nVieydjH*lrtlp&i/rnstic.apple.corn/us/alturn/biaEl&-me moW9026761 S2 ?i90267172&ua 少4;*trackViewUrihttps/music applexom/u/album/black memcris/902J676l52?i=9026761 2&u0二41 f 腳堂h”留itRp刷假鼐硼施j.書博弧朔tvit u ncssuis/3&SB/ c9cd Sfi3-sbO4-3出8-940443葡1的曲而聃叫jW83

7、2S7579988824a78.plu.aae.p.!iMari喻婢0則1舞呼他間監(jiān) 向端部噬傲對柚岫購商4AmM6*廿M河布的4&f9 0305-9e0fl 3bc083274afe/source/30)Cbb jpg arhv0Kfe34Jr artis Fpp*rT/p -rmf二ppm尸Byp號previeMJrl; htt (.wrapperlype: t*rti香 rSfisncoHvctitfiTd1 19077(15?J -trartl(T M7V76173.26S112052. eDllertionlf:902676152. trickld50267E1B3. Harti3總結(jié)通過此次實驗,了解和掌握數(shù)據(jù)庫的恢復、數(shù)據(jù)庫數(shù)據(jù)的變換、數(shù)據(jù)的統(tǒng)計以及可視化;掌握 Json數(shù)據(jù)集的API下載方法,數(shù)據(jù)提取,以及導入其他數(shù)據(jù)結(jié)構(gòu)的方法;還有就是了解和掌握不同數(shù)據(jù)格式之間的轉(zhuǎn)換方法;掌握用計算機編程語言實現(xiàn)數(shù)據(jù)的格式轉(zhuǎn)換以及數(shù)據(jù)15.結(jié)果如下信息的提取。了解了mysql的安裝以及一些基本的sql操作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論