大數(shù)據(jù)分析項目實踐_第1頁
大數(shù)據(jù)分析項目實踐_第2頁
大數(shù)據(jù)分析項目實踐_第3頁
大數(shù)據(jù)分析項目實踐_第4頁
大數(shù)據(jù)分析項目實踐_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)分析項目實踐實踐目的了解數(shù)據(jù)分析經(jīng)過這兩周的課讓我們了解了數(shù)據(jù)分析是基于商業(yè)目的,有目的地進行收集、整理、加工和分析數(shù)據(jù),提煉有價信息的一個過程。數(shù)據(jù)分析最主要的作用是輔助決策,是大數(shù)據(jù)時代必然產(chǎn)物。傳統(tǒng)的中小企業(yè),以前更多的是依靠經(jīng)驗決策,隨著大數(shù)據(jù)信息化時代的到來,企業(yè)經(jīng)營中積累了大量的數(shù)據(jù),對這些數(shù)據(jù)進行專業(yè)的分析,能夠促進企業(yè)更好更精準的發(fā)展,數(shù)據(jù)驅動的決策管理,能夠有效防范企業(yè)拍腦袋決策的經(jīng)營風險,所以數(shù)據(jù)分析師的作用越來越大,需求也越來越多,但從事這個行業(yè)是需要一定的基本條件的,首先必須要具備一定的數(shù)學和統(tǒng)計統(tǒng)籌的基礎,其次要掌握基本的數(shù)據(jù)分析的工具軟件;再次多學習些數(shù)據(jù)分析的方法、思維模式。其次,數(shù)據(jù)分析無論是現(xiàn)在的互聯(lián)網(wǎng)企業(yè),還是傳統(tǒng)型企業(yè),都需要數(shù)據(jù)分析。公司需要決定一些方向或者推出某種新型產(chǎn)品,就需要數(shù)據(jù)分析來將一些凌亂的數(shù)據(jù)進行整合匯總,從而判斷出具體的方向。明確就業(yè)前景在實踐剛開始,為了激勵我們學習接下來的課程老師特地給我們講了相關的就業(yè)前景及月薪年薪,帶著激動的心情我們了解到,大數(shù)據(jù)工程師對商業(yè)和產(chǎn)品的理解,并不亞于業(yè)務部門員工,因此也可轉向產(chǎn)品部或市場部,乃至上升為公司的高級管理層。馬云說“我們已從IT時代進入了DT時代,未來我們的汽車、電燈泡、電視機、電冰箱等將全部裝上操作系統(tǒng),并進行數(shù)據(jù)集成,數(shù)據(jù)將會讓機器更“聰明”。DT時代,數(shù)據(jù)將成為主要的能源,離開了數(shù)據(jù),任何組織的創(chuàng)新都基本上是空殼。”總之,數(shù)據(jù),是未來的一切。這個時代是大數(shù)據(jù)時代,也是大數(shù)據(jù)人才稀缺的時代。由于中國人才缺口比較大,大數(shù)據(jù)也迅速成為行業(yè)和市場的熱點,更多的企業(yè)無論是對人才的招聘還是在培訓都成了剛需,這也促使大數(shù)據(jù)人才的薪資在同崗位中是最高的,掌握大數(shù)據(jù)技術,工資提升40%左右是很常見的。大數(shù)據(jù)的就業(yè)領域是很寬廣的,不管是科技領域,還是食品產(chǎn)業(yè),零售業(yè)等等,都是需要大數(shù)據(jù)人才進行大數(shù)據(jù)的處理,以提供更好的用戶體驗,以及優(yōu)化庫存,降低成本,預測需求。下面跟厚學網(wǎng)一起看看大數(shù)據(jù)培訓后大家在各個領域可以從事的工作崗位及未來發(fā)展方向。實踐內容MYSQL的學習1、創(chuàng)建數(shù)據(jù)庫CREATE

DATABASE

database-name2、刪除數(shù)據(jù)庫drop

database

dbname3、備份sqlserver創(chuàng)建備份數(shù)據(jù)的deviceUSEmasterEXEC

sp_addumpdevice

'disk',

'testBack',

'c:\mssql7backup\MyNwind_1.dat'開始備份BACKUP

DATABASE

pubs

TO

testBack4、創(chuàng)建新表create

table

tabname(col1type1[not

null][primary

key],col2type2[not

null],..)根據(jù)已有的表創(chuàng)建新表:A:create

table

tab_new

like

tab_old(使用舊表B創(chuàng)建新表A)5、說明:刪除新表drop

table

tabname6、幾個簡單的基本的sql語句選擇:select

*

from

table1

where

范圍插入:insert

into

table1(field1,field2)

values(value1,value2)刪除:delete

from

table1

where

范圍更新:update

table1

set

field1=value1

where

范圍查找:select

*

from

table1

where

field1

like

’%value1%’

排序:select

*

from

table1

order

by

field1,field2[desc]總數(shù):select

count

as

totalcount

from

table1求和:select

sum(field1)

as

sumvalue

from

table1平均:select

avg(field1)

as

avgvalue

from

table1最大:select

max(field1)

as

maxvalue

from

table1最?。簊elect

min(field1)

as

minvalue

from

table1Navicat_premium的學習NavicatPremium是一套數(shù)據(jù)庫開發(fā)工具,讓我們從單一應用程序中同時連接MySQL等數(shù)據(jù)庫,可以使快速輕松地創(chuàng)建、管理和維護數(shù)據(jù)庫。實習期間只是很簡單的應用了這個軟件沒有進行過多操作,但它成為了連接數(shù)據(jù)庫與數(shù)據(jù)庫之間的重要橋梁。FineReport的學習FineReport提供了兩種添加圖表的方式,一是單元格元素,一是懸浮元素。圖表作為單元格元素插入到報表中,就可以通過單元格的父子關系,跟隨主格的擴展自動生成相應的圖表,而不需要對每組數(shù)據(jù)單獨制作對應的圖表。懸浮圖表的定義與單元格圖表是基本上完全相同的,只是在第一步插入圖表的時候,選擇摻入懸浮元素即可。作為懸浮元素插入到報表中的圖表,沒有單元格的限制,可以圖表位置固定,也可以隨意拖放到任何位置,大小設置后不會改變,沒有父格,不會因為其他單元格的擴展而受影響。插入圖表:打開FineReport報表設計器,選擇菜單欄上的“插入>單元格元素>圖表”,或者在單元格上面,右擊選擇添加單元格元素,插入圖表即可,這里選擇柱形圖。綁定圖表數(shù)據(jù)源:選中圖表,在右側上方的圖表屬性面板中選擇圖表屬性表-數(shù)據(jù),圖表數(shù)據(jù)來源使用默認單元格數(shù)據(jù)。設置圖表樣式:在圖表屬性表-樣式面板中,我們可以設置“標題”“圖例”“系列”“坐標軸”“區(qū)域”“數(shù)據(jù)表”,比如可以設置標題不可見、左對齊、顏色為紅、無邊框等。也可以設置\o"圖表動態(tài)交互"圖表的交互屬性,實現(xiàn)動態(tài)展示、數(shù)據(jù)點提示、坐標提示、坐標軸縮放、圖表自動刷新等效果。在三天的fineReport學習中最重要的就是學習如何制作大屏,而大屏則是由若干個小的圖表、地圖、跑馬燈等組成,所以小組件的制作極為重要。想要做大屏首先需要足夠大的數(shù)據(jù)量,其次要有很多精美的圖片。FineReport將數(shù)據(jù)導入報表平臺滿足大屏展示,移動化數(shù)據(jù)展示、數(shù)據(jù)深度鉆取以及自主分析的需求。整合數(shù)據(jù)倉庫,通過微軟本身的ETL工具,從原有系統(tǒng)把數(shù)據(jù)抽取上去,做前端的數(shù)據(jù)展示。需要如下操作:1、準備數(shù)據(jù)在制作圖表前,需要先定義圖表的數(shù)據(jù)來源。在上面的圖表制作流程中提到數(shù)據(jù)來源有兩種類型,數(shù)據(jù)集數(shù)據(jù)源和單元格數(shù)據(jù)源,本章節(jié)使用數(shù)據(jù)集作為數(shù)據(jù)源,如果需要使用單元格數(shù)據(jù)源,可查看定義圖表單元格數(shù)據(jù)源。新建工作薄,添加數(shù)據(jù)集。2、插入圖表并選擇圖表類型圖表有兩種插入方式:單元格圖表與懸浮圖表,該例中我們以懸浮圖表為例,單元格圖表的插入方式請查看單元格圖表。點擊工具欄中的插入>懸浮元素>插入圖表,彈出圖表向導,選擇圖表類型。3、定義圖表數(shù)據(jù)選擇完圖表類型后,點擊確定,返回報表主體界面,選中懸浮圖表,在報表主體右側上方的圖表屬性表中設置圖表屬性,選擇圖表屬性表,設置柱形圖的數(shù)據(jù)。4、設置圖表數(shù)據(jù),首先要選擇數(shù)據(jù)的來源,圖表的數(shù)據(jù)來源于數(shù)據(jù)集數(shù)據(jù),選擇好數(shù)據(jù)來源之后,為分類軸、系列名、系列值綁定數(shù)據(jù)集中的字段,用圖表來展示數(shù)據(jù)集中的數(shù)據(jù)。分類軸:是圖表的橫軸,即x軸,表示數(shù)據(jù)是按照什么分類顯示的;系列名:系列就是圖表的縱軸,即y軸,系列名稱表示每個分類下數(shù)據(jù)是按照什么順序顯示的;系列值:就是每個系列的值;匯總方式:對系列值的計算方式。5、圖表樣式設置標題設置選中圖表,在設計器右側上方會出現(xiàn)圖表屬性表,選擇圖表屬性表-樣式>標題6、系列標簽設置選擇圖表屬性表-樣式>標簽,勾選標簽,顯示出每個系列的值。保存模板finerepor大屏細節(jié)操作:圖表間之間的組件間隔:body-->屬性-->布局-->組件間隔決策報表背景水?。篵ody-->屬性-->水印儀表盤指針/樞紐/背景顏色:樣式-->系列柱形圖/組合圖警戒線:樣式-->背景-->繪圖區(qū)-->警戒線Y軸折線圖間隔背景:樣式-->背景-->繪圖區(qū)-->間隔背景柱形圖圓角:樣式-->系列-->邊框-->圓角環(huán)形餅圖,將餅圖設置為下圖環(huán)形樣式:樣式-->系列-->樣式-->內經(jīng)占比餅圖展示的數(shù)據(jù)不需要分類,系列名使用字段值即可python的學習后三天主要學習了用Python在網(wǎng)站上爬取一些自己想要的信息。學習的基礎語句有;語句一#發(fā)送請求#導入urllib中的request模塊fromurllibimportrequest#urlopen方法可以發(fā)送請求url#返回response#接受響應url=′http://www,′response=request.urlopen(url)dataresponse.read().decode(′utf-8′)print(data)語句二from

urllib

import

request

url

=

""

#

設置

headers

header={"User-Agent":"Mozilla/5.0

(Windows

NT

6.1;

Win64;

x64)

AppleWebKit/537.36

(KHTML,

like

Gecko)

Chrome/74.0.3729.169

Safari/537.36"}

req

=

request.Request(url,headers=header)

response

=

request.urlopen(req)

html

=

response.read().decode("utf-8")

print(req.header_items())

#

[('Host',

''),

('User-agent',

'Python-urllib/3.6')]

#

print(html)語句三#

發(fā)送請求

from

urllib

import

request

from

bs4

import

BeautifulSoup

url

=

""

header

=

{"User-Agent":

"Mozilla/5.0

(Windows

NT

6.1;

Win64;

x64)"

"

AppleWebKit/537.36

(KHTML,

like

Gecko)

"

"Chrome/74.0.3729.169

Safari/537.36"}

req

=

request.Request(url,headers=header)

response

=

request.urlopen(req)

#

接受響應

讀取響應內容

data

=

response.read().decode()

#

解析數(shù)據(jù)

#

print(html)

#

創(chuàng)建一個soup對象

#

參數(shù)1

等待被解析的數(shù)據(jù)

#

參數(shù)2

需要一個解析器

html.parser

lxml

soup

=

BeautifulSoup(data,"html.parser")

t

=

soup.select("title")

print(t)

#

保存數(shù)據(jù)語句四#

發(fā)送請求

#

我要引入

導入

使用

urllib的

包(文件夾)中的

#

request的

模塊(request.py的文件)

from

urllib

import

request

#

引入bs4

from

bs4

import

BeautifulSoup

for

i

in

range(10):

page

=

str(i*10)

url

=

"/board/4?offset="+page

header

=

{"User-Agent":"Mozilla/5.0

(Windows

NT

6.1;

Win64;

x64)

AppleWebKit/537.36

(KHTML,

like

Gecko)

Chrome/74.0.3729.169

Safari/537.36"}

#

在request模塊中

有個Request可以封裝headers等信息

r

=

request.Request(url,headers=header)

#

把封裝好的信息

放到URLopen中

#

urlopen方法

發(fā)送請求

接受響應

#

接收響應

response

=

request.urlopen(r)

#

讀取響應

得到一個網(wǎng)頁的源代碼

html

=

response.read().decode()

#

print(html)

#

解析響應

解析源代碼

#

創(chuàng)建soup對象

#

參數(shù)1

等待被解析的數(shù)據(jù)

參數(shù)2

解析器

soup

=

BeautifulSoup(html,"html.parser")

#lxml

index

=

soup.select("i.board-index")

name

=

soup.select("

a")

star

=

soup.select("p.star")

releasetime

=

soup.select("p.releasetime")

img

=

soup.select("img.board-img")

f

=

open("./maoyan.txt","a",encoding="utf-8")

for

i

in

range(10):

f.write(index[i].text+

name[i].text+

star[i].text.strip()+

releasetime[i].text+

img[i].get("data-src")+"\n"

)

f.close()

#

保存數(shù)據(jù)經(jīng)過老師的耐心教導我們聽懂了這些語句并輸入到python里,成功地從各大網(wǎng)站上爬取了我們想要的信息。實踐過程我們本次暑期實踐在校內進行,本著學習并簡單掌握幾種大數(shù)據(jù)軟件的操作而展開。作為統(tǒng)計學院大三的學生,即將面臨畢業(yè)和就業(yè),學院特地安排了和我們專業(yè)關系密切的大數(shù)據(jù)實習活動,以幫助我們更好的明確自己的就業(yè)方向。本次實習由統(tǒng)計學院老師指導監(jiān)督,由北京光環(huán)致成國際管理咨詢有限公司委派的實習老師教授,在我校于6月25日至7月5日進行了為期兩周的暑期實踐活動??偟膩碚f,本次暑期實踐可分為3個階段。第一階段:老師教授階段。在老師的指導下,我們完成了對MySQL、Navicatpremium、FineReport、Python四個大數(shù)據(jù)軟件的安裝與學習。在此階段,主要是老師展示軟件操作及講授其功能,幫助我們認識大數(shù)據(jù)的過程。第二階段:學生上機操作階段。這個階段是最重要的階段。在此階段,我們通過上機操作,詢問老師并答疑解惑對大數(shù)據(jù)有了一個全新的了解。對于它的概念、應用領域、多功能有了進一步的了解。其次,初步了解了大數(shù)據(jù)軟件的操作。第三階段:報告及答辯階段。在最后兩天里,我們以小組形式完成了報告書寫,并利用FineReport完成了大數(shù)據(jù)大屏制作,最后在小組內選舉一名代表上臺答辯。這個階段是對前兩個階段學習的一個總結,在此階段,團隊合作起了極大的作用。實踐體會本次暑期校內實習雖然只有短短的兩周,但它卻給我們留下了深刻的影響,我們從中受益匪淺。一方面,從一開始接觸大數(shù)據(jù)及其相關輔助軟件到熟練操作它,再到我們以小組形式展示實踐成果,整個過程不僅是對大數(shù)據(jù)這個新朋友的認識,也是對當代信息社會溝通方式的一個新的了解。一開始,我們誰也不了解,甚至都沒聽過“大數(shù)據(jù)”這個概念,我們臆測應該就是一長串的數(shù)據(jù)吧,類似于代碼之類的東西。然而,當我們的實習老師以ppt形式向我們展示何為大數(shù)據(jù)時,我們一邊為我們對其狹窄的理解而吃驚,一邊為大數(shù)據(jù)的魅力所震撼。原來大數(shù)據(jù)是這么一種東西,它就像達芬奇一樣。當我們只知道他是畫家時,為他同時作為一位偉大的哲學家而震驚;當我們只知道他是數(shù)學家時,又為他作為一名杰出的音樂節(jié)而震驚;而當我們只知道他是物理學家時,再次為他作為一名高深的醫(yī)學家而震驚。事實正是如此,我們對于大數(shù)據(jù)的認識只是冰山一角,但這冰山一角卻足以然我們?yōu)榇酥圆灰?。在實習老師的帶領下,我們了解到大數(shù)據(jù)的一個比較常用的功能。即它在購物網(wǎng)站上的應用。簡單來說就是:消費者在購物網(wǎng)站上的購買記錄以及瀏覽記錄會被以數(shù)據(jù)形式記錄下來并完成分析,最后給出一個反饋。該消費者在下次登陸購物網(wǎng)站時,系統(tǒng)就會根據(jù)大數(shù)據(jù)分析的結果給出一個推薦。該推薦就反映了該名消費者的購物習慣。這樣想想這的確對于消費者而言提供了大大的方便,我們不必埋頭尋找我們想要卻說不出名的東西,系統(tǒng)會投你所好,幫助你實現(xiàn)愉快的購物。但同時我們也了解到了大數(shù)據(jù)的一個致命的弊端:泄露個人信息。沒錯,大數(shù)據(jù)在為我們提供購物方便之時,它也完成了對我們的一個人物分析。我們的性別、年齡、身份、欲望、愛好等等均暴露無遺。在當今信息爆炸的一個時代里,我們的信息一旦外泄,將給我們帶來巨大的人身威脅。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論