版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1引言............................................................................................................................1
1.1項(xiàng)目背景......................................................................................................1
1.2開發(fā)環(huán)境與工具..........................................................................................2
1.2.1Python簡(jiǎn)介..........................................................................................2
1.2.2PyCharm簡(jiǎn)介........................................................................................2
1.2.3Python第三方庫簡(jiǎn)介..........................................................................2
2需求分析....................................................................................................................4
2.1可行性需求分析..........................................................................................4
2.2采集目標(biāo)功能分析......................................................................................4
2.3關(guān)鍵技術(shù)分析..............................................................................................5
2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5
2.3.2文件存取技術(shù).......................................................................................5
2.3.3可視化技術(shù)...........................................................................................6
3數(shù)據(jù)采集....................................................................................................................6
3.1采集頁面分析..............................................................................................6
3.2字段分析......................................................................................................8
3.3編程實(shí)現(xiàn)......................................................................................................9
4數(shù)據(jù)清洗與處理......................................................................................................11
4.1數(shù)據(jù)清洗....................................................................................................12
4.2數(shù)據(jù)儲(chǔ)存....................................................................................................13
4.3編程實(shí)現(xiàn)....................................................................................................14
5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................14
5.1數(shù)據(jù)準(zhǔn)備....................................................................................................14
5.2數(shù)據(jù)展示....................................................................................................16
5.2.1依據(jù)農(nóng)產(chǎn)品購(gòu)買后發(fā)布次數(shù)進(jìn)行統(tǒng)計(jì)和分析.................................16
5.2.2依據(jù)農(nóng)產(chǎn)品期望貨源地統(tǒng)計(jì)和分析.................................................17
5.2.3依據(jù)農(nóng)產(chǎn)品采購(gòu)商實(shí)人和實(shí)名認(rèn)證進(jìn)行統(tǒng)計(jì)和分析.....................18
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.4依據(jù)農(nóng)產(chǎn)品品種瀏覽次數(shù)排名進(jìn)行統(tǒng)計(jì)和分析.............................19
5.3綜述............................................................................................................19
6小結(jié)..........................................................................................................................20
參考資料.........................................................................................................................20
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
惠農(nóng)網(wǎng)農(nóng)產(chǎn)品數(shù)據(jù)分析與展示
1引言
時(shí)光荏苒,光陰如劍,日月如梭。當(dāng)今社會(huì)發(fā)展的越來越好,人們的衣食住
行各方面發(fā)生了很大的改變。世界正發(fā)生著翻天覆地的變化,作為新時(shí)代的新青
年處在時(shí)代的風(fēng)口有很多的機(jī)遇?;ヂ?lián)網(wǎng)時(shí)代是信息爆炸的時(shí)代,抓住了信息
差就抓住了機(jī)遇,而今越來越多的行業(yè)都與互聯(lián)網(wǎng)結(jié)合起來,像如今的直播帶
貨、直播聊天,從產(chǎn)業(yè)數(shù)字化到智慧生活到智慧城市,無一不彰顯出互聯(lián)網(wǎng)的
重要作用。互聯(lián)網(wǎng)的時(shí)代來臨,改變了人們以往靠書信,車馬交流的方式;改變
了人們的消費(fèi)觀念,互聯(lián)網(wǎng)時(shí)代的到來,縮短了時(shí)間和距離;還改變了人們的
生活習(xí)慣;也給大家?guī)砹嗽S多的機(jī)遇以及改變了大多數(shù)人的思維方式?;ヂ?lián)
網(wǎng)時(shí)代的到來,人們可以使用“虛擬”貨幣購(gòu)物,不用出門就可以購(gòu)買到商
品,不知不覺中,人們的消費(fèi)觀念在不知不知不覺中改變了。
民以食為天,農(nóng)產(chǎn)品的供應(yīng)體系等方面產(chǎn)生大量信息值得人們?nèi)ヌ剿鞣?/p>
析?,F(xiàn)在是在信息飛速發(fā)展的一代,人們?cè)谝粋€(gè)信息快速傳播分享的階段。大數(shù)
據(jù)行業(yè)人員近年來快速增加,越來越多的人都想趕上時(shí)代的浪潮。而作為大數(shù)
據(jù)的學(xué)習(xí)者,數(shù)據(jù)中的價(jià)值也等待著大家去探索發(fā)現(xiàn),大數(shù)據(jù)技術(shù)是現(xiàn)在互聯(lián)網(wǎng)
領(lǐng)域的一個(gè)熱門的領(lǐng)域,未來的世界是數(shù)據(jù)的時(shí)代!
1.1項(xiàng)目背景
網(wǎng)絡(luò)上龐大的互聯(lián)網(wǎng)農(nóng)產(chǎn)品網(wǎng)站不僅僅是農(nóng)產(chǎn)品的買賣,農(nóng)產(chǎn)品網(wǎng)上交易平
臺(tái)還提供了農(nóng)產(chǎn)品的信息、質(zhì)檢、結(jié)算、交易運(yùn)輸?shù)裙δ苡谝惑w。
隨著人們的生活水平不斷提高,恩格爾系數(shù)占比不斷減低,人們對(duì)物質(zhì)生
活的要求越來越高,人們對(duì)農(nóng)產(chǎn)品的需求也在不斷發(fā)生著改變,那人們對(duì)農(nóng)產(chǎn)
品的產(chǎn)地、銷售數(shù)量、如何銷售等又了解多少呢?。
本項(xiàng)目就是針對(duì)鄉(xiāng)村振興農(nóng)產(chǎn)品銷售需要,然后爬取惠農(nóng)網(wǎng)網(wǎng)站數(shù)據(jù),對(duì)其
進(jìn)行處理,分析,然后可視化。大量復(fù)雜的數(shù)據(jù)經(jīng)過處理分析后,可以非常清晰有
規(guī)律的呈現(xiàn)在創(chuàng)業(yè)者的眼里,對(duì)于鄉(xiāng)村振興的相關(guān)人員而言可以了解到這些農(nóng)產(chǎn)
品相關(guān)信息,哪些農(nóng)產(chǎn)品銷售量最高、農(nóng)產(chǎn)品都產(chǎn)自哪里、哪些是銷售農(nóng)產(chǎn)品大
戶等等都可以一目了然的呈現(xiàn)在大家的眼里。在大家做決定時(shí)可以作為參考依
據(jù)。
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
1.2開發(fā)環(huán)境與工具
1.2.1Python簡(jiǎn)介
Python的語法清楚、干凈、易讀、易維護(hù),編程直接簡(jiǎn)單,非常適合初學(xué)
者,Python更加注重編輯邏輯,不會(huì)讓使用者困于語法。
Python具有很多的特點(diǎn),如簡(jiǎn)單易學(xué),是一種簡(jiǎn)單主義思想語言,使用
Python開發(fā)程序時(shí),只需要專注于解決問題,不用糾結(jié)于語法本身的問題。免
費(fèi)開源,可以自由的使用代碼??梢浦残裕梢栽诒姸嗥脚_(tái)上運(yùn)行并且不需要
修改。而且Python不僅支持面向過程編程也支持面向?qū)ο缶幊?。除此之?/p>
Python有豐富的庫,Python的標(biāo)準(zhǔn)庫非常強(qiáng)大,可以幫助使用者處理各種工
作,包括正則、線程、數(shù)據(jù)庫、網(wǎng)頁瀏覽器、單元測(cè)試、圖形界面用戶等等。
從上述Python的特點(diǎn)可見,選擇Python編程采集數(shù)據(jù)、處理數(shù)據(jù)、數(shù)據(jù)
可視化是非常不錯(cuò)的選擇。
1.2.2PyCharm簡(jiǎn)介
PyCharm是提高Python語言開發(fā)效率的一種工具,專門針對(duì)專業(yè)開發(fā)人員
和剛起步人員使用,特別適合做項(xiàng)目使用。
首先PyCharm是Python最好用的編輯器,支持GoogleAppEngine等編碼
協(xié)助,項(xiàng)目代寫等,可以進(jìn)行調(diào)試、語法高亮、項(xiàng)目管理、代碼跳轉(zhuǎn)、智能提
示、智能提示、自動(dòng)完成、單元測(cè)試、版本控制等。其次PyCharm為現(xiàn)代Web
開發(fā)框架提供了豐富的框架針對(duì)性支持,支持Django框架下的專業(yè)Web開發(fā)。
并且,PyCharm與IPythonNotebook集成,提供交互式Python控制臺(tái),而且
支持Anaconda和多種科學(xué)化的包(例如matplotlib和NumPy)。
這次項(xiàng)目主要就是使用PyCharm工具。
1.2.3Python第三方庫簡(jiǎn)介
requests:requests是Python語言的第三方庫,專門用于發(fā)送http請(qǐng)
求,使用起來比urlib簡(jiǎn)潔很多。是客戶端庫,爬蟲和測(cè)試服務(wù)器響應(yīng)數(shù)據(jù)時(shí)
會(huì)經(jīng)常用到。最大的優(yōu)點(diǎn)是程序編寫過程更直接接近正常URL訪問過程。
lxml:lxml是xml和html的解析器,主要功能是解析和提取xml和html
中的數(shù)據(jù);lxml和re一樣,也是用c語言實(shí)現(xiàn)的,是一款高性能的python、
xml、html解析器,也可以利用xpath語法來定位特定的元素及節(jié)點(diǎn)信息。
Print:print是Python程序中最常出現(xiàn)、也是最基本的函數(shù),它用于將
信息輸出到控制臺(tái),即在控制臺(tái)窗口打印,可以打印字符串、格式化輸出、不
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
換行輸出、更換間隔字符。
Csv:是Python的內(nèi)置模塊,實(shí)現(xiàn)了CSV格式文件的讀寫,可以同時(shí)將文
件中數(shù)據(jù)讀取的細(xì)節(jié)隱去,是一種常見的文本格式,用以常用的文本格式、存
儲(chǔ)表格數(shù)據(jù),包括數(shù)字或者字符。
NumPy:NumPy是Python的一種開源的數(shù)值計(jì)算擴(kuò)展。這種工具可以用來
存儲(chǔ)和處理大型矩陣,支持大量的維度數(shù)組和矩陣計(jì)算,除此之外也針對(duì)數(shù)組
運(yùn)算提供大量的數(shù)學(xué)函數(shù)庫,包括數(shù)學(xué)運(yùn)算、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)等。
pandas:pandas是Python語言的一個(gè)高級(jí)拓展程序,用于數(shù)據(jù)分析。
Pandas提供了高性能、易于使用的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。其功能包括:數(shù)
據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析等。
Matplotlib:是一個(gè)比較重要的Python繪圖庫,基于NumPy的數(shù)組運(yùn)算功
能,繪畫功能非常強(qiáng)大,幾行代碼即可生成線圖、直方圖、功率圖、條形圖、
錯(cuò)誤圖、散點(diǎn)圖等。
G2plot是一套簡(jiǎn)單、易用、并具備一定擴(kuò)展能力和組合能力的統(tǒng)計(jì)圖標(biāo)
庫,基于圖形語法理論搭建而成,“G2plot”中的G2即意指圖形語法(the
GrammaofGraphics),同時(shí)也致敬了ggplot2。它的特性是開箱即用、默認(rèn)好
用的高質(zhì)量統(tǒng)計(jì)圖表,而起是響應(yīng)式圖表(致力于解決圖表在任何數(shù)據(jù)和顯示
尺寸下的基本可讀性問題),另一方面它還是圖層畫設(shè)計(jì)方法即在G2plot體系
下,圖表不僅僅只是各不相關(guān)的案例,圖層概念的引入提供了許多圖表組合疊
聯(lián)動(dòng),共同講述了一個(gè)數(shù)據(jù)故事的可能性。函數(shù)包含的種類包括:對(duì)象的比較
運(yùn)算、邏輯運(yùn)算、數(shù)字運(yùn)算及序列運(yùn)算。
Collections:是Python內(nèi)建的一個(gè)集合模塊,提供了很多方便且性能高
的關(guān)于集合的操作,掌握這些知識(shí)有助于提高代碼的性能和可讀性,實(shí)現(xiàn)了特
定目標(biāo)的容器。
Operator:標(biāo)準(zhǔn)功能性操作符接口,提供了一套與Python的內(nèi)置運(yùn)算符對(duì)
應(yīng)的高效率函數(shù),許多函數(shù)名與特殊方法名相同,只是沒有雙下劃線。為了向
后兼容,也保留了許多包含雙下劃線的函數(shù)
Multiprocessing:類似于一個(gè)多線程,multiprocessing庫提供了一致的
本地和遠(yuǎn)程的方法,使用子線程替代線程處理全局解釋鎖。因此,
multiprocessing庫允許編程者在給定機(jī)器上使用多個(gè)線程。
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
2需求分析
2.1可行性需求分析
1、技術(shù)可行性
這次項(xiàng)目本項(xiàng)目使用Python編程來來完成,對(duì)惠農(nóng)網(wǎng)網(wǎng)站進(jìn)行數(shù)據(jù)采集、
清洗、存儲(chǔ)然后可視化。首先使用Python網(wǎng)絡(luò)爬蟲技術(shù)對(duì)網(wǎng)頁進(jìn)行解析數(shù)據(jù)采
集,然后使用PyCharm工具對(duì)爬取的數(shù)據(jù)進(jìn)行清洗存儲(chǔ),然后再用到Python的
內(nèi)置文件儲(chǔ)存方式CSV對(duì)清理后的數(shù)據(jù)進(jìn)行存儲(chǔ)。首先使用到的是Chrome開發(fā)
者工具,用開發(fā)者工具打開網(wǎng)頁的元素面板,查看到元素所對(duì)應(yīng)的位置,再切
換到網(wǎng)絡(luò)面板可以看到該資源的頭部信息、預(yù)覽、響應(yīng)信息和cookie等信息。
然后利用Python的第三方庫requests庫中的GET方法生成請(qǐng)求,再使用lxml
庫的etree模塊通過Xpath獲取網(wǎng)頁內(nèi)容中的標(biāo)題、節(jié)點(diǎn)下的文本內(nèi)容,再利
用Python內(nèi)置文件的儲(chǔ)存方式CSV爬取下來經(jīng)過清洗預(yù)處理的數(shù)據(jù)存為csv格
式文件。最后用G2plot統(tǒng)計(jì)圖標(biāo)庫對(duì)清洗預(yù)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)可視化,把
這些數(shù)據(jù)用圖表的形式更加直觀的表現(xiàn)出來。
這些就是這次項(xiàng)目的技術(shù)可行性,本項(xiàng)目將在后續(xù)的工作過程中展示出來,
保證數(shù)據(jù)是準(zhǔn)確無誤的、是值得參考利用的。
2、項(xiàng)目可行性
食物是人生存之根本,而食物的產(chǎn)量跟農(nóng)業(yè)的發(fā)展息息相關(guān),中國(guó)是人口
大國(guó),解決好吃飯問題才有精力發(fā)展其他產(chǎn)業(yè),才能保障社會(huì)穩(wěn)定。
本次項(xiàng)目通過采集比較大型的農(nóng)產(chǎn)品網(wǎng)站內(nèi)的數(shù)據(jù),來分析國(guó)家的農(nóng)產(chǎn)品各
方面的情況。從中發(fā)現(xiàn)中國(guó)農(nóng)產(chǎn)品發(fā)展中存在的利弊,可以讓廣大農(nóng)業(yè)生產(chǎn)者
發(fā)現(xiàn)自身不足,找到正確的營(yíng)銷方式、促銷策略,實(shí)現(xiàn)買和賣的流暢,找出弊
端之所在,然后解決弊端,更好的實(shí)現(xiàn)農(nóng)業(yè)現(xiàn)代化發(fā)展。通過對(duì)此農(nóng)產(chǎn)品網(wǎng)站
的各項(xiàng)分析也有利于農(nóng)產(chǎn)品企業(yè)網(wǎng)站的建設(shè)、運(yùn)營(yíng)和推廣,打造優(yōu)質(zhì)的農(nóng)產(chǎn)品
企業(yè)網(wǎng)站。
2.2采集目標(biāo)功能分析
本次項(xiàng)目的數(shù)據(jù)集的來源是惠農(nóng)網(wǎng)站,是通過python爬取惠農(nóng)網(wǎng)農(nóng)產(chǎn)品的
信息。清洗后共763條數(shù)據(jù),爬取盡可能保證數(shù)據(jù)的完整性、準(zhǔn)確性,確定爬取
出來的數(shù)據(jù)屬于惠農(nóng)網(wǎng)站所有。
分析惠農(nóng)網(wǎng)網(wǎng)站,明確本項(xiàng)目需要爬取的數(shù)據(jù)有采購(gòu)品種、采購(gòu)數(shù)量、貨
源地、發(fā)布人、是否實(shí)人認(rèn)證、是否實(shí)地認(rèn)證、收貨地、農(nóng)產(chǎn)品的瀏覽次數(shù)等
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
數(shù)據(jù),在對(duì)原始數(shù)據(jù)進(jìn)行處理后本項(xiàng)目會(huì)對(duì)其數(shù)據(jù)進(jìn)行多個(gè)層面、多個(gè)方向分
析。例如,從產(chǎn)品的采購(gòu)數(shù)量方向,可以分析出人們哪款農(nóng)產(chǎn)品的需求量大;從
采購(gòu)品種可以分析出中國(guó)的農(nóng)產(chǎn)品種類豐富;從農(nóng)產(chǎn)品貨源地本項(xiàng)目可以分析
出農(nóng)產(chǎn)品的生長(zhǎng)地區(qū)主要產(chǎn)自哪里;從瀏覽次數(shù)排名可以分析出哪款農(nóng)產(chǎn)品最
受人們的歡迎。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
爬蟲的功能一般范圍數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)儲(chǔ)存,想要分析數(shù)據(jù)那么
首先就要采集數(shù)據(jù),采集數(shù)據(jù)就要用到網(wǎng)絡(luò)爬蟲,這次項(xiàng)目主要用到的是
Python中的requests模塊,Requests是Python中實(shí)現(xiàn)HTTP請(qǐng)求的一種方
式,該模塊在實(shí)現(xiàn)HTTP請(qǐng)求操作更加人性化,會(huì)自動(dòng)解碼來自服務(wù)器的內(nèi)容,
在使用的時(shí)候要實(shí)行命令pipinstallrequests代碼進(jìn)行該模塊的安裝,
Requests最常用的是POST和Get請(qǐng)求方法,這次項(xiàng)目中要用到GET方法請(qǐng)求
頭部。
這次爬蟲用到的解析網(wǎng)頁的工具是lxml庫,lxml庫使用的是Xpath語
法,是爬蟲中效率較高的解析庫。是一門在xml中文檔中找到信息的語言,可
以在文檔中對(duì)元素和屬性進(jìn)行遍歷,是一個(gè)非常好用的解析網(wǎng)頁的工具,此
外,在爬取網(wǎng)站的時(shí)候會(huì)對(duì)網(wǎng)站所有者的利益造成損害,使用網(wǎng)站所有者通常
會(huì)設(shè)置一系列的反爬策略,可以通過發(fā)送user-agent、調(diào)整訪問頻率、通過驗(yàn)
證碼校驗(yàn)、應(yīng)對(duì)網(wǎng)站結(jié)構(gòu)變化、通過賬號(hào)權(quán)限設(shè)置、通過代理IP規(guī)避這些策略
來對(duì)付反爬蟲。從而達(dá)到此次使用爬蟲的目的。
2.3.2文件存取技術(shù)
Python內(nèi)置文件的存儲(chǔ)方式,如圖2-1顯示:
圖2-1python內(nèi)置csv模塊
Python中的pandas模塊讀取csv文件中的數(shù)據(jù),如圖2-2顯示:
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖2-2pandas模塊方法
2.3.3可視化技術(shù)
爬取下來的數(shù)據(jù)經(jīng)過預(yù)處理、保存下來。還不能達(dá)到這次項(xiàng)目的目的,需
要將數(shù)據(jù)更加直觀地展示在大家面前,這就需要用到數(shù)據(jù)可視化工具
經(jīng)過先前的一系列操作,得到的只有一大堆的數(shù)字、漢字、字母,而本項(xiàng)
目并不能直接從數(shù)字漢字字母中得出結(jié)論,那么這個(gè)時(shí)候就要對(duì)數(shù)據(jù)進(jìn)行可視
化,就是導(dǎo)入Python中的可視化庫,通過可視化可以把各個(gè)數(shù)據(jù)的各個(gè)屬性加
以組合,通過圖表展示出數(shù)據(jù)之間的關(guān)聯(lián)信息,更加方便用戶觀察、分析和挖
掘。
這次項(xiàng)目就是將爬取到的數(shù)據(jù)進(jìn)行數(shù)據(jù)可視化,主要操作就是利用Python
可視化庫PyG2Plot來進(jìn)行可視化,Pyg2Plot是一個(gè)基于配置、體驗(yàn)優(yōu)雅、面
向數(shù)據(jù)Python基礎(chǔ)教程場(chǎng)景分析的統(tǒng)計(jì)圖標(biāo)庫,可以幫助開發(fā)者以最小成本繪
制高質(zhì)量的圖表??梢岳L制折線圖、柱狀圖、餅圖、漏斗圖等多種圖形,非常
易用,具備擴(kuò)展能力和組合能力。有開箱即用、視覺效果佳、響應(yīng)式圖表以及
圖層化設(shè)計(jì)方法等特性??梢院芎玫恼故境鰣D形便于分析得出結(jié)論。
3數(shù)據(jù)采集
3.1采集頁面分析
首先通過谷歌瀏覽器搜索惠農(nóng)網(wǎng)的官方網(wǎng)頁,然后進(jìn)入網(wǎng)頁采購(gòu)大廳,可以
看到網(wǎng)頁上的數(shù)據(jù),觀察圖3-1,其中URL為:
/purchase/0-0-0-0-0-2/
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-1數(shù)據(jù)網(wǎng)址頁面
進(jìn)入網(wǎng)站的采購(gòu)大廳,然后調(diào)出開發(fā)者工具,點(diǎn)擊鼠標(biāo)右鍵檢查,然后刷
新頁面,就可以看到如圖3-2的信息。
圖3-2開發(fā)者工具
利用全局搜索工具定位所需數(shù)據(jù)位置,可以發(fā)現(xiàn)這是一個(gè)GET請(qǐng)求。所以本
項(xiàng)目需要找到詳情頁數(shù)據(jù)的大致層次數(shù)據(jù)層次,如圖3-3。
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-3數(shù)據(jù)頁面大致層次
3.2字段分析
此項(xiàng)目中需要抓取“采購(gòu)品種”、“采購(gòu)數(shù)量”、“發(fā)布人”、“認(rèn)證情況”、
“詳情url”這幾個(gè)字段,首先打開網(wǎng)頁,在選擇欄輸入需要數(shù)據(jù)的網(wǎng)址,然
后使用開發(fā)者工具本項(xiàng)目可以看到瀏覽器請(qǐng)求的url地址就是真實(shí)數(shù)據(jù)資源的
地址,還能直接看到需要爬取的數(shù)據(jù)的結(jié)構(gòu)。如圖3-4所示。瀏覽器請(qǐng)求到服
務(wù)器資源的響應(yīng)內(nèi)容有本項(xiàng)目需要的數(shù)據(jù),它的結(jié)構(gòu)是ul下面有很多個(gè)標(biāo)簽組
成的,每一個(gè)li標(biāo)簽對(duì)應(yīng)網(wǎng)頁中的一條數(shù)據(jù),如圖3-5所示。通過以上特點(diǎn)可
以通過Requests方法中的GET方法來獲取數(shù)據(jù)的響應(yīng),然后將數(shù)據(jù)存為csv格
式的文件中。
圖3-4數(shù)據(jù)字段、結(jié)構(gòu)、地址的頁面
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-5分析數(shù)據(jù)結(jié)構(gòu)頁面
3.3編程實(shí)現(xiàn)
首先導(dǎo)入所需要庫。如圖3-6
圖3-6導(dǎo)入所需庫頁面
設(shè)置請(qǐng)求頭部,目的是偽裝成瀏覽器訪問服務(wù)器。如圖3-7
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-7請(qǐng)求頭內(nèi)容頁面
線程爬取步驟,如圖3-8
圖3-8爬取原理
代碼實(shí)現(xiàn)如下:
圖3-9爬取過程代碼
圖3-10爬取過程代碼
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-11爬取過程代碼
圖3-12爬取過程代碼
4數(shù)據(jù)清洗與處理
數(shù)據(jù)的不斷增加是時(shí)代的特征,但是眾多數(shù)據(jù)中總是存在著許多臟數(shù)據(jù),
即不完整、不規(guī)范、不準(zhǔn)確的數(shù)據(jù),因此數(shù)據(jù)清洗就是指徹底清洗臟數(shù)據(jù),包
括檢查數(shù)據(jù)一致性,處理無效信和缺失值等,從而提高數(shù)據(jù)質(zhì)量。
數(shù)據(jù)清洗的含義是檢測(cè)和去除數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺落
數(shù)據(jù),及去除空白數(shù)據(jù)域和知識(shí)背景下的白噪音。數(shù)據(jù)清洗主要運(yùn)用于三個(gè)領(lǐng)
域:數(shù)據(jù)庫、數(shù)據(jù)挖掘和數(shù)據(jù)質(zhì)量管理。
本次項(xiàng)目中需要將爬取下來的數(shù)據(jù)和原數(shù)據(jù)進(jìn)行對(duì)比,查看有沒有缺失
值、錯(cuò)誤值,提高數(shù)據(jù)質(zhì)量。
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4.1數(shù)據(jù)清洗
圖4-1準(zhǔn)備進(jìn)行清洗的數(shù)據(jù)頁面
圖4-2準(zhǔn)備清洗數(shù)據(jù)的代碼
清洗后經(jīng)過觀察對(duì)比,發(fā)現(xiàn)數(shù)據(jù)沒有缺失值、錯(cuò)誤值和空值,但是有15個(gè)
重復(fù)值,通過使用Dataframe的drop_duplicates方法對(duì)數(shù)據(jù)中的重復(fù)值進(jìn)行
處去除。如圖4-3
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-3數(shù)據(jù)清洗完成界面
4.2數(shù)據(jù)儲(chǔ)存
數(shù)據(jù)時(shí)代首先要解決的就是數(shù)據(jù)存儲(chǔ)問題,大數(shù)據(jù)存儲(chǔ)是大數(shù)據(jù)的關(guān)鍵技
術(shù)除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)之外,大數(shù)據(jù)更多的是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。
常見的非結(jié)構(gòu)化數(shù)據(jù)有文本、圖形、聲音、網(wǎng)頁等。這類數(shù)據(jù)無法用數(shù)字
或者統(tǒng)一的結(jié)構(gòu)表示。結(jié)構(gòu)化數(shù)據(jù)主要使用NOSQL非關(guān)系型數(shù)據(jù)庫進(jìn)行存放,
這類數(shù)據(jù)主要指的能夠用數(shù)據(jù)或者統(tǒng)一的結(jié)構(gòu)加以表示,如數(shù)字、符號(hào)。
這次項(xiàng)目主要用到的是csv。
如圖4-4所示:
圖4-4數(shù)據(jù)存儲(chǔ)為csv頁面
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4.3編程實(shí)現(xiàn)
圖4-5數(shù)據(jù)列表轉(zhuǎn)換為Dataframe頁面
查看存儲(chǔ)數(shù)據(jù)是否正確
圖4-6數(shù)據(jù)的數(shù)據(jù)查看頁面
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
導(dǎo)入相關(guān)庫,運(yùn)行代碼,得到原本的數(shù)據(jù),如圖5-1、5-2、5-3。
圖5-1獲取源數(shù)據(jù)代碼頁面
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-2數(shù)據(jù)準(zhǔn)備頁面
圖5-3數(shù)據(jù)加載頁面
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2數(shù)據(jù)展示
5.2.1依據(jù)農(nóng)產(chǎn)品購(gòu)買后發(fā)布次數(shù)進(jìn)行統(tǒng)計(jì)和分析
圖5-4數(shù)據(jù)展示頁面
這一步是將數(shù)據(jù)中農(nóng)產(chǎn)品購(gòu)買后發(fā)布的次數(shù)的字段數(shù)據(jù)進(jìn)行匯總和處理后
得出發(fā)布次數(shù)最多的農(nóng)產(chǎn)品,使用counter計(jì)數(shù)器迭代序列中的各個(gè)元素?cái)?shù)
量,然后遍歷,生成字典添加進(jìn)入列表,列表中的字段按照name排序,最后使
用pyg2plot繪制詞云圖,如圖5-3中可以看出柑桔出現(xiàn)的次數(shù)最高,其次就是豬
副作產(chǎn)品,然后再是甘蔗。在惠農(nóng)網(wǎng)上柑桔的發(fā)布頻數(shù)多說明柑桔是銷售的非
常好的農(nóng)產(chǎn)品,深受廣大人民群眾的喜愛。
而且還可以從中看出,發(fā)布的農(nóng)產(chǎn)品種類非常之多,有水果、蔬菜、禽畜
肉蛋、水產(chǎn)、農(nóng)副加工、糧玉米面、種子種苗等等,可以看出來中國(guó)的農(nóng)業(yè)目
前發(fā)展的很好,有了越來越多的“有文化,懂技術(shù),會(huì)經(jīng)營(yíng)”的農(nóng)業(yè)生產(chǎn)者,
正因?yàn)檫@些生產(chǎn)者的加入,讓中國(guó)農(nóng)業(yè)發(fā)展的越來越好、農(nóng)產(chǎn)品種類越來越
多,農(nóng)產(chǎn)品的多樣性也說明了了人民的生活水平越來越高、生活質(zhì)量越來越
好。也可以從側(cè)面反映出來農(nóng)業(yè)的生產(chǎn)規(guī)模擴(kuò)大了、農(nóng)業(yè)技術(shù)進(jìn)步了、農(nóng)業(yè)的
勞動(dòng)生產(chǎn)率提高了。隨著鄉(xiāng)村振興的號(hào)召、越來越多的青年投入的基層服務(wù),
國(guó)家政策的響應(yīng)、青年的覺醒響應(yīng)號(hào)召,以及農(nóng)業(yè)技術(shù)提高、農(nóng)產(chǎn)品交易平臺(tái)
興起、互聯(lián)網(wǎng)的發(fā)展等各方面條優(yōu)勢(shì),相信農(nóng)業(yè)的生產(chǎn)效益肯定會(huì)越來越好。
16
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.2依據(jù)農(nóng)產(chǎn)品期望貨源地統(tǒng)計(jì)和分析
圖5-4數(shù)據(jù)展示頁面
從圖5-4中可以看出來絕大部分采購(gòu)商都可以接受全國(guó)各地的貨源,占比
百分之74.44,所占比例非常的高,以往的采購(gòu)商們都會(huì)找那種穩(wěn)定的、標(biāo)準(zhǔn)
的、優(yōu)質(zhì)、高效的貨源供應(yīng)方。然而現(xiàn)在大部分采購(gòu)商可以接受全國(guó)范圍內(nèi)的
貨源,這種改變到底是什么原因呢?
原因是因?yàn)楝F(xiàn)在全國(guó)各地的響應(yīng)振興農(nóng)業(yè)的號(hào)召,農(nóng)業(yè)一體化越來越好,
基本上當(dāng)?shù)剞r(nóng)產(chǎn)品生產(chǎn)地都有團(tuán)隊(duì)協(xié)作,以及專業(yè)的技術(shù)人員指導(dǎo),對(duì)各個(gè)農(nóng)
產(chǎn)品供銷服務(wù)基地都有統(tǒng)一的指導(dǎo)和培訓(xùn),規(guī)范化了農(nóng)產(chǎn)品供應(yīng)鏈,提高了產(chǎn)
地管理效率。使得采購(gòu)方式變得簡(jiǎn)單、有條理、便利。并且可以獲取最大化的
利益,多方合作伙伴的參與協(xié)調(diào)工作同時(shí)讓果品品質(zhì)可控、產(chǎn)品可以溯源,使
得采購(gòu)各方面權(quán)益更加有保障。而每一次的合作愉快也使得越來越多的采購(gòu)商
相信這種采購(gòu)方式,基于全國(guó)范圍內(nèi)挑選最符合自己利益的貨源地合作,因此
農(nóng)產(chǎn)品采購(gòu)商可以更加放心的從全國(guó)范圍內(nèi)采購(gòu)貨物。
其次期望的貨源地就是甘肅,甘肅農(nóng)耕文化底蘊(yùn)深厚、與絲綢之路沿線國(guó)
家和地區(qū)農(nóng)業(yè)交往歷史悠久、通道樞紐功能明顯,而且甘肅省地域狹長(zhǎng),光照
充足,晝夜溫差大,病蟲害發(fā)生少,是特色農(nóng)產(chǎn)品生長(zhǎng)的“溫室”。不僅有政策
扶持,再加上本身的地域優(yōu)勢(shì)。近年來,甘肅農(nóng)業(yè)穩(wěn)步增長(zhǎng),種植結(jié)構(gòu)多樣,
優(yōu)質(zhì)特色的產(chǎn)業(yè)多,加上甘肅的氣候條件農(nóng)產(chǎn)品品質(zhì)高,而且政策好,基于以
上優(yōu)勢(shì),采購(gòu)商們會(huì)更意向甘肅采購(gòu),所以甘肅會(huì)成為主要的貨源地。
17
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.3依據(jù)農(nóng)產(chǎn)品采購(gòu)商實(shí)人和實(shí)名認(rèn)證進(jìn)行統(tǒng)計(jì)和分析
圖5-5數(shù)據(jù)展示頁面
從圖5-5中可以得出中國(guó)農(nóng)產(chǎn)品采購(gòu)商實(shí)人實(shí)名認(rèn)證情況比較少,未實(shí)名
認(rèn)證的占了絕大部分,而且從圖中可以看出1月10號(hào)的認(rèn)證情況比1月11號(hào)
多,從中可以看出農(nóng)產(chǎn)品產(chǎn)銷“實(shí)名制”實(shí)施的不到位。
民以食為天,食以安為先。舌尖的安全,永遠(yuǎn)是民生的重點(diǎn)。看似只是沒
有實(shí)名制不會(huì)有什么問題,但是農(nóng)產(chǎn)品實(shí)名制是防止造假的治本之策,這些年
來,食品安全越來越嚴(yán)重,“土坑酸菜、過期食品、保健蜂蜜………”這些關(guān)鍵
詞頻繁成為網(wǎng)絡(luò)熱搜,成為公眾關(guān)心的食品安全與健康輿論熱點(diǎn)。中國(guó)食品安
全涉及的面越來越廣、危害程度越來越深、制毒制劣手段越來越多樣化。所以
農(nóng)產(chǎn)品產(chǎn)銷實(shí)名制勢(shì)在必行,強(qiáng)化源頭監(jiān)管,才可以保證舌尖安全,一旦發(fā)生
食品問題就可以追根溯源,降低損失,可以極大的保證采購(gòu)者的利益,同時(shí)有
效的促進(jìn)市場(chǎng)誠(chéng)信經(jīng)營(yíng),也可以一定程度上保證農(nóng)產(chǎn)品的安全性、很大程度上
能促進(jìn)中國(guó)農(nóng)業(yè)的發(fā)展。所以農(nóng)產(chǎn)品必須加快實(shí)名制步伐。
18
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版綠色家居裝飾工程勞務(wù)合作合同2篇
- Unit 4《Lesson 3 My tidy bag》(說課稿)-2024-2025學(xué)年粵人版(2024)英語三年級(jí)上冊(cè)
- 工業(yè)機(jī)器人智能生產(chǎn)線升級(jí)改造擴(kuò)建項(xiàng)目可行性研究報(bào)告寫作模板-備案審批
- 二零二五年度房地產(chǎn)項(xiàng)目股權(quán)劃轉(zhuǎn)及融資合作協(xié)議3篇
- 湖南省長(zhǎng)沙市2025年新高考適應(yīng)性考試生物學(xué)模擬試題(含答案)
- 浙江省溫州市(2024年-2025年小學(xué)六年級(jí)語文)統(tǒng)編版課后作業(yè)(下學(xué)期)試卷及答案
- 河南省漯河市(2024年-2025年小學(xué)六年級(jí)語文)統(tǒng)編版小升初模擬(下學(xué)期)試卷及答案
- 電氣安全知識(shí)培訓(xùn)課件
- 貴州黔南科技學(xué)院《舞蹈作品賞析》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴州黔南經(jīng)濟(jì)學(xué)院《工程材料及熱處理》2023-2024學(xué)年第一學(xué)期期末試卷
- 智能制造企業(yè)數(shù)字化轉(zhuǎn)型建設(shè)方案
- (隱蔽)工程現(xiàn)場(chǎng)收方計(jì)量記錄表
- 病理生理學(xué)課件脂代謝紊亂
- 教師幽默朗誦節(jié)目《我愛上班》
- 《細(xì)胞工程學(xué)》考試復(fù)習(xí)題庫(帶答案)
- 中學(xué)課堂教學(xué)評(píng)價(jià)量表
- 食堂食材配送以及售后服務(wù)方案
- 稱量與天平培訓(xùn)試題及答案
- 塊單項(xiàng)活動(dòng)教學(xué)材料教案丹霞地貌
- 青年人應(yīng)該如何樹立正確的人生觀
- 開封辦公樓頂發(fā)光字制作預(yù)算單
評(píng)論
0/150
提交評(píng)論