基于Python的北京新發(fā)地網(wǎng)數(shù)據(jù)采集與分析_第1頁
基于Python的北京新發(fā)地網(wǎng)數(shù)據(jù)采集與分析_第2頁
基于Python的北京新發(fā)地網(wǎng)數(shù)據(jù)采集與分析_第3頁
基于Python的北京新發(fā)地網(wǎng)數(shù)據(jù)采集與分析_第4頁
基于Python的北京新發(fā)地網(wǎng)數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

目錄

1引言............................................................................................................................1

1.1項目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡介..........................................................................................2

1.2.2Jupyternotebook簡介......................................................................2

1.2.3Python第三方庫簡介..........................................................................3

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目標(biāo)功能分析......................................................................................5

2.3關(guān)鍵技術(shù)分析..............................................................................................5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5

2.3.2可視化技術(shù)...........................................................................................6

3數(shù)據(jù)采集....................................................................................................................6

3.1采集頁面分析..............................................................................................6

3.2字段分析......................................................................................................8

3.3編程實現(xiàn)......................................................................................................9

4數(shù)據(jù)清洗與處理......................................................................................................11

5數(shù)據(jù)統(tǒng)計與分析......................................................................................................12

5.1數(shù)據(jù)統(tǒng)計....................................................................................................12

5.2數(shù)據(jù)分析....................................................................................................13

5.3數(shù)據(jù)展示....................................................................................................15

5.3.1蔬菜產(chǎn)地信息統(tǒng)計.............................................................................15

5.3.2蔬菜規(guī)格統(tǒng)計.....................................................................................17

5.3.3紅尖椒與線椒的最高價、最低價、平均價隨日期的變化趨勢統(tǒng)計

分析18

5.3.4對蔬菜產(chǎn)地以及品名進(jìn)行統(tǒng)計.........................................................20

5.4綜述............................................................................................................21

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

6小結(jié)..........................................................................................................................21

參考資料.........................................................................................................................22

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

基于Python的北京新發(fā)地網(wǎng)數(shù)據(jù)采集與分析

1引言

時光荏苒,如今的中國正處在蓬勃發(fā)展的歷史時期。移動互聯(lián)網(wǎng)時代的到

來,開啟了信息革命的新篇章。隨著各種技術(shù)應(yīng)用的不斷涌現(xiàn),計算機(jī)互聯(lián)網(wǎng)

技術(shù)中的云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、智能技術(shù)等已經(jīng)成為了人們智能生活的重

要基石。同時,人們的日常生活所產(chǎn)生的大量數(shù)據(jù),例如在食衣住行、衛(wèi)生醫(yī)

療等方面,已經(jīng)成為了大家學(xué)習(xí)和開發(fā)的寶貴資源。

其中,蔬菜市場是一個非常重要的領(lǐng)域。如今,蔬菜市場的供應(yīng)鏈已經(jīng)越

來越復(fù)雜,而且受到各種因素的影響,例如氣候變化、生產(chǎn)成本等。因此,如

何優(yōu)化蔬菜市場供應(yīng)鏈并提高效率,已成為擺在面前的一個重要問題。數(shù)據(jù)科

學(xué)和大數(shù)據(jù)技術(shù)正是解決這一問題的有力工具,可以通過數(shù)據(jù)挖掘、分析和可

視化等手段,深入了解蔬菜市場的運(yùn)作規(guī)律和消費者需求,為市場的進(jìn)一步發(fā)

展提供有力支持。因此,深入研究蔬菜市場數(shù)據(jù),并利用數(shù)據(jù)科學(xué)和大數(shù)據(jù)技

術(shù)探索其發(fā)展趨勢和前景是有必要的。

1.1項目背景

隨著經(jīng)濟(jì)的發(fā)展和城市化進(jìn)程的不斷推進(jìn),蔬菜市場也隨之不斷擴(kuò)大和變

化。了解蔬菜市場的供需情況以及價格變化趨勢對于政府、農(nóng)民和消費者都具

有重要的意義。然而,蔬菜市場的供求關(guān)系和價格變化受到多種因素的影響,

因此需要通過科學(xué)的方法對其進(jìn)行研究和分析。

北京新發(fā)地批發(fā)市場是中國最大的農(nóng)產(chǎn)品交易市場之一,其網(wǎng)站是北京市

農(nóng)業(yè)農(nóng)村局和北京市商務(wù)局共同建設(shè)和運(yùn)營的官方網(wǎng)站。該網(wǎng)站提供了包括蔬

菜、水果、肉類等各種農(nóng)產(chǎn)品的價格信息、交易信息、行業(yè)資訊等服務(wù)。然而,

這些數(shù)據(jù)只能在網(wǎng)站上查看,無法方便地進(jìn)行數(shù)據(jù)分析和處理。因此,對于有

需要對北京市農(nóng)產(chǎn)品市場進(jìn)行研究的學(xué)者和企業(yè),如何方便地獲取和處理這些

數(shù)據(jù)成為了一個關(guān)鍵問題。因此,本畢業(yè)設(shè)計旨在通過開發(fā)一個蔬菜網(wǎng)站爬蟲

和數(shù)據(jù)處理工具,對新發(fā)地蔬菜價格進(jìn)行數(shù)據(jù)采集、處理和分析,為有關(guān)部門、

企業(yè)及學(xué)者提供數(shù)據(jù)支持,同時也能夠為新發(fā)地蔬菜市場的發(fā)展提供參考。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

計算機(jī)領(lǐng)域,Python是一門備受歡迎的編程語言。Python由荷蘭的龜叔

(GuidoRossum)在20世紀(jì)80年代末創(chuàng)建,最初并未引起太多關(guān)注。但隨著21

世紀(jì)初Google大規(guī)模應(yīng)用Python,這門語言也開始進(jìn)入人們的視野并快速發(fā)展

起來。

Python的簡潔、易學(xué)、多用途等特點,讓它成為編程入門者和專業(yè)開發(fā)者

的熱門選擇。

近年來,隨著計算機(jī)技術(shù)的飛速發(fā)展,移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等新

興技術(shù)也開始崛起。Python在這些領(lǐng)域中也開始發(fā)揮重要作用,成為數(shù)據(jù)科學(xué)

家、Web開發(fā)人員、自動化測試工程師等職業(yè)領(lǐng)域的首選編程語言。同時,由于

Python語言的易讀性、可維護(hù)性、豐富的第三方庫等特點,它也成為了人工智

能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域的首選編程語言。

Python語言具有跨平臺性和易移植性,它可以在Windows、MacOS、Linux

等操作系統(tǒng)上運(yùn)行,并且支持多種編譯器和開發(fā)環(huán)境。此外,Python還擁有豐

富的開發(fā)工具和IDE,如JupyterNotebook、PyCharm等,為開發(fā)者提供了便捷

和高效的開發(fā)體驗。

Python社區(qū)活躍,擁有大量的優(yōu)秀開源項目和第三方庫,這些資源能夠極

大地提高開發(fā)效率和編程體驗。在Python社區(qū),不僅可以學(xué)習(xí)到編程基礎(chǔ)和高

級技術(shù),還能夠結(jié)識一群志同道合的編程愛好者和專業(yè)開發(fā)者,共同交流、學(xué)

習(xí)和成長。

總之,Python是一門簡單易學(xué)、功能強(qiáng)大、廣泛應(yīng)用的編程語言,無論是

從入門者到專業(yè)開發(fā)者,都能夠從中受益匪淺。

1.2.2Jupyternotebook簡介

Jupyternotebook是一種基于網(wǎng)頁的交互式計算環(huán)境,被廣泛應(yīng)用于數(shù)據(jù)分

析、數(shù)據(jù)可視化、科學(xué)計算、教育等領(lǐng)域。它的優(yōu)勢在于能夠?qū)⒋a、文本、

圖像、音頻、視頻等多種媒介類型整合在同一個文檔中,使得數(shù)據(jù)分析過程更

加流暢和直觀。

使用Jupyternotebook可以輕松地探索數(shù)據(jù)、執(zhí)行分析、并生成可交互的

報告。與傳統(tǒng)的編程環(huán)境相比,Jupyternotebook更加靈活,具有更高的可視

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

化性和可交互性,讓用戶可以更加方便地理解數(shù)據(jù)背后的規(guī)律。

Jupyternotebook支持多種編程語言,包括Python、R、Julia等,但目前

最常用的還是Python。對于初學(xué)者來說,Jupyternotebook可以幫助他們快速

掌握Python編程語言,以及如何應(yīng)用Python進(jìn)行數(shù)據(jù)分析。

Jupyternotebook也廣泛用于數(shù)據(jù)科學(xué)競賽、科研項目、教育等領(lǐng)域。許

多大型科技公司如Google、IBM、微軟等也在使用Jupyternotebook進(jìn)行數(shù)據(jù)

分析和研究。因為Jupyternotebook是開源的,擁有龐大的社區(qū)支持,用戶可

以使用各種第三方庫來擴(kuò)展其功能。

總之,Jupyternotebook是一種非常有用的數(shù)據(jù)分析工具,它可以幫助用

戶更好地理解數(shù)據(jù)、提高工作效率,并為數(shù)據(jù)分析領(lǐng)域的研究和應(yīng)用提供了便

利。

1.2.3Python第三方庫簡介

Pandas:

Pandas是Python中最常用的數(shù)據(jù)分析和處理工具之一,它可以對數(shù)據(jù)進(jìn)行

快速和靈活的操作和處理。Pandas提供了大量的數(shù)據(jù)處理功能,包括數(shù)據(jù)讀取、

數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)聚合等,同時還可以用于處理缺失值、數(shù)據(jù)合并和

數(shù)據(jù)可視化等。Pandas還支持多種數(shù)據(jù)類型,包括Series、DataFrame和Panel

等,可以輕松地處理不同維度的數(shù)據(jù)。

NumPy:

NumPy是Python中科學(xué)計算的基礎(chǔ)庫之一,它提供了高效的多維數(shù)組和矩

陣運(yùn)算功能,是許多數(shù)據(jù)分析和科學(xué)計算領(lǐng)域的重要工具。NumPy支持多種數(shù)據(jù)

類型和數(shù)據(jù)結(jié)構(gòu),包括數(shù)組、矩陣、記錄數(shù)組和結(jié)構(gòu)數(shù)組等,可以用于數(shù)值計

算、線性代數(shù)、傅里葉變換、隨機(jī)數(shù)生成和數(shù)據(jù)處理等。NumPy還提供了許多高

效的數(shù)值算法和函數(shù),包括排序、統(tǒng)計和聚合等。

Matplotlib:

Matplotlib是Python中最常用的數(shù)據(jù)可視化工具之一,它提供了豐富的繪

圖功能,可以用于生成各種類型的靜態(tài)和動態(tài)圖表。Matplotlib支持多種繪圖

類型,包括線圖、散點圖、柱狀圖、餅圖、等高線圖和三維圖等,可以用于生

成簡單的圖形和復(fù)雜的可視化效果。Matplotlib還支持多種輸出格式和交互式

繪圖功能,可以滿足不同領(lǐng)域和應(yīng)用的需求。

Seaborn:

Seaborn是Python中基于Matplotlib的高級數(shù)據(jù)可視化工具之一,它提供

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

了更加簡單和美觀的繪圖接口,可以用于生成各種類型的統(tǒng)計圖表和數(shù)據(jù)可視

化效果。Seaborn支持多種繪圖類型,包括分布圖、熱力圖、聚類圖、回歸圖和

分面繪圖等,可以用于探索數(shù)據(jù)分布、發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系和展示數(shù)據(jù)的特征。

Seaborn還提供了多種可調(diào)參數(shù)和樣式選項,可以定制繪圖效果和風(fēng)格。

Jeiba:

Jieba庫是一種用于中文分詞的Python庫,其主要功能是將一段中文文本

切分成一個一個的單詞(也稱為詞語或詞匯)。Jieba庫使用基于字典的分詞算

法,結(jié)合了中文語言學(xué)特點和自然語言處理領(lǐng)域的一些技術(shù),具有高效、精確、

可定制化等優(yōu)點。除了分詞外,Jieba庫還支持關(guān)鍵詞提取、詞性標(biāo)注、繁簡體

轉(zhuǎn)換等功能,可廣泛應(yīng)用于自然語言處理、信息檢索、文本挖掘等領(lǐng)域。Jieba

庫的作者是fxsjy,已被廣泛應(yīng)用于各類中文文本處理場景中。

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

首先,通過設(shè)定要爬取的頁數(shù),循環(huán)爬取每一頁的商品信息。發(fā)送POST請

求的URL為'/getPriceData.html',請求體為一個

包含limit、current和prodPcatid參數(shù)的字典。其中l(wèi)imit參數(shù)代表每頁商

品數(shù)量,current參數(shù)代表當(dāng)前頁數(shù),prodPcatid參數(shù)代表商品類別ID。headers

為請求頭信息,用于偽裝成瀏覽器發(fā)送請求,避免被反爬機(jī)制阻擋。

接著,解析返回的JSON數(shù)據(jù),提取商品信息并保存到字典中。字典包含品

名、最低價、最高價、平均價、規(guī)格、產(chǎn)地、單位和發(fā)布日期等信息。將商品

信息添加到總列表中,以便后續(xù)保存到Excel文件。

最后,使用pandas庫創(chuàng)建DataFrame對象,將總列表中的商品信息保存到

Excel文件'vegetable_prices.xlsx'中,其中index=False表示不保存索引列。

通過這段代碼,可以爬取新發(fā)地菜價網(wǎng)站的蔬菜價格信息,并將其保存到本地

Excel文件中,方便后續(xù)的數(shù)據(jù)分析和可視化。

2、項目可行性

本次項目旨在通過爬取新發(fā)地農(nóng)產(chǎn)品交易網(wǎng)站的蔬菜價格信息,分析蔬菜

價格的變化趨勢和波動情況,為農(nóng)產(chǎn)品市場研究提供數(shù)據(jù)支持和決策參考。本

項目的可行性主要表現(xiàn)在以下幾個方面:

首先,新發(fā)地農(nóng)產(chǎn)品交易網(wǎng)站是國內(nèi)知名的農(nóng)產(chǎn)品交易平臺之一,發(fā)布的

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

蔬菜價格信息具有權(quán)威性和可靠性,能夠滿足本項目的數(shù)據(jù)需求。

其次,本項目使用Python編寫爬蟲程序獲取數(shù)據(jù),使用pandas庫進(jìn)行數(shù)

據(jù)清洗和預(yù)處理,使用matplotlib庫進(jìn)行數(shù)據(jù)可視化,這些技術(shù)在數(shù)據(jù)分析領(lǐng)

域得到了廣泛應(yīng)用,且具有較高的穩(wěn)定性和可擴(kuò)展性。

最后,本項目的數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)整合、數(shù)據(jù)分析和數(shù)據(jù)

可視化等步驟,通過對數(shù)據(jù)的處理和分析,能夠得出對蔬菜價格變化趨勢和波

動情況的清晰認(rèn)識,為農(nóng)產(chǎn)品市場研究提供參考。

綜上所述,本項目具有明確的數(shù)據(jù)來源、技術(shù)可行性和數(shù)據(jù)處理可行性,

能夠有效地分析蔬菜價格的變化趨勢和波動情況,為農(nóng)產(chǎn)品市場研究提供有價

值的數(shù)據(jù)支持。

2.2采集目標(biāo)功能分析

本次項目的數(shù)據(jù)集來源于北京新發(fā)地網(wǎng)站,是通過Python爬取蔬菜價格信

息。通過數(shù)據(jù)清洗后,爬取完成后盡可能的檢查數(shù)據(jù)的準(zhǔn)確性,確定爬取出來的

數(shù)據(jù)無誤并且是屬于蔬菜價格信息網(wǎng)站實時存在的蔬菜價格信息。

分析蔬菜價格信息網(wǎng)站,明確需要爬取的蔬菜參數(shù)有蔬菜品種、日期、批發(fā)

價、零售價、規(guī)格、產(chǎn)地、單位等數(shù)據(jù)。在對原始數(shù)據(jù)進(jìn)行預(yù)處理后,本項目會

對其數(shù)據(jù)進(jìn)行多個維度的分析。例如,從不同蔬菜品種的價格對其進(jìn)行分析,查

看每種蔬菜的價格變化趨勢。又或者想要得到每個蔬菜品種的產(chǎn)地分布情況,那

么就可以根據(jù)產(chǎn)地信息對其進(jìn)行統(tǒng)計和可視化,以便于直觀地了解不同地區(qū)的

蔬菜供應(yīng)情況。同時,本項目還可以對不同規(guī)格、不同日期等數(shù)據(jù)進(jìn)行分析和可

視化,以便于更深入的探究蔬菜價格信息背后的規(guī)律。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

本項目使用了網(wǎng)絡(luò)爬蟲技術(shù)和相關(guān)工具,實現(xiàn)了自動化抓取網(wǎng)頁數(shù)據(jù)的功

能。網(wǎng)絡(luò)爬蟲基于HTTP協(xié)議,通過模擬瀏覽器行為向目標(biāo)網(wǎng)站發(fā)送請求,獲取

網(wǎng)頁數(shù)據(jù)。本項目使用了Scrapy框架和BeautifulSoup庫進(jìn)行網(wǎng)頁解析和數(shù)據(jù)

提取,同時也使用了Selenium工具模擬瀏覽器行為。這些工具具有高效、可擴(kuò)

展、模塊化等特點,為數(shù)據(jù)采集提供了強(qiáng)大的支持。

在使用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集時,需要注意相關(guān)的法律法規(guī),如遵循

網(wǎng)站的robots.txt協(xié)議等。此外,如果采集的網(wǎng)站有相關(guān)的反爬機(jī)制,可能會

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

面臨被封IP地址或賬號、數(shù)據(jù)采集速度受限等問題。因此,在使用網(wǎng)絡(luò)爬蟲技

術(shù)時,需要進(jìn)行合理規(guī)劃和設(shè)計,以確保數(shù)據(jù)采集的順利進(jìn)行。同時爬蟲技術(shù)

應(yīng)該被廣泛討論和研究,以找到合適的應(yīng)用場景和規(guī)范??偟膩碚f,爬蟲技術(shù)

的發(fā)展應(yīng)該是與法律法規(guī)相適應(yīng)的,同時應(yīng)該注重個人隱私的保護(hù)。與此同時,

大家也應(yīng)該意識到,隨著互聯(lián)網(wǎng)信息的增長,數(shù)據(jù)采集與利用將變得越來越重

要,未來可能也會涌現(xiàn)出更多的數(shù)據(jù)采集技術(shù)。大家需要在技術(shù)、法律和倫理

等方面保持敏感,為數(shù)據(jù)采集的健康發(fā)展做出應(yīng)有的貢獻(xiàn)。

2.3.2可視化技術(shù)

在進(jìn)行數(shù)據(jù)處理和分析時,數(shù)據(jù)可視化技術(shù)是非常有用的。這種技術(shù)通過

將大量數(shù)據(jù)以圖形的形式呈現(xiàn)出來,能夠幫助人們更好地理解和分析數(shù)據(jù),從

而得出相關(guān)結(jié)論。可視化技術(shù)已經(jīng)成為現(xiàn)代數(shù)據(jù)分析的重要組成部分,能夠讓

人們更快、更準(zhǔn)確地理解數(shù)據(jù),并幫助做出更明智的決策。在本次蔬菜網(wǎng)站項

目中采用了Python第三方庫Matplotlib來進(jìn)行數(shù)據(jù)可視化。

Matplotlib提供了許多種類型的可視化圖形,如餅圖、條形圖、直方圖、

折線圖等等。在進(jìn)行數(shù)據(jù)分類和處理后,本項目使用了Matplotlib中的多種圖

形來展示數(shù)據(jù),如詞云圖、蔬菜規(guī)格展示圖、對產(chǎn)地和品名做計數(shù)的圖表、以

及紅尖椒和線椒的最高價、最低價和平均價隨日期的變化趨勢圖表等等。通過

這些圖形,可以直觀地了解數(shù)據(jù)的特征和關(guān)系,并最終得出結(jié)論。信息可視化

是可視化技術(shù)的一個重要分支,它主要處理非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),如

金融交易、社交網(wǎng)絡(luò)和文本數(shù)據(jù)等。信息可視化面臨的主要挑戰(zhàn)是如何應(yīng)對大

規(guī)模、高維度和復(fù)雜數(shù)據(jù)的視覺混淆,以減少對信息的干擾,從而更好地理解

和分析數(shù)據(jù)。通過本次項目的經(jīng)驗,可以看到數(shù)據(jù)可視化技術(shù)對于現(xiàn)代數(shù)據(jù)分

析的重要性和作用。在今后的數(shù)據(jù)處理和分析中,大家也應(yīng)該充分發(fā)揮數(shù)據(jù)可

視化技術(shù)的作用,以更好地理解和利用數(shù)據(jù)。

3數(shù)據(jù)采集

3.1采集頁面分析

本項目首先通過谷歌瀏覽器搜索北京新發(fā)地的官方網(wǎng)頁,然后找到信息中

心的價格行情頁面觀察圖3-1,其中URL為:

/priceDetail.html然后點擊頁面下方的分頁按鈕,

同時觀察URL,發(fā)現(xiàn)URL沒有變化。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-1數(shù)據(jù)網(wǎng)址頁面

按F12調(diào)出開發(fā)者工具,刷新頁面,如圖3-1。

圖3-2開發(fā)者工具

利用全局搜索工具定位所需數(shù)據(jù)位置,點擊開發(fā)者工具上面的Headers字

段,分析這是個什么請求,發(fā)現(xiàn)這個是一個POST請求,然后需要尋找它的from

data往下翻找,在最后找到表單數(shù)據(jù)FormData,如圖3-3。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-3FormData

3.2字段分析

在爬取北京新發(fā)地農(nóng)產(chǎn)品交易網(wǎng)站的數(shù)據(jù)時,需要先打開該網(wǎng)站并通過開

發(fā)者工具分析頁面結(jié)構(gòu),以定位到所需數(shù)據(jù)所在的位置。在網(wǎng)頁上方的搜索欄

中輸入關(guān)鍵詞“新發(fā)地批發(fā)市場”,點擊搜索按鈕,跳轉(zhuǎn)到新的頁面。在該頁

面中找到“今日價格”、“歷史價格”等數(shù)據(jù),并點擊“歷史價格”選項卡。

在頁面上方的工具欄中選擇“網(wǎng)絡(luò)”選項卡,通過開發(fā)者工具可發(fā)現(xiàn)該頁面使

用了POST方法獲取數(shù)據(jù),并將響應(yīng)以JSON格式傳遞回客戶端。因此,需要使

用Python中的requests庫來發(fā)送POST請求來獲取數(shù)據(jù)。同時,為了避免被封

禁,需要注意網(wǎng)站的反爬措施,如限制訪問頻率、要求登錄等,并設(shè)置適當(dāng)?shù)?/p>

請求頭和訪問頻率限制。

獲取到數(shù)據(jù)后,需要進(jìn)行字段分析,以提取所需數(shù)據(jù)。在該網(wǎng)站中,每個

品種都有名稱、日期、規(guī)格、最高價、最低價、平均價、交易量、單位等字段。

需要將這些字段保存在xlsx文件中,以便后續(xù)分析和處理。

在對蔬菜網(wǎng)站進(jìn)行字段分析的過程中,需要先打開該網(wǎng)站并進(jìn)入到目標(biāo)頁

面,然后通過開發(fā)者工具查看該頁面所對應(yīng)的HTML代碼,并找到目標(biāo)數(shù)據(jù)所在

的位置。接著,對目標(biāo)數(shù)據(jù)所在的位置進(jìn)行了分析,發(fā)現(xiàn)該網(wǎng)站通過JavaScrip

動態(tài)加載數(shù)據(jù),數(shù)據(jù)是通過Ajax請求從服務(wù)器端返回的JSON格式數(shù)據(jù)。因此,

需要通過分析請求參數(shù)和響應(yīng)數(shù)據(jù)來得到目標(biāo)數(shù)據(jù)。

使用開發(fā)者工具中的“網(wǎng)絡(luò)”功能查看了該網(wǎng)站的Ajax請求,并對請求參

數(shù)和響應(yīng)數(shù)據(jù)進(jìn)行了分析,發(fā)現(xiàn)請求參數(shù)中包含了當(dāng)前頁數(shù)、每頁數(shù)據(jù)條數(shù)和

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

搜索關(guān)鍵詞等信息,響應(yīng)數(shù)據(jù)則是以JSON格式返回了包含多條蔬菜數(shù)據(jù)的列表,

每條數(shù)據(jù)包含了蔬菜名稱、規(guī)格、價格、產(chǎn)地、發(fā)布日期等多個字段。

最后,根據(jù)對請求參數(shù)和響應(yīng)數(shù)據(jù)的分析,編寫Python爬蟲程序,使用

Requests庫發(fā)送Ajax請求獲取響應(yīng)數(shù)據(jù),并使用BeautifulSoup庫解析HTML

代碼和json庫解析JSON格式數(shù)據(jù),最終將所需字段存儲在xlsx格式文件中。

圖3-4分析數(shù)據(jù)類型頁面

3.3編程實現(xiàn)

導(dǎo)入所需庫。

圖3-5導(dǎo)入所需庫頁面

設(shè)置請求頭,偽裝成瀏覽器訪問服務(wù)器。

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-6請求頭內(nèi)容頁面

代碼實現(xiàn)如下:

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-7代碼實現(xiàn)頁面

4數(shù)據(jù)清洗與處理

在本項目中,獲得了大量的數(shù)據(jù)集之后,需要對數(shù)據(jù)進(jìn)行預(yù)處理,以確保

數(shù)據(jù)的一致性和信息質(zhì)量的評估。這一預(yù)處理過程包括數(shù)據(jù)清洗和檢查,以確

定是否存在無效值和缺失值。此外,還需要對數(shù)據(jù)進(jìn)行有理化和有序化,以方

便開發(fā)人員在數(shù)據(jù)調(diào)用和共享過程中使用。

具體而言,本項目需要對爬取的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并檢查是否

存在空值、錯值等問題。同時,還需要驗證數(shù)據(jù)的位置是否正確,并根據(jù)不同

的需求對數(shù)據(jù)進(jìn)行不同的處理。這一預(yù)處理過程是非常重要的,可以保證數(shù)據(jù)

的質(zhì)量和可用性,為后續(xù)的數(shù)據(jù)分析和應(yīng)用提供基礎(chǔ)。

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面

圖4-2數(shù)據(jù)清洗頁面

經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)存在規(guī)格有660個缺失值,產(chǎn)地有189個缺失值,

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

這兩個變量在后續(xù)研究中只看比較關(guān)系,所以無需填充,留存后續(xù)作為統(tǒng)計分

析、可視化使用。

圖4-3數(shù)據(jù)清洗完成界面

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)統(tǒng)計

查看規(guī)格包含具體種類:

圖5-1查看種類

查看規(guī)格列各種類出現(xiàn)的次數(shù):

圖5-2查看次數(shù)

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

查看每一列的數(shù)據(jù)類型:

圖5-3查看數(shù)據(jù)類型

5.2數(shù)據(jù)分析

圖5-4查看最高價的平均值、眾數(shù)、方差

通過圖5-4對蔬菜最高價的平均值、眾數(shù)、方差的分析,可以發(fā)現(xiàn)蔬菜的

最高價整體上呈現(xiàn)出一定的波動性,其中最高價的平均值約為4.245,說明在整

個蔬菜價格的分布中,最高價的平均水平處于一個相對較高的位置。同時,最

高價的眾數(shù)為4.0,表明在最高價的數(shù)據(jù)中,以4元/斤的價格出現(xiàn)的最為頻繁。

最高價的方差約為5.807,說明最高價數(shù)據(jù)的分散程度相對較大,具有一定的不

確定性。這些結(jié)果為深入了解蔬菜市場價格提供了重要的參考。

圖5-5查看最低階的平均值、眾數(shù)、方差

通過圖5-5的分析,可以看到最低價的平均值約為3.307,說明在觀察時間

段內(nèi),蔬菜的最低價格整體上呈現(xiàn)出一個相對較低的趨勢,平均來說價格相對

較穩(wěn)定。最低價的眾數(shù)為3.0,表示最低價在3元左右的時間段內(nèi)出現(xiàn)的頻率最

高,這個結(jié)果可以讓人對市場情況有一個大致的了解,也能幫助農(nóng)民和批發(fā)商

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

在選購蔬菜時進(jìn)行參考。最低價的方差約為4.165,這個數(shù)值可以表示數(shù)據(jù)分布

的離散程度,越大表示數(shù)據(jù)分布越分散,反之則表示數(shù)據(jù)越集中。在本次數(shù)據(jù)

分析中,最低價的方差不是很大,說明最低價的數(shù)據(jù)分布相對集中,這也可以

反映市場對最低價的整體控制力比較強(qiáng)。

圖5-6查看平均價的平均值、眾數(shù)、方差

通過圖5-6的分析,平均價的平均數(shù)約為3.776,眾數(shù)為4.25,方差約為

4.785,表明在該蔬菜市場的價格分布中,平均價的整體水平較為平均,但是存

在一些高價或低價的離群點。同時,平均價的眾數(shù)為4.25,說明在該市場中,

以4.25元/斤的價格出售的蔬菜最為普遍,反映了該蔬菜品種的主流市場需求。

方差值約為4.786,說明該市場的蔬菜價格波動較大,可能存在一些不穩(wěn)定的市

場因素,這也為市場參與者提供了更多的投資和風(fēng)險管理方面的思考。

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.3數(shù)據(jù)展示

5.3.1蔬菜產(chǎn)地信息統(tǒng)計

圖5-7代碼展示頁面

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-8數(shù)據(jù)展示頁面

通過圖5-8對蔬菜產(chǎn)地信息的分析,可發(fā)現(xiàn)主要集中在冀、魯、遼、云等

省份。這些地區(qū)擁有廣闊的耕地和優(yōu)良的自然條件,可生產(chǎn)出豐富多樣的蔬菜。

同時,這些省份也是中國人口密集的地區(qū),蔬菜的銷售市場非常廣闊,這也促

進(jìn)了這些地區(qū)蔬菜生產(chǎn)的發(fā)展。

蔬菜生產(chǎn)的地域性比較明顯,不同省份的蔬菜種類也有所不同。例如,遼

寧省以豆角、黃瓜等蔬菜為主要生產(chǎn)品種,而河北省則以西紅柿、白菜、茄子

等蔬菜為主。這些蔬菜品種豐富多樣,品質(zhì)優(yōu)良,口感好,深受廣大消費者的

喜愛。

蔬菜產(chǎn)業(yè)是中國農(nóng)業(yè)的重要組成部分,也是國民經(jīng)濟(jì)中的重要支柱產(chǎn)業(yè)之

一。蔬菜產(chǎn)業(yè)的發(fā)展對當(dāng)?shù)亟?jīng)濟(jì)的發(fā)展和人民生活水平的提高有著積極的影響。

因此,加強(qiáng)蔬菜產(chǎn)業(yè)的發(fā)展,提高蔬菜品質(zhì)和產(chǎn)量,將有利于推動中國農(nóng)業(yè)和

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

經(jīng)濟(jì)的可持續(xù)發(fā)展。

總之,通過對蔬菜產(chǎn)地信息的統(tǒng)計和分析,可以發(fā)現(xiàn),北京蔬菜生產(chǎn)的主

要地區(qū)是冀、魯、遼、云等省份,其蔬菜品種豐富多樣,品質(zhì)優(yōu)良,口感好,

蔬菜產(chǎn)業(yè)也為當(dāng)?shù)亟?jīng)濟(jì)發(fā)展做出了重要貢獻(xiàn)。

5.3.2蔬菜規(guī)格統(tǒng)計

圖5-9代碼展示頁面

圖5-10數(shù)據(jù)展示頁面

從蔬菜規(guī)格展示圖5-10展示圖中可以看出,以袋/箱裝的規(guī)格最為常見,

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

占據(jù)了所有規(guī)格中的近一半,達(dá)到了42%。而單獨使用箱子裝的規(guī)格數(shù)量很少,

僅占總規(guī)格的不到1%。另外,也有不少蔬菜使用機(jī)器進(jìn)行剝皮加工,這一規(guī)格

占比約為10%。此外,還有一些蔬菜規(guī)格含有“泥”等字眼,這一類規(guī)格占比較

大,約為11%。

蔬菜規(guī)格展示圖的含義在于,通過展示各種蔬菜規(guī)格的分布情況,可以更

好地了解農(nóng)業(yè)生產(chǎn)中的規(guī)格分布情況以及各種規(guī)格的應(yīng)用范圍和市場需求。在

實際生產(chǎn)中,蔬菜規(guī)格的大小和形狀等因素會直接影響到產(chǎn)品的外觀、品質(zhì)和

適用范圍等方面。因此,對于農(nóng)業(yè)生產(chǎn)者和銷售商而言,了解蔬菜規(guī)格的分布

情況是十分重要的,可以有針對性地進(jìn)行生產(chǎn)和銷售策略的制定,以滿足市場

需求,提高產(chǎn)品質(zhì)量和競爭力。

5.3.3紅尖椒與線椒的最高價、最低價、平均價隨日期的變化趨勢統(tǒng)計分

18

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-11代碼展示頁面

圖5-12數(shù)據(jù)展示頁面

首先,從5-12圖表中可以看出,紅尖椒的價格波動幅度小于線椒。線椒的

最高價和最低價之間的差距更大,而紅尖椒的價格則相對穩(wěn)定。

同時,紅尖椒和線椒的平均價也有所不同,線椒的平均價整體高于紅尖椒,

這也反映了線椒相對稀缺,而紅尖椒的供應(yīng)充足的市場供求情況。

其次,從時間維度上來看,紅尖椒和線椒的價格變化趨勢存在一定的相似

性。兩者的價格變化趨勢基本呈現(xiàn)出一致的形態(tài),都在近期內(nèi)經(jīng)歷了一次小幅

波動后逐漸趨于平穩(wěn),整體表現(xiàn)出市場供求關(guān)系趨于平衡的狀態(tài)。這也反映了

該地區(qū)蔬菜市場較為穩(wěn)定,消費者對紅尖椒和線椒的需求也相對平穩(wěn)。

最后,從紅尖椒和線椒的價格對比來看,線椒的價格波動幅度更大,這也

可能與線椒在該地區(qū)的供應(yīng)量相對較少,

市場需求較大,供求矛盾較為突出有關(guān)。然而,由于市場競爭較為激烈,

紅尖椒的價格也受到其他因素的影響,價格波動也較為明顯。

19

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.3.4對蔬菜產(chǎn)地以及品名進(jìn)行統(tǒng)計

圖5-13數(shù)據(jù)展示頁面

圖5-14數(shù)據(jù)展示頁面

上面的代碼通過seaborn庫中的countplot函數(shù)對蔬菜的產(chǎn)地以及品名做

了計數(shù)圖。這個圖展示了前20個蔬菜產(chǎn)地和品名的計數(shù)分布情況,其中不同顏

色的條柱代表不同的品名。

20

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

從圖中可以看出,河北、云南等地區(qū)是蔬菜生產(chǎn)的重要產(chǎn)地,其品種也較

為豐富,其中以河北和云南產(chǎn)地的蔬菜種類最多。此外,圖中還可以看出大多

數(shù)蔬菜生產(chǎn)地

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論