




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
目錄
1引言............................................................................................................................1
1.1項目背景......................................................................................................1
1.2開發(fā)環(huán)境與工具..........................................................................................2
1.2.1Python簡介..........................................................................................2
1.2.2Jupyternotebook簡介......................................................................2
1.2.3Python第三方庫簡介..........................................................................3
2需求分析....................................................................................................................4
2.1可行性需求分析..........................................................................................4
2.2采集目標(biāo)功能分析......................................................................................5
2.3關(guān)鍵技術(shù)分析..............................................................................................5
2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5
2.3.2可視化技術(shù)...........................................................................................6
3數(shù)據(jù)采集....................................................................................................................6
3.1采集頁面分析..............................................................................................6
3.2字段分析......................................................................................................8
3.3編程實現(xiàn)......................................................................................................9
4數(shù)據(jù)清洗與處理......................................................................................................11
5數(shù)據(jù)統(tǒng)計與分析......................................................................................................12
5.1數(shù)據(jù)統(tǒng)計....................................................................................................12
5.2數(shù)據(jù)分析....................................................................................................13
5.3數(shù)據(jù)展示....................................................................................................15
5.3.1蔬菜產(chǎn)地信息統(tǒng)計.............................................................................15
5.3.2蔬菜規(guī)格統(tǒng)計.....................................................................................17
5.3.3紅尖椒與線椒的最高價、最低價、平均價隨日期的變化趨勢統(tǒng)計
分析18
5.3.4對蔬菜產(chǎn)地以及品名進(jìn)行統(tǒng)計.........................................................20
5.4綜述............................................................................................................21
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
6小結(jié)..........................................................................................................................21
參考資料.........................................................................................................................22
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
基于Python的北京新發(fā)地網(wǎng)數(shù)據(jù)采集與分析
1引言
時光荏苒,如今的中國正處在蓬勃發(fā)展的歷史時期。移動互聯(lián)網(wǎng)時代的到
來,開啟了信息革命的新篇章。隨著各種技術(shù)應(yīng)用的不斷涌現(xiàn),計算機(jī)互聯(lián)網(wǎng)
技術(shù)中的云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、智能技術(shù)等已經(jīng)成為了人們智能生活的重
要基石。同時,人們的日常生活所產(chǎn)生的大量數(shù)據(jù),例如在食衣住行、衛(wèi)生醫(yī)
療等方面,已經(jīng)成為了大家學(xué)習(xí)和開發(fā)的寶貴資源。
其中,蔬菜市場是一個非常重要的領(lǐng)域。如今,蔬菜市場的供應(yīng)鏈已經(jīng)越
來越復(fù)雜,而且受到各種因素的影響,例如氣候變化、生產(chǎn)成本等。因此,如
何優(yōu)化蔬菜市場供應(yīng)鏈并提高效率,已成為擺在面前的一個重要問題。數(shù)據(jù)科
學(xué)和大數(shù)據(jù)技術(shù)正是解決這一問題的有力工具,可以通過數(shù)據(jù)挖掘、分析和可
視化等手段,深入了解蔬菜市場的運(yùn)作規(guī)律和消費者需求,為市場的進(jìn)一步發(fā)
展提供有力支持。因此,深入研究蔬菜市場數(shù)據(jù),并利用數(shù)據(jù)科學(xué)和大數(shù)據(jù)技
術(shù)探索其發(fā)展趨勢和前景是有必要的。
1.1項目背景
隨著經(jīng)濟(jì)的發(fā)展和城市化進(jìn)程的不斷推進(jìn),蔬菜市場也隨之不斷擴(kuò)大和變
化。了解蔬菜市場的供需情況以及價格變化趨勢對于政府、農(nóng)民和消費者都具
有重要的意義。然而,蔬菜市場的供求關(guān)系和價格變化受到多種因素的影響,
因此需要通過科學(xué)的方法對其進(jìn)行研究和分析。
北京新發(fā)地批發(fā)市場是中國最大的農(nóng)產(chǎn)品交易市場之一,其網(wǎng)站是北京市
農(nóng)業(yè)農(nóng)村局和北京市商務(wù)局共同建設(shè)和運(yùn)營的官方網(wǎng)站。該網(wǎng)站提供了包括蔬
菜、水果、肉類等各種農(nóng)產(chǎn)品的價格信息、交易信息、行業(yè)資訊等服務(wù)。然而,
這些數(shù)據(jù)只能在網(wǎng)站上查看,無法方便地進(jìn)行數(shù)據(jù)分析和處理。因此,對于有
需要對北京市農(nóng)產(chǎn)品市場進(jìn)行研究的學(xué)者和企業(yè),如何方便地獲取和處理這些
數(shù)據(jù)成為了一個關(guān)鍵問題。因此,本畢業(yè)設(shè)計旨在通過開發(fā)一個蔬菜網(wǎng)站爬蟲
和數(shù)據(jù)處理工具,對新發(fā)地蔬菜價格進(jìn)行數(shù)據(jù)采集、處理和分析,為有關(guān)部門、
企業(yè)及學(xué)者提供數(shù)據(jù)支持,同時也能夠為新發(fā)地蔬菜市場的發(fā)展提供參考。
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
計算機(jī)領(lǐng)域,Python是一門備受歡迎的編程語言。Python由荷蘭的龜叔
(GuidoRossum)在20世紀(jì)80年代末創(chuàng)建,最初并未引起太多關(guān)注。但隨著21
世紀(jì)初Google大規(guī)模應(yīng)用Python,這門語言也開始進(jìn)入人們的視野并快速發(fā)展
起來。
Python的簡潔、易學(xué)、多用途等特點,讓它成為編程入門者和專業(yè)開發(fā)者
的熱門選擇。
近年來,隨著計算機(jī)技術(shù)的飛速發(fā)展,移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等新
興技術(shù)也開始崛起。Python在這些領(lǐng)域中也開始發(fā)揮重要作用,成為數(shù)據(jù)科學(xué)
家、Web開發(fā)人員、自動化測試工程師等職業(yè)領(lǐng)域的首選編程語言。同時,由于
Python語言的易讀性、可維護(hù)性、豐富的第三方庫等特點,它也成為了人工智
能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域的首選編程語言。
Python語言具有跨平臺性和易移植性,它可以在Windows、MacOS、Linux
等操作系統(tǒng)上運(yùn)行,并且支持多種編譯器和開發(fā)環(huán)境。此外,Python還擁有豐
富的開發(fā)工具和IDE,如JupyterNotebook、PyCharm等,為開發(fā)者提供了便捷
和高效的開發(fā)體驗。
Python社區(qū)活躍,擁有大量的優(yōu)秀開源項目和第三方庫,這些資源能夠極
大地提高開發(fā)效率和編程體驗。在Python社區(qū),不僅可以學(xué)習(xí)到編程基礎(chǔ)和高
級技術(shù),還能夠結(jié)識一群志同道合的編程愛好者和專業(yè)開發(fā)者,共同交流、學(xué)
習(xí)和成長。
總之,Python是一門簡單易學(xué)、功能強(qiáng)大、廣泛應(yīng)用的編程語言,無論是
從入門者到專業(yè)開發(fā)者,都能夠從中受益匪淺。
1.2.2Jupyternotebook簡介
Jupyternotebook是一種基于網(wǎng)頁的交互式計算環(huán)境,被廣泛應(yīng)用于數(shù)據(jù)分
析、數(shù)據(jù)可視化、科學(xué)計算、教育等領(lǐng)域。它的優(yōu)勢在于能夠?qū)⒋a、文本、
圖像、音頻、視頻等多種媒介類型整合在同一個文檔中,使得數(shù)據(jù)分析過程更
加流暢和直觀。
使用Jupyternotebook可以輕松地探索數(shù)據(jù)、執(zhí)行分析、并生成可交互的
報告。與傳統(tǒng)的編程環(huán)境相比,Jupyternotebook更加靈活,具有更高的可視
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
化性和可交互性,讓用戶可以更加方便地理解數(shù)據(jù)背后的規(guī)律。
Jupyternotebook支持多種編程語言,包括Python、R、Julia等,但目前
最常用的還是Python。對于初學(xué)者來說,Jupyternotebook可以幫助他們快速
掌握Python編程語言,以及如何應(yīng)用Python進(jìn)行數(shù)據(jù)分析。
Jupyternotebook也廣泛用于數(shù)據(jù)科學(xué)競賽、科研項目、教育等領(lǐng)域。許
多大型科技公司如Google、IBM、微軟等也在使用Jupyternotebook進(jìn)行數(shù)據(jù)
分析和研究。因為Jupyternotebook是開源的,擁有龐大的社區(qū)支持,用戶可
以使用各種第三方庫來擴(kuò)展其功能。
總之,Jupyternotebook是一種非常有用的數(shù)據(jù)分析工具,它可以幫助用
戶更好地理解數(shù)據(jù)、提高工作效率,并為數(shù)據(jù)分析領(lǐng)域的研究和應(yīng)用提供了便
利。
1.2.3Python第三方庫簡介
Pandas:
Pandas是Python中最常用的數(shù)據(jù)分析和處理工具之一,它可以對數(shù)據(jù)進(jìn)行
快速和靈活的操作和處理。Pandas提供了大量的數(shù)據(jù)處理功能,包括數(shù)據(jù)讀取、
數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)聚合等,同時還可以用于處理缺失值、數(shù)據(jù)合并和
數(shù)據(jù)可視化等。Pandas還支持多種數(shù)據(jù)類型,包括Series、DataFrame和Panel
等,可以輕松地處理不同維度的數(shù)據(jù)。
NumPy:
NumPy是Python中科學(xué)計算的基礎(chǔ)庫之一,它提供了高效的多維數(shù)組和矩
陣運(yùn)算功能,是許多數(shù)據(jù)分析和科學(xué)計算領(lǐng)域的重要工具。NumPy支持多種數(shù)據(jù)
類型和數(shù)據(jù)結(jié)構(gòu),包括數(shù)組、矩陣、記錄數(shù)組和結(jié)構(gòu)數(shù)組等,可以用于數(shù)值計
算、線性代數(shù)、傅里葉變換、隨機(jī)數(shù)生成和數(shù)據(jù)處理等。NumPy還提供了許多高
效的數(shù)值算法和函數(shù),包括排序、統(tǒng)計和聚合等。
Matplotlib:
Matplotlib是Python中最常用的數(shù)據(jù)可視化工具之一,它提供了豐富的繪
圖功能,可以用于生成各種類型的靜態(tài)和動態(tài)圖表。Matplotlib支持多種繪圖
類型,包括線圖、散點圖、柱狀圖、餅圖、等高線圖和三維圖等,可以用于生
成簡單的圖形和復(fù)雜的可視化效果。Matplotlib還支持多種輸出格式和交互式
繪圖功能,可以滿足不同領(lǐng)域和應(yīng)用的需求。
Seaborn:
Seaborn是Python中基于Matplotlib的高級數(shù)據(jù)可視化工具之一,它提供
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
了更加簡單和美觀的繪圖接口,可以用于生成各種類型的統(tǒng)計圖表和數(shù)據(jù)可視
化效果。Seaborn支持多種繪圖類型,包括分布圖、熱力圖、聚類圖、回歸圖和
分面繪圖等,可以用于探索數(shù)據(jù)分布、發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系和展示數(shù)據(jù)的特征。
Seaborn還提供了多種可調(diào)參數(shù)和樣式選項,可以定制繪圖效果和風(fēng)格。
Jeiba:
Jieba庫是一種用于中文分詞的Python庫,其主要功能是將一段中文文本
切分成一個一個的單詞(也稱為詞語或詞匯)。Jieba庫使用基于字典的分詞算
法,結(jié)合了中文語言學(xué)特點和自然語言處理領(lǐng)域的一些技術(shù),具有高效、精確、
可定制化等優(yōu)點。除了分詞外,Jieba庫還支持關(guān)鍵詞提取、詞性標(biāo)注、繁簡體
轉(zhuǎn)換等功能,可廣泛應(yīng)用于自然語言處理、信息檢索、文本挖掘等領(lǐng)域。Jieba
庫的作者是fxsjy,已被廣泛應(yīng)用于各類中文文本處理場景中。
2需求分析
2.1可行性需求分析
1、技術(shù)可行性
首先,通過設(shè)定要爬取的頁數(shù),循環(huán)爬取每一頁的商品信息。發(fā)送POST請
求的URL為'/getPriceData.html',請求體為一個
包含limit、current和prodPcatid參數(shù)的字典。其中l(wèi)imit參數(shù)代表每頁商
品數(shù)量,current參數(shù)代表當(dāng)前頁數(shù),prodPcatid參數(shù)代表商品類別ID。headers
為請求頭信息,用于偽裝成瀏覽器發(fā)送請求,避免被反爬機(jī)制阻擋。
接著,解析返回的JSON數(shù)據(jù),提取商品信息并保存到字典中。字典包含品
名、最低價、最高價、平均價、規(guī)格、產(chǎn)地、單位和發(fā)布日期等信息。將商品
信息添加到總列表中,以便后續(xù)保存到Excel文件。
最后,使用pandas庫創(chuàng)建DataFrame對象,將總列表中的商品信息保存到
Excel文件'vegetable_prices.xlsx'中,其中index=False表示不保存索引列。
通過這段代碼,可以爬取新發(fā)地菜價網(wǎng)站的蔬菜價格信息,并將其保存到本地
Excel文件中,方便后續(xù)的數(shù)據(jù)分析和可視化。
2、項目可行性
本次項目旨在通過爬取新發(fā)地農(nóng)產(chǎn)品交易網(wǎng)站的蔬菜價格信息,分析蔬菜
價格的變化趨勢和波動情況,為農(nóng)產(chǎn)品市場研究提供數(shù)據(jù)支持和決策參考。本
項目的可行性主要表現(xiàn)在以下幾個方面:
首先,新發(fā)地農(nóng)產(chǎn)品交易網(wǎng)站是國內(nèi)知名的農(nóng)產(chǎn)品交易平臺之一,發(fā)布的
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
蔬菜價格信息具有權(quán)威性和可靠性,能夠滿足本項目的數(shù)據(jù)需求。
其次,本項目使用Python編寫爬蟲程序獲取數(shù)據(jù),使用pandas庫進(jìn)行數(shù)
據(jù)清洗和預(yù)處理,使用matplotlib庫進(jìn)行數(shù)據(jù)可視化,這些技術(shù)在數(shù)據(jù)分析領(lǐng)
域得到了廣泛應(yīng)用,且具有較高的穩(wěn)定性和可擴(kuò)展性。
最后,本項目的數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)整合、數(shù)據(jù)分析和數(shù)據(jù)
可視化等步驟,通過對數(shù)據(jù)的處理和分析,能夠得出對蔬菜價格變化趨勢和波
動情況的清晰認(rèn)識,為農(nóng)產(chǎn)品市場研究提供參考。
綜上所述,本項目具有明確的數(shù)據(jù)來源、技術(shù)可行性和數(shù)據(jù)處理可行性,
能夠有效地分析蔬菜價格的變化趨勢和波動情況,為農(nóng)產(chǎn)品市場研究提供有價
值的數(shù)據(jù)支持。
2.2采集目標(biāo)功能分析
本次項目的數(shù)據(jù)集來源于北京新發(fā)地網(wǎng)站,是通過Python爬取蔬菜價格信
息。通過數(shù)據(jù)清洗后,爬取完成后盡可能的檢查數(shù)據(jù)的準(zhǔn)確性,確定爬取出來的
數(shù)據(jù)無誤并且是屬于蔬菜價格信息網(wǎng)站實時存在的蔬菜價格信息。
分析蔬菜價格信息網(wǎng)站,明確需要爬取的蔬菜參數(shù)有蔬菜品種、日期、批發(fā)
價、零售價、規(guī)格、產(chǎn)地、單位等數(shù)據(jù)。在對原始數(shù)據(jù)進(jìn)行預(yù)處理后,本項目會
對其數(shù)據(jù)進(jìn)行多個維度的分析。例如,從不同蔬菜品種的價格對其進(jìn)行分析,查
看每種蔬菜的價格變化趨勢。又或者想要得到每個蔬菜品種的產(chǎn)地分布情況,那
么就可以根據(jù)產(chǎn)地信息對其進(jìn)行統(tǒng)計和可視化,以便于直觀地了解不同地區(qū)的
蔬菜供應(yīng)情況。同時,本項目還可以對不同規(guī)格、不同日期等數(shù)據(jù)進(jìn)行分析和可
視化,以便于更深入的探究蔬菜價格信息背后的規(guī)律。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
本項目使用了網(wǎng)絡(luò)爬蟲技術(shù)和相關(guān)工具,實現(xiàn)了自動化抓取網(wǎng)頁數(shù)據(jù)的功
能。網(wǎng)絡(luò)爬蟲基于HTTP協(xié)議,通過模擬瀏覽器行為向目標(biāo)網(wǎng)站發(fā)送請求,獲取
網(wǎng)頁數(shù)據(jù)。本項目使用了Scrapy框架和BeautifulSoup庫進(jìn)行網(wǎng)頁解析和數(shù)據(jù)
提取,同時也使用了Selenium工具模擬瀏覽器行為。這些工具具有高效、可擴(kuò)
展、模塊化等特點,為數(shù)據(jù)采集提供了強(qiáng)大的支持。
在使用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集時,需要注意相關(guān)的法律法規(guī),如遵循
網(wǎng)站的robots.txt協(xié)議等。此外,如果采集的網(wǎng)站有相關(guān)的反爬機(jī)制,可能會
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
面臨被封IP地址或賬號、數(shù)據(jù)采集速度受限等問題。因此,在使用網(wǎng)絡(luò)爬蟲技
術(shù)時,需要進(jìn)行合理規(guī)劃和設(shè)計,以確保數(shù)據(jù)采集的順利進(jìn)行。同時爬蟲技術(shù)
應(yīng)該被廣泛討論和研究,以找到合適的應(yīng)用場景和規(guī)范??偟膩碚f,爬蟲技術(shù)
的發(fā)展應(yīng)該是與法律法規(guī)相適應(yīng)的,同時應(yīng)該注重個人隱私的保護(hù)。與此同時,
大家也應(yīng)該意識到,隨著互聯(lián)網(wǎng)信息的增長,數(shù)據(jù)采集與利用將變得越來越重
要,未來可能也會涌現(xiàn)出更多的數(shù)據(jù)采集技術(shù)。大家需要在技術(shù)、法律和倫理
等方面保持敏感,為數(shù)據(jù)采集的健康發(fā)展做出應(yīng)有的貢獻(xiàn)。
2.3.2可視化技術(shù)
在進(jìn)行數(shù)據(jù)處理和分析時,數(shù)據(jù)可視化技術(shù)是非常有用的。這種技術(shù)通過
將大量數(shù)據(jù)以圖形的形式呈現(xiàn)出來,能夠幫助人們更好地理解和分析數(shù)據(jù),從
而得出相關(guān)結(jié)論。可視化技術(shù)已經(jīng)成為現(xiàn)代數(shù)據(jù)分析的重要組成部分,能夠讓
人們更快、更準(zhǔn)確地理解數(shù)據(jù),并幫助做出更明智的決策。在本次蔬菜網(wǎng)站項
目中采用了Python第三方庫Matplotlib來進(jìn)行數(shù)據(jù)可視化。
Matplotlib提供了許多種類型的可視化圖形,如餅圖、條形圖、直方圖、
折線圖等等。在進(jìn)行數(shù)據(jù)分類和處理后,本項目使用了Matplotlib中的多種圖
形來展示數(shù)據(jù),如詞云圖、蔬菜規(guī)格展示圖、對產(chǎn)地和品名做計數(shù)的圖表、以
及紅尖椒和線椒的最高價、最低價和平均價隨日期的變化趨勢圖表等等。通過
這些圖形,可以直觀地了解數(shù)據(jù)的特征和關(guān)系,并最終得出結(jié)論。信息可視化
是可視化技術(shù)的一個重要分支,它主要處理非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),如
金融交易、社交網(wǎng)絡(luò)和文本數(shù)據(jù)等。信息可視化面臨的主要挑戰(zhàn)是如何應(yīng)對大
規(guī)模、高維度和復(fù)雜數(shù)據(jù)的視覺混淆,以減少對信息的干擾,從而更好地理解
和分析數(shù)據(jù)。通過本次項目的經(jīng)驗,可以看到數(shù)據(jù)可視化技術(shù)對于現(xiàn)代數(shù)據(jù)分
析的重要性和作用。在今后的數(shù)據(jù)處理和分析中,大家也應(yīng)該充分發(fā)揮數(shù)據(jù)可
視化技術(shù)的作用,以更好地理解和利用數(shù)據(jù)。
3數(shù)據(jù)采集
3.1采集頁面分析
本項目首先通過谷歌瀏覽器搜索北京新發(fā)地的官方網(wǎng)頁,然后找到信息中
心的價格行情頁面觀察圖3-1,其中URL為:
/priceDetail.html然后點擊頁面下方的分頁按鈕,
同時觀察URL,發(fā)現(xiàn)URL沒有變化。
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-1數(shù)據(jù)網(wǎng)址頁面
按F12調(diào)出開發(fā)者工具,刷新頁面,如圖3-1。
圖3-2開發(fā)者工具
利用全局搜索工具定位所需數(shù)據(jù)位置,點擊開發(fā)者工具上面的Headers字
段,分析這是個什么請求,發(fā)現(xiàn)這個是一個POST請求,然后需要尋找它的from
data往下翻找,在最后找到表單數(shù)據(jù)FormData,如圖3-3。
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-3FormData
3.2字段分析
在爬取北京新發(fā)地農(nóng)產(chǎn)品交易網(wǎng)站的數(shù)據(jù)時,需要先打開該網(wǎng)站并通過開
發(fā)者工具分析頁面結(jié)構(gòu),以定位到所需數(shù)據(jù)所在的位置。在網(wǎng)頁上方的搜索欄
中輸入關(guān)鍵詞“新發(fā)地批發(fā)市場”,點擊搜索按鈕,跳轉(zhuǎn)到新的頁面。在該頁
面中找到“今日價格”、“歷史價格”等數(shù)據(jù),并點擊“歷史價格”選項卡。
在頁面上方的工具欄中選擇“網(wǎng)絡(luò)”選項卡,通過開發(fā)者工具可發(fā)現(xiàn)該頁面使
用了POST方法獲取數(shù)據(jù),并將響應(yīng)以JSON格式傳遞回客戶端。因此,需要使
用Python中的requests庫來發(fā)送POST請求來獲取數(shù)據(jù)。同時,為了避免被封
禁,需要注意網(wǎng)站的反爬措施,如限制訪問頻率、要求登錄等,并設(shè)置適當(dāng)?shù)?/p>
請求頭和訪問頻率限制。
獲取到數(shù)據(jù)后,需要進(jìn)行字段分析,以提取所需數(shù)據(jù)。在該網(wǎng)站中,每個
品種都有名稱、日期、規(guī)格、最高價、最低價、平均價、交易量、單位等字段。
需要將這些字段保存在xlsx文件中,以便后續(xù)分析和處理。
在對蔬菜網(wǎng)站進(jìn)行字段分析的過程中,需要先打開該網(wǎng)站并進(jìn)入到目標(biāo)頁
面,然后通過開發(fā)者工具查看該頁面所對應(yīng)的HTML代碼,并找到目標(biāo)數(shù)據(jù)所在
的位置。接著,對目標(biāo)數(shù)據(jù)所在的位置進(jìn)行了分析,發(fā)現(xiàn)該網(wǎng)站通過JavaScrip
動態(tài)加載數(shù)據(jù),數(shù)據(jù)是通過Ajax請求從服務(wù)器端返回的JSON格式數(shù)據(jù)。因此,
需要通過分析請求參數(shù)和響應(yīng)數(shù)據(jù)來得到目標(biāo)數(shù)據(jù)。
使用開發(fā)者工具中的“網(wǎng)絡(luò)”功能查看了該網(wǎng)站的Ajax請求,并對請求參
數(shù)和響應(yīng)數(shù)據(jù)進(jìn)行了分析,發(fā)現(xiàn)請求參數(shù)中包含了當(dāng)前頁數(shù)、每頁數(shù)據(jù)條數(shù)和
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
搜索關(guān)鍵詞等信息,響應(yīng)數(shù)據(jù)則是以JSON格式返回了包含多條蔬菜數(shù)據(jù)的列表,
每條數(shù)據(jù)包含了蔬菜名稱、規(guī)格、價格、產(chǎn)地、發(fā)布日期等多個字段。
最后,根據(jù)對請求參數(shù)和響應(yīng)數(shù)據(jù)的分析,編寫Python爬蟲程序,使用
Requests庫發(fā)送Ajax請求獲取響應(yīng)數(shù)據(jù),并使用BeautifulSoup庫解析HTML
代碼和json庫解析JSON格式數(shù)據(jù),最終將所需字段存儲在xlsx格式文件中。
圖3-4分析數(shù)據(jù)類型頁面
3.3編程實現(xiàn)
導(dǎo)入所需庫。
圖3-5導(dǎo)入所需庫頁面
設(shè)置請求頭,偽裝成瀏覽器訪問服務(wù)器。
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-6請求頭內(nèi)容頁面
代碼實現(xiàn)如下:
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-7代碼實現(xiàn)頁面
4數(shù)據(jù)清洗與處理
在本項目中,獲得了大量的數(shù)據(jù)集之后,需要對數(shù)據(jù)進(jìn)行預(yù)處理,以確保
數(shù)據(jù)的一致性和信息質(zhì)量的評估。這一預(yù)處理過程包括數(shù)據(jù)清洗和檢查,以確
定是否存在無效值和缺失值。此外,還需要對數(shù)據(jù)進(jìn)行有理化和有序化,以方
便開發(fā)人員在數(shù)據(jù)調(diào)用和共享過程中使用。
具體而言,本項目需要對爬取的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并檢查是否
存在空值、錯值等問題。同時,還需要驗證數(shù)據(jù)的位置是否正確,并根據(jù)不同
的需求對數(shù)據(jù)進(jìn)行不同的處理。這一預(yù)處理過程是非常重要的,可以保證數(shù)據(jù)
的質(zhì)量和可用性,為后續(xù)的數(shù)據(jù)分析和應(yīng)用提供基礎(chǔ)。
圖4-1數(shù)據(jù)清洗準(zhǔn)備頁面
圖4-2數(shù)據(jù)清洗頁面
經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)存在規(guī)格有660個缺失值,產(chǎn)地有189個缺失值,
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
這兩個變量在后續(xù)研究中只看比較關(guān)系,所以無需填充,留存后續(xù)作為統(tǒng)計分
析、可視化使用。
圖4-3數(shù)據(jù)清洗完成界面
5數(shù)據(jù)統(tǒng)計與分析
5.1數(shù)據(jù)統(tǒng)計
查看規(guī)格包含具體種類:
圖5-1查看種類
查看規(guī)格列各種類出現(xiàn)的次數(shù):
圖5-2查看次數(shù)
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
查看每一列的數(shù)據(jù)類型:
圖5-3查看數(shù)據(jù)類型
5.2數(shù)據(jù)分析
圖5-4查看最高價的平均值、眾數(shù)、方差
通過圖5-4對蔬菜最高價的平均值、眾數(shù)、方差的分析,可以發(fā)現(xiàn)蔬菜的
最高價整體上呈現(xiàn)出一定的波動性,其中最高價的平均值約為4.245,說明在整
個蔬菜價格的分布中,最高價的平均水平處于一個相對較高的位置。同時,最
高價的眾數(shù)為4.0,表明在最高價的數(shù)據(jù)中,以4元/斤的價格出現(xiàn)的最為頻繁。
最高價的方差約為5.807,說明最高價數(shù)據(jù)的分散程度相對較大,具有一定的不
確定性。這些結(jié)果為深入了解蔬菜市場價格提供了重要的參考。
圖5-5查看最低階的平均值、眾數(shù)、方差
通過圖5-5的分析,可以看到最低價的平均值約為3.307,說明在觀察時間
段內(nèi),蔬菜的最低價格整體上呈現(xiàn)出一個相對較低的趨勢,平均來說價格相對
較穩(wěn)定。最低價的眾數(shù)為3.0,表示最低價在3元左右的時間段內(nèi)出現(xiàn)的頻率最
高,這個結(jié)果可以讓人對市場情況有一個大致的了解,也能幫助農(nóng)民和批發(fā)商
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
在選購蔬菜時進(jìn)行參考。最低價的方差約為4.165,這個數(shù)值可以表示數(shù)據(jù)分布
的離散程度,越大表示數(shù)據(jù)分布越分散,反之則表示數(shù)據(jù)越集中。在本次數(shù)據(jù)
分析中,最低價的方差不是很大,說明最低價的數(shù)據(jù)分布相對集中,這也可以
反映市場對最低價的整體控制力比較強(qiáng)。
圖5-6查看平均價的平均值、眾數(shù)、方差
通過圖5-6的分析,平均價的平均數(shù)約為3.776,眾數(shù)為4.25,方差約為
4.785,表明在該蔬菜市場的價格分布中,平均價的整體水平較為平均,但是存
在一些高價或低價的離群點。同時,平均價的眾數(shù)為4.25,說明在該市場中,
以4.25元/斤的價格出售的蔬菜最為普遍,反映了該蔬菜品種的主流市場需求。
方差值約為4.786,說明該市場的蔬菜價格波動較大,可能存在一些不穩(wěn)定的市
場因素,這也為市場參與者提供了更多的投資和風(fēng)險管理方面的思考。
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.3數(shù)據(jù)展示
5.3.1蔬菜產(chǎn)地信息統(tǒng)計
圖5-7代碼展示頁面
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-8數(shù)據(jù)展示頁面
通過圖5-8對蔬菜產(chǎn)地信息的分析,可發(fā)現(xiàn)主要集中在冀、魯、遼、云等
省份。這些地區(qū)擁有廣闊的耕地和優(yōu)良的自然條件,可生產(chǎn)出豐富多樣的蔬菜。
同時,這些省份也是中國人口密集的地區(qū),蔬菜的銷售市場非常廣闊,這也促
進(jìn)了這些地區(qū)蔬菜生產(chǎn)的發(fā)展。
蔬菜生產(chǎn)的地域性比較明顯,不同省份的蔬菜種類也有所不同。例如,遼
寧省以豆角、黃瓜等蔬菜為主要生產(chǎn)品種,而河北省則以西紅柿、白菜、茄子
等蔬菜為主。這些蔬菜品種豐富多樣,品質(zhì)優(yōu)良,口感好,深受廣大消費者的
喜愛。
蔬菜產(chǎn)業(yè)是中國農(nóng)業(yè)的重要組成部分,也是國民經(jīng)濟(jì)中的重要支柱產(chǎn)業(yè)之
一。蔬菜產(chǎn)業(yè)的發(fā)展對當(dāng)?shù)亟?jīng)濟(jì)的發(fā)展和人民生活水平的提高有著積極的影響。
因此,加強(qiáng)蔬菜產(chǎn)業(yè)的發(fā)展,提高蔬菜品質(zhì)和產(chǎn)量,將有利于推動中國農(nóng)業(yè)和
16
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
經(jīng)濟(jì)的可持續(xù)發(fā)展。
總之,通過對蔬菜產(chǎn)地信息的統(tǒng)計和分析,可以發(fā)現(xiàn),北京蔬菜生產(chǎn)的主
要地區(qū)是冀、魯、遼、云等省份,其蔬菜品種豐富多樣,品質(zhì)優(yōu)良,口感好,
蔬菜產(chǎn)業(yè)也為當(dāng)?shù)亟?jīng)濟(jì)發(fā)展做出了重要貢獻(xiàn)。
5.3.2蔬菜規(guī)格統(tǒng)計
圖5-9代碼展示頁面
圖5-10數(shù)據(jù)展示頁面
從蔬菜規(guī)格展示圖5-10展示圖中可以看出,以袋/箱裝的規(guī)格最為常見,
17
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
占據(jù)了所有規(guī)格中的近一半,達(dá)到了42%。而單獨使用箱子裝的規(guī)格數(shù)量很少,
僅占總規(guī)格的不到1%。另外,也有不少蔬菜使用機(jī)器進(jìn)行剝皮加工,這一規(guī)格
占比約為10%。此外,還有一些蔬菜規(guī)格含有“泥”等字眼,這一類規(guī)格占比較
大,約為11%。
蔬菜規(guī)格展示圖的含義在于,通過展示各種蔬菜規(guī)格的分布情況,可以更
好地了解農(nóng)業(yè)生產(chǎn)中的規(guī)格分布情況以及各種規(guī)格的應(yīng)用范圍和市場需求。在
實際生產(chǎn)中,蔬菜規(guī)格的大小和形狀等因素會直接影響到產(chǎn)品的外觀、品質(zhì)和
適用范圍等方面。因此,對于農(nóng)業(yè)生產(chǎn)者和銷售商而言,了解蔬菜規(guī)格的分布
情況是十分重要的,可以有針對性地進(jìn)行生產(chǎn)和銷售策略的制定,以滿足市場
需求,提高產(chǎn)品質(zhì)量和競爭力。
5.3.3紅尖椒與線椒的最高價、最低價、平均價隨日期的變化趨勢統(tǒng)計分
析
18
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖5-11代碼展示頁面
圖5-12數(shù)據(jù)展示頁面
首先,從5-12圖表中可以看出,紅尖椒的價格波動幅度小于線椒。線椒的
最高價和最低價之間的差距更大,而紅尖椒的價格則相對穩(wěn)定。
同時,紅尖椒和線椒的平均價也有所不同,線椒的平均價整體高于紅尖椒,
這也反映了線椒相對稀缺,而紅尖椒的供應(yīng)充足的市場供求情況。
其次,從時間維度上來看,紅尖椒和線椒的價格變化趨勢存在一定的相似
性。兩者的價格變化趨勢基本呈現(xiàn)出一致的形態(tài),都在近期內(nèi)經(jīng)歷了一次小幅
波動后逐漸趨于平穩(wěn),整體表現(xiàn)出市場供求關(guān)系趨于平衡的狀態(tài)。這也反映了
該地區(qū)蔬菜市場較為穩(wěn)定,消費者對紅尖椒和線椒的需求也相對平穩(wěn)。
最后,從紅尖椒和線椒的價格對比來看,線椒的價格波動幅度更大,這也
可能與線椒在該地區(qū)的供應(yīng)量相對較少,
市場需求較大,供求矛盾較為突出有關(guān)。然而,由于市場競爭較為激烈,
紅尖椒的價格也受到其他因素的影響,價格波動也較為明顯。
19
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.3.4對蔬菜產(chǎn)地以及品名進(jìn)行統(tǒng)計
圖5-13數(shù)據(jù)展示頁面
圖5-14數(shù)據(jù)展示頁面
上面的代碼通過seaborn庫中的countplot函數(shù)對蔬菜的產(chǎn)地以及品名做
了計數(shù)圖。這個圖展示了前20個蔬菜產(chǎn)地和品名的計數(shù)分布情況,其中不同顏
色的條柱代表不同的品名。
20
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
從圖中可以看出,河北、云南等地區(qū)是蔬菜生產(chǎn)的重要產(chǎn)地,其品種也較
為豐富,其中以河北和云南產(chǎn)地的蔬菜種類最多。此外,圖中還可以看出大多
數(shù)蔬菜生產(chǎn)地
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新解讀《CB-T 3895-1999船用柴油機(jī)清潔度測量方法》新解讀
- 新解讀《CB-T 3850 - 1999船用分流式離心潤滑油濾器》新解讀
- 第18課 科技文化成就 課件 人教版部編八年級下冊歷史
- 汽車傳感器與檢測技術(shù)電子教案:組合式加速度傳感器
- Brand KPIs for neobanking N26 in the United States-英文培訓(xùn)課件2025.4
- 汽車傳感器與檢測技術(shù)電子教案:開關(guān)式節(jié)氣門位置傳感器
- 單位管理量化管理制度
- 地面危險作業(yè)管理制度
- 介紹校園活動方案
- 倉庫包裝比賽活動方案
- 2023-2024學(xué)年湖北省恩施市小學(xué)數(shù)學(xué)四年級下冊期末點睛提升考試題
- 廣州市人力資源和社會保障局事業(yè)單位招聘工作人員模擬檢測試卷【共500題含答案解析】
- GB/T 2013-2010液體石油化工產(chǎn)品密度測定法
- FZ/T 72001-2009滌綸針織面料
- FZ/T 62033-2016超細(xì)纖維毛巾
- 在漫畫中識別身邊的違章施工作業(yè)
- 小學(xué)科學(xué)教育科學(xué)六年級下冊物質(zhì)的變化 無字天書
- 凈水廠畢業(yè)設(shè)計(圖紙+計算書)
- 河北工程大學(xué)食堂CI手冊
- 機(jī)械設(shè)備維修的安全知識(課堂PPT)
- 住宅小區(qū)室外道路及管網(wǎng)配套工程施工方案
評論
0/150
提交評論