基于Python的國藥網(wǎng)數(shù)據(jù)采集與分析_第1頁
基于Python的國藥網(wǎng)數(shù)據(jù)采集與分析_第2頁
基于Python的國藥網(wǎng)數(shù)據(jù)采集與分析_第3頁
基于Python的國藥網(wǎng)數(shù)據(jù)采集與分析_第4頁
基于Python的國藥網(wǎng)數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

湖南商務職業(yè)技術學院畢業(yè)設計

目錄

1引言............................................................................................................................1

1.1項目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡介..........................................................................................2

1.2.2Jupyternotebook簡介......................................................................3

1.2.3Python第三方庫簡介..........................................................................3

1.2.4Pycharm簡介........................................................................................4

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目標功能分析......................................................................................5

2.3關鍵技術分析..............................................................................................5

2.3.1網(wǎng)絡爬蟲技術.......................................................................................5

2.3.2文件存取技術.......................................................................................6

2.3.3可視化技術...........................................................................................6

3數(shù)據(jù)采集....................................................................................................................7

3.1采集頁面分析..............................................................................................7

3.2字段分析......................................................................................................8

3.3編程實現(xiàn)......................................................................................................9

4數(shù)據(jù)清洗與處理......................................................................................................12

4.1數(shù)據(jù)清洗....................................................................................................13

4.2數(shù)據(jù)儲存....................................................................................................14

5數(shù)據(jù)統(tǒng)計與分析......................................................................................................14

5.1數(shù)據(jù)準備....................................................................................................14

5.2數(shù)據(jù)展示....................................................................................................16

5.2.1依據(jù)品牌進行統(tǒng)計.............................................................................16

5.2.2依據(jù)生產(chǎn)廠家進行統(tǒng)計.....................................................................17

5.2.3據(jù)產(chǎn)商出產(chǎn)藥品價格進行統(tǒng)計和分析.............................................18

I

湖南商務職業(yè)技術學院畢業(yè)設計

5.3綜述............................................................................................................18

6小結..........................................................................................................................18

參考資料.........................................................................................................................19

II

湖南商務職業(yè)技術學院畢業(yè)設計

基于Python的國藥網(wǎng)數(shù)據(jù)采集與分析

1引言

大數(shù)據(jù)時代的來臨,人們的生活方式,消費習慣將有重大改變,企業(yè)為適

應時代需求其企業(yè)形象的塑造與推廣更為重要。而中國現(xiàn)階段趨同化,符號化

的設計一定無法滿足企業(yè)的需求。而大數(shù)據(jù)對設計的顛覆性改變或許可以改變

這樣的現(xiàn)狀。

《大數(shù)據(jù)時代》作者維克托邁爾舍恩伯格給本設計展現(xiàn)數(shù)據(jù)變革的大時代。

數(shù)據(jù)變革顧名思義與數(shù)據(jù)有關,數(shù)據(jù)化由數(shù)字化而來,并基本取代數(shù)字化。數(shù)

據(jù)就像可再生能源一樣,當數(shù)據(jù)的首要價值被挖掘后,數(shù)據(jù)仍能不斷給予,本

設計看到的數(shù)據(jù)價值其實只是它的冰山一角。對于數(shù)據(jù)本設計有讓其釋放的方

式,比如本身的再利用,不同領域數(shù)據(jù)的整合,本身數(shù)據(jù)的擴展。當然數(shù)據(jù)也

如機器一樣會折舊的,采集數(shù)據(jù)后要及時應用,數(shù)據(jù)廢氣也是可以應用的。大

數(shù)據(jù)時代的對社會的改變毋庸置疑是巨大的。通過對數(shù)據(jù)分析,獲得其價值,

或對數(shù)據(jù)進行解析,擁有深刻的洞見,本設計還能發(fā)現(xiàn)事情發(fā)生的真相。轉化

經(jīng)濟價值已經(jīng)撼動生活的方方面面:商業(yè)科技、醫(yī)療、政府、教育、人文。對

于數(shù)據(jù)的需求樣本已經(jīng)不能滿足,總體數(shù)據(jù)才是分析的基礎,當然了,數(shù)據(jù)太

多,精度依然不再追求。越來越多的人意識到數(shù)據(jù)的財富和價值,利用數(shù)據(jù)做

更多的事

大數(shù)據(jù)時代,這是一個最好的時代,也是最壞的時代,勤于學習創(chuàng)造機會,

而不是等待機會的到來!

1.1項目背景

醫(yī)藥基于大數(shù)據(jù)的應用越來越受到行業(yè)的關注和重視,我們可以看到越來

越多的醫(yī)藥企業(yè)和研究機構通過大數(shù)據(jù)分析,發(fā)現(xiàn)了許多令人驚奇的新發(fā)現(xiàn),

提高了自身的治療和研發(fā)水平。首先,醫(yī)藥基于大數(shù)據(jù)分析的應用使得醫(yī)生們

可以更快速地定位疾病和癥狀,更準確地進行治療。通過分析海量和多維度的

數(shù)據(jù),如病例記錄、基因組數(shù)據(jù)、醫(yī)療設備數(shù)據(jù)等等,醫(yī)生可以更好地診斷和

治療疾病,提高治療成功率。此外,大數(shù)據(jù)分析還可以幫助醫(yī)生們實時監(jiān)測病

情,并快速作出針對性的調整,更好地保障患者的健康。其次,醫(yī)藥企業(yè)可以

借助大數(shù)據(jù)分析,優(yōu)化研發(fā)流程和提高新藥研發(fā)速度。通過對歷史病例和臨床

試驗數(shù)據(jù)的分析,醫(yī)藥企業(yè)可以更好地了解新藥的研發(fā)進展和效果,并優(yōu)化研

1

湖南商務職業(yè)技術學院畢業(yè)設計

發(fā)方案。此外,大數(shù)據(jù)還可以幫助企業(yè)了解疾病流行病學趨勢和治療流程,提

高新藥的市場適用性和接受度。最后,大數(shù)據(jù)分析還可以幫助醫(yī)藥企業(yè)優(yōu)化藥

物銷售策略。通過對市場和用戶數(shù)據(jù)的分析,企業(yè)可以更好地了解市場需求和

用戶偏好,從而制定更合適的產(chǎn)品策略和營銷方案,提高市場競爭力??偟膩?/p>

說,醫(yī)藥基于大數(shù)據(jù)分析的應用對于醫(yī)療和藥物研發(fā)行業(yè)具有重要的意義。醫(yī)

療行業(yè)可以更加精準地診斷和治療疾病,提高患者的健康水平;藥物研發(fā)企業(yè)

可以更好地了解市場需求和用戶反饋,提高研發(fā)效率和產(chǎn)品質量。預計,在未

來,醫(yī)藥基于大數(shù)據(jù)分析的應用會越來越深入,為行業(yè)和患者帶來更多的價值。

涉及到藥品信息有很多,本設計需要對網(wǎng)頁進行解析。然后通過Python爬蟲的

手段批量獲取本設計想要的資料。

本項目就是針對普通醫(yī)藥公司的決策需要,然后爬取國藥網(wǎng)網(wǎng)站藥品數(shù)據(jù),

對其進行處理,分析,然后可視化。繁雜的數(shù)據(jù)經(jīng)過清洗加分析后,一目了然的將

結果呈現(xiàn)在高層眼前,公司的領導就可以討論哪些產(chǎn)商是可靠的合作伙伴,現(xiàn)階

段最需要進貨哪些藥品。所以本畢業(yè)設計部分包含數(shù)據(jù)爬取、清洗處理、儲存、

可視化。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

20世紀80年代末,荷蘭的龜叔(GuidoRossum)創(chuàng)造了Python。

Python是一種高級程序設計語言,廣泛用于編寫各種類型的軟件,包括Web

應用程序、科學計算、人工智能、數(shù)據(jù)分析、游戲開發(fā)和系統(tǒng)管理等領域。Python

具有簡潔、易讀、易于學習、可擴展性強等特點,使得它成為了最受歡迎的編

程語言之一。Python還擁有大量的第三方庫和工具,這些庫和工具可以使開發(fā)

者更加便捷地編寫代碼。

Python有以下幾個特點:簡潔明了:可讀性強,語法簡單,與其他編程語

言相比,代碼量較小,這使得Python易于學習和使用。面向對象編程:支持面

向對象編程,能夠實現(xiàn)面向對象的封裝、繼承、多態(tài)等特性。強大的庫和工具:

有非常強大的標準庫以及豐富的第三方庫和工具,能夠簡化編程過程,提高編

程效率??缙脚_性:支持多種操作系統(tǒng),如Windows、Linux、Mac等,因此可

以編寫具有良好可移植性的程序?;有裕褐С纸换ツJ?,具有交互式解釋器,

能夠快速、方便地測試和調試代碼??蓴U展性:可通過調用其他語言的代碼擴

展Python的功能,也可以將Python代碼嵌入到其他語言的程序中。非常流行:

2

湖南商務職業(yè)技術學院畢業(yè)設計

Python在科學計算、數(shù)據(jù)分析、人工智能、Web開發(fā)、游戲開發(fā)等領域被廣泛

使用,擁有龐大的社區(qū)支持和開源項目,使得開發(fā)者可以快速地獲取和學習到

相關技術。

現(xiàn)如今,人們用它開發(fā)簡單的小腳本用來做文件的自動化處理或者開發(fā)一

些小網(wǎng)站打發(fā)無聊時光。這也突出Python的特點就是易學、第三方庫足夠豐富、

并且免費開源、支持跨多平臺且可移植性比較強。

1.2.2Jupyternotebook簡介

Jupyternotebook從本質上來說是一種應用程序,是基于網(wǎng)頁的用于交互計

算的應用程序。其可被應用于全過程計算:開發(fā)、文檔編寫、運行代碼和展示

結果。還支持各種拓展插件,類似vscode。Jupyternotebook做數(shù)據(jù)分析太方

便了,它被設計就是為了科學計算的,可以支持Python、R、Julia、Scala等

多種語言編程,而且在瀏覽器上運行,對硬件要求不高,符合多數(shù)人的需求。

作為一款開源的web應用,jupyter在用戶體驗上可以說非常良心,不僅有簡潔

的notebook,還有工作臺式的lab,甚至平臺化部署的hub。此外,文檔還可以

導出為:HTML、LaTeX、PDF等格式。

Jupyternotebook在大數(shù)據(jù)方面應用比較廣泛,特別適合用來做數(shù)據(jù)的清洗

和處理,在數(shù)據(jù)挖掘和可視化上的應用也是十分方便的。對于比較高層次的開發(fā)

人員來說,這個工具也可以用來做深度的機器學習。

1.2.3Python第三方庫簡介

Pprint:他的英文全稱為Dataprettyprinter他采用分行打印的方式輸出

數(shù)據(jù)結果。

requests:最友好的網(wǎng)絡爬蟲功能庫,是Python實現(xiàn)的簡單易用的HTTP庫,

使用起來比urllib更簡潔很多,Python第三方庫在使用前要先進行安裝。

Csv:csv屬于python中的內置模塊,它能夠讀取csv格式的文件或者將數(shù)

據(jù)存入到csv表格中。并且csv文件是表格和數(shù)據(jù)庫中常見的文件操作格式。

NumPy:表達N維數(shù)組的最基礎庫提供直接的矩陣運算、廣播函數(shù)、線性代

數(shù)等功能。是處理數(shù)組的Python庫,NumPy庫的數(shù)據(jù)結構比Python自帶的更加

高效。

pandas:Python數(shù)據(jù)分析高層次應用庫提,供了易用的數(shù)據(jù)結構和數(shù)據(jù)分

析工具,操作索引即操作數(shù)據(jù)。數(shù)據(jù)分析并保存為csv文件,python數(shù)據(jù)分析高

層次應用庫,還可以進行數(shù)據(jù)清洗。

3

湖南商務職業(yè)技術學院畢業(yè)設計

matplotlib:高質量的二維數(shù)據(jù)可視化功能庫超過100種數(shù)據(jù)可視化展示

效果;通過matplotlib.pyplot子庫調用各可視化效果。wordcloud、scipy、

jieba:生成中文詞云的。

1.2.4Pycharm簡介

PyCharm是一款由JetBrains公司推出的Python集成開發(fā)環(huán)境(IDE),旨

在為Python開發(fā)提供全面的支持。PyCharm具有很多有用的特性,比如代碼自

動補全、語法高亮、代碼跳轉、調試器、重構等功能,使得Python編程變得更

加輕松和高效。PyCharm還支持Python的各種科學計算庫和框架,包括NumPy、

Pandas、SciPy、Django、Flask等。此外,PyCharm還提供了強大的版本控制

功能,支持各種版本控制系統(tǒng)(如Git、SVN等),方便開發(fā)者進行團隊協(xié)作。

集成的單元測試:用戶可以在一個文件夾運行一個測試文件,單個測試類,一

個方法或者所有測試項目。

可自定義&可擴展:可綁定了Textmate,NetBeans,Eclipse&Emacs鍵盤主

盤,以及Vi/Vim仿真插件。

代碼分析:用戶可使用其編碼語法,錯誤高亮,智能檢測以及一鍵式代碼

快速補全建議,使得編碼更優(yōu)化。

Python重構:有了該功能,用戶便能在項目范圍內輕松進行重命名,提取

方法/超類,導入域/變量/常量,移動和前推/后退重構。

支持Django:有了它自帶的HTML,CSS和JavaScript編輯器,用戶可以更

快速的通過Django框架進行Web開發(fā)。此外,其還能支持CoffeeScript,

Mako和Jinja2。

支持GoogleApp引擎:用戶可選擇使用Python2.5或者2.7運行環(huán)境,

為GoogleApp引擎進行應用程序的開發(fā),并執(zhí)行例行程序部署工作。

2需求分析

2.1可行性需求分析

1、技術可行性

Python是面向對象語言中的一門通俗易懂的計算機編程語言,本次項目中

使用Python編寫程序來實現(xiàn)數(shù)據(jù)獲取,數(shù)據(jù)清洗預處理,數(shù)據(jù)可視化。隨后通過

抓包分析,通過瀏覽器控制臺獲取請求和其參數(shù)。然后就可以得到網(wǎng)頁面數(shù)據(jù)

的返回值。隨后將爬取出來的原始數(shù)據(jù)暫時以csv格式儲存起來,在后續(xù)的數(shù)據(jù)

4

湖南商務職業(yè)技術學院畢業(yè)設計

預處理和可視化中再進行調用。

2、項目可行性

醫(yī)療行業(yè)的數(shù)據(jù)應用一直在進行,但是數(shù)據(jù)沒有打通,都是孤島數(shù)據(jù),沒

有辦法進行大規(guī)模應用。未來需要將這些數(shù)據(jù)統(tǒng)一收集起來,納入統(tǒng)一的大數(shù)

據(jù)平臺,為人類健康造福。政府和醫(yī)療行業(yè)是推動這一趨勢的重要動力。。

本次項目通過采集國藥網(wǎng)網(wǎng)站內的數(shù)據(jù),來分析我國中西藥品的藥品信息。

本設計也將從藥品品牌、生產(chǎn)企業(yè)、藥品價格等方面對其進行深度剖析,分析出

有價值的信息,將其可視化最后根據(jù)結果得出結論。

2.2采集目標功能分析

本次項目的數(shù)據(jù)集的來源是國藥網(wǎng)網(wǎng)站,通過python爬取國藥網(wǎng)中西藥品

所有的信息。數(shù)據(jù)清洗后共855條記錄,爬取完成后盡可能的檢查數(shù)據(jù)的準確性,

確定爬取出來的數(shù)據(jù)無誤并且是屬于國藥網(wǎng)實時存在的藥品信息。

分析國藥網(wǎng)網(wǎng)站網(wǎng)頁信息,明確本設計需要爬取的藥品參數(shù)有商品名,品牌,

價格,商品編號,規(guī)格,批準文號,生產(chǎn)廠家等數(shù)據(jù),在對原始數(shù)據(jù)進行預處理

后本設計會對其數(shù)據(jù)進行多個維度的分析。例如,從品牌的數(shù)量進行分析,查看

哪些品牌出品的藥物數(shù)量多。又或者想要得到規(guī)格所有藥品的生產(chǎn)廠家和藥品

的價格。

2.3關鍵技術分析

2.3.1網(wǎng)絡爬蟲技術

在本設計日常生活中瀏覽網(wǎng)頁通常都會遇到需要緩存在本地的數(shù)據(jù),當數(shù)

量量比較小的時候本設計可以自己采取下載的方式去獲得想要的數(shù)據(jù),不過在

本設計的大數(shù)據(jù)領域一般用到的數(shù)據(jù)體量都是幾個G甚至幾個T的單位,這時

候本設計會采取網(wǎng)絡爬蟲的手段自動化的獲取數(shù)據(jù)。

網(wǎng)絡爬蟲也被人們叫做網(wǎng)絡機器人,只需要編寫程序或者一些小腳本用來

自動的瀏覽龐大的互聯(lián)網(wǎng),并對想要的目標網(wǎng)頁去進行數(shù)據(jù)的采集。當下常見的

一些網(wǎng)絡爬蟲按照實現(xiàn)的原理和技術結構一般可以分為:深層網(wǎng)絡爬蟲、增量

式網(wǎng)絡爬蟲、通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲等一些類型。

python爬蟲能干什么?1:收集數(shù)據(jù),比如你想批量收集競品的商品信息、

銷量數(shù)據(jù),甚至估算總收入。可以通過python爬蟲批量抓取,并自動提取結構

化信息,計算出來。2:批量生成內容,假如你新建了一個社區(qū)網(wǎng)站,冷啟動時

5

湖南商務職業(yè)技術學院畢業(yè)設計

陷入了沒內容就沒流量、沒流量就沒內容的惡性循環(huán),這時你希望利用其他網(wǎng)

站的內容批量導進來,那么可以利用爬蟲來抓取并導入。3:實時監(jiān)測,比如你

想第一時間知道商品降價信息,第一時間知道某商品上架了。python爬蟲可以

幫你做實時監(jiān)測,一旦檢測到,可以立即通過短信、推送消息等通知到你。4:

搶票、搶限量商品,比如想搶火車票,或者搶掛某個醫(yī)院的號,可以利用python

爬蟲來做到手速最快,當然這也取決于你網(wǎng)絡是否暢通,以及人家的安全措施

做的如何。

2.3.2文件存取技術

Pycharm導入csv模塊如圖2-1顯示:

圖2-1python內置csv模塊

創(chuàng)建dataset.csv文件,將需要的字段信息錄入,再使用for循環(huán)將字段

數(shù)據(jù)逐條導入。如圖2-2顯示:

圖2-2導入數(shù)據(jù)

2.3.3可視化技術

爬取下來的數(shù)據(jù)通過預處理、保存為csv文件格式。本設計需要一種技術,

6

湖南商務職業(yè)技術學院畢業(yè)設計

根據(jù)本設計獲取到的龐大數(shù)據(jù)將其通過統(tǒng)計學圖形的方式展現(xiàn)在本設計眼前,

讓本設計對其結果一目了然。這個就是數(shù)據(jù)可視化技術。

數(shù)據(jù)可視化是指在一個可視化的環(huán)境中表現(xiàn)數(shù)據(jù),用一種既引人注目又容

易消化的方式組織數(shù)據(jù),如圖表或地圖。從而幫助任何查看它的人更好地理解

該數(shù)據(jù)的意義。經(jīng)過可視化的數(shù)據(jù)可以幫助人們更快、更輕松地從這些信息中

提取意義。數(shù)據(jù)可視化可以是靜態(tài)的,也可以是交互式的。除此之外,還有時

間序列可視化——在一段時期內跟蹤數(shù)據(jù)或性能的視覺效果。這在數(shù)據(jù)可視化

中十分重要,因為人們想要關注數(shù)據(jù)變量隨時間產(chǎn)生的的變化。多年來可視化

的技術也逐漸發(fā)展成為了一下三類:科學可視化、信息可視化、可視化分析。

本次項目中僅僅只是將得到的數(shù)據(jù)用很簡單的可視化手段實現(xiàn)數(shù)據(jù)可視化,

具體的就是用python第三方庫matpoltlab去進行可視化,matplotlab中包含

了許多庫,可視化圖形呈現(xiàn)出來后對于結果自然一目了然,然后得出結論。

3數(shù)據(jù)采集

3.1采集頁面分析

本設計首先通過edge瀏覽器搜索國藥網(wǎng)的官方網(wǎng)頁,然后進入主網(wǎng)頁如圖

3-1,其中URL為:/。點擊中西藥品,發(fā)現(xiàn)URL發(fā)生

了改變,變成了:/category_7,如圖3-2。

圖3-1國藥網(wǎng)網(wǎng)站主頁面

7

湖南商務職業(yè)技術學院畢業(yè)設計

圖3-2國藥網(wǎng)中西藥品頁面

按F12調出開發(fā)者工具,刷新頁面,如圖3-3。

圖3-3開發(fā)者工具

利用全局搜索工具定位所需數(shù)據(jù)位置,點擊開發(fā)者工具上面的Headers字

段,分析這是個什么請求,發(fā)現(xiàn)這個是一個GET請求。

3.2字段分析

本設計首先來到網(wǎng)頁面打開網(wǎng)頁的選擇欄,然后將選擇欄目定位到藥品集

中的位置也就是定位到本設計所需要的數(shù)據(jù)所在的位置,然后跳出開發(fā)者工具

8

湖南商務職業(yè)技術學院畢業(yè)設計

頁面刷新一下頁面再進入,點擊開發(fā)者工具界面上方的數(shù)據(jù)預覽元素按鈕,如圖

3-4,可以看到本設計需要的品牌、價格字段信息在<div>標簽下,規(guī)格、批準文

號、生產(chǎn)廠家等字段信息在<tr>標簽下,本設計使用xpath方式來從HTML文本中

選取特定的標簽和屬性,本設計還得知他是GET方法響應的網(wǎng)站,所以本設計可以

根據(jù)以上特點通過Requests方法中的GET方法來獲得響應的數(shù)據(jù)。將價格、品

牌、規(guī)格、批準文號、生產(chǎn)廠家等本設計需要的字段主句依次寫入到csv格式

的文件當中。

圖3-4分析數(shù)據(jù)類型頁面

3.3編程實現(xiàn)

導入所需庫。

圖3-5導入所需庫頁面

編寫代碼試著爬取一整頁的數(shù)據(jù)。

9

湖南商務職業(yè)技術學院畢業(yè)設計

圖3-6爬取一頁數(shù)據(jù)頁面

繼續(xù)逐個爬取所有商品數(shù)據(jù)。

圖3-7爬取單個商品數(shù)據(jù)

代碼實現(xiàn)如下:

10

湖南商務職業(yè)技術學院畢業(yè)設計

11

湖南商務職業(yè)技術學院畢業(yè)設計

源文件.rar

4數(shù)據(jù)清洗與處理

獲得龐大的數(shù)據(jù)集之后本設計需要對數(shù)據(jù)進行預處理,也就是所謂的清洗

和檢查,確定爬取過來的數(shù)據(jù)是否存在無效值和確實值,要保證數(shù)據(jù)的一致性,

這個對于信息質量的評估是一項很重要的任務。不僅如此,本設計需要將數(shù)據(jù)進

行有理化和有序化,這樣子能夠在數(shù)據(jù)調用共享過程中方便很多開發(fā)人員對數(shù)

12

湖南商務職業(yè)技術學院畢業(yè)設計

據(jù)信息的使用。

本次項目中本設計需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進行比對,并且檢查

是否出現(xiàn)空值、錯值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求本設計要對數(shù)

據(jù)進行不同的處理。

4.1數(shù)據(jù)清洗

圖4-1數(shù)據(jù)清洗準備頁面

經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)存在缺失、空值,那么本設計根據(jù)需求將去除這

些包含缺失的數(shù)據(jù),在notebook中用pd.DataFrame(df.dropna())來去除空值

的數(shù)據(jù),數(shù)據(jù)清洗完畢后再將數(shù)據(jù)儲存在dataset2.csv文件中。

13

湖南商務職業(yè)技術學院畢業(yè)設計

圖4-2數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

數(shù)據(jù)儲存得方法有很多種,常見得可以直接用記事本格式儲存(txt),或者

直接用其他文件的形式儲存csv、excel、json等,本次項目本設計用到的是

csv。

如圖4-3所示:

圖4-3數(shù)據(jù)存儲為csv頁面

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準備

導入相關庫,使用pandas加載源數(shù)據(jù),如圖4-1、4-2。

14

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-1notebook準備頁面

圖5-2csv數(shù)據(jù)頁面

打開PyCharmm軟件,選擇本地文件,加載通過清洗的源文件dataset2.csv,

使用WordCloud庫制作并生成需要的圖像如圖5-3:

圖5-3PyCharmm頁面

15

湖南商務職業(yè)技術學院畢業(yè)設計

5.2數(shù)據(jù)展示

5.2.1依據(jù)品牌進行統(tǒng)計

圖5-4數(shù)據(jù)展示頁面

將中西藥品所有的藥品品牌進行匯總和分析,制作出詞云圖。從圖5-4中

可以看出國藥網(wǎng)中西藥品的品牌分布,并且清晰的觀察出同仁堂、仲景、信龍、

羚銳、本草綱目出現(xiàn)的頻率最高,由老字號品牌引領眾多品牌共同發(fā)展,百花

齊放。

優(yōu)秀的品牌往往能夠帶動生產(chǎn)和消費,能讓消費者產(chǎn)生情感共鳴,以此實

現(xiàn)價值鏈接。品牌出品的藥物越多,說明品牌的影響力和自身硬實力越強,銷

售方和消費者更愿意去買單。隨著經(jīng)濟和網(wǎng)絡的發(fā)展,消費者的需求和意向越

來越多越來越復雜,讓許多新興品牌開始飛速發(fā)展和崛起,來填補日益增長的

需求。品牌影響力決定著一個國家再全球產(chǎn)業(yè)價值鏈中的地位,一個國家擁有

的品牌越多,對價值鏈的主導力就越多。品牌是高質量發(fā)展的重要表現(xiàn)和象征,

加強品牌建設是滿足人民美好生活需要的重要途徑。

16

湖南商務職業(yè)技術學院畢業(yè)設計

5.2.2依據(jù)生產(chǎn)廠家進行統(tǒng)計

圖5-5數(shù)據(jù)展示頁面

從圖5-5中可以看出來國藥網(wǎng)中西藥品的生產(chǎn)廠家大多分布在環(huán)渤海地區(qū)、

長三角地區(qū)、珠三角地區(qū)、中部地區(qū)和成渝地區(qū),其中出現(xiàn)頻率最高的是北京

同仁堂科技發(fā)展股份有限公司制藥廠,其次是河南省宛西制藥股份有限公司。

生產(chǎn)廠家所分布的地區(qū)大多是資源充足,已經(jīng)形成了非常完善的從早期投

資立項到一步步管理的成熟體系。作為高端技術密集型藥產(chǎn)業(yè),對于人才和研

發(fā)能力要求較高,而上述五大地區(qū)對于人才的吸引以及本地較多的研究院所、

高校、實驗室資源形成體系網(wǎng)絡,構建了完善的生物醫(yī)藥創(chuàng)新體系和產(chǎn)業(yè)集群,

聚集了豐富的研發(fā)資源。生產(chǎn)廠家分布在此處有地理優(yōu)勢、資源優(yōu)勢、人才優(yōu)

勢,形成完好的良性循環(huán),讓企業(yè)發(fā)展的更好,成為行業(yè)中的佼佼者。

17

湖南商務職業(yè)技術學院畢業(yè)設計

5.2.3據(jù)產(chǎn)商出產(chǎn)藥品價格進行統(tǒng)計和分析

圖5-6數(shù)據(jù)展示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論