盧晨曦大作業(yè)報(bào)告_第1頁(yè)
盧晨曦大作業(yè)報(bào)告_第2頁(yè)
盧晨曦大作業(yè)報(bào)告_第3頁(yè)
盧晨曦大作業(yè)報(bào)告_第4頁(yè)
盧晨曦大作業(yè)報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

84357592021105140439盧晨曦大作業(yè)報(bào)告-第1章背景與挖掘目標(biāo)第2章分析方法與過程第3章結(jié)果分析1232021105140439盧晨曦大作業(yè)報(bào)告實(shí)驗(yàn)報(bào)告標(biāo)題基于線性回歸算法的醫(yī)院藥品銷售額數(shù)據(jù)分析姓名盧晨曦學(xué)號(hào)2021105140439班級(jí)21計(jì)應(yīng)4班教師孫利大數(shù)據(jù)項(xiàng)目分析應(yīng)用大作業(yè)報(bào)告2023年11月22日2021105140439盧晨曦大作業(yè)報(bào)告第1章背景與挖掘目標(biāo)1.1背景如今隨著居民健康意識(shí)的提高,醫(yī)院就醫(yī)的數(shù)據(jù)呈現(xiàn)出指數(shù)型增長(zhǎng)的事態(tài)現(xiàn)有的數(shù)據(jù)量級(jí)已經(jīng)遠(yuǎn)遠(yuǎn)超過了目前人力所能處理的范疇,比起人的經(jīng)驗(yàn)主義來做決策,只有實(shí)時(shí)的數(shù)據(jù)分析和反饋才能適應(yīng)更快的變化將大數(shù)據(jù)分析技術(shù)應(yīng)用到醫(yī)院運(yùn)營(yíng)管理當(dāng)中,能夠在海量的大數(shù)據(jù)中挖掘出最具價(jià)值的數(shù)據(jù)信息,并加以利用,保證醫(yī)療企業(yè)中的各項(xiàng)管理工作得以順利展開在一些大型的醫(yī)療企業(yè)當(dāng)中,這方面的數(shù)據(jù)分析已得到了充分應(yīng)用,管理人員結(jié)合大數(shù)據(jù)分析平臺(tái)提供的各項(xiàng)數(shù)據(jù),全方面了解企業(yè)經(jīng)營(yíng)管理情況,對(duì)原有的經(jīng)營(yíng)管理制度進(jìn)行優(yōu)化2021105140439盧晨曦大作業(yè)報(bào)告1.2數(shù)據(jù)挖掘目標(biāo)本文以北京市朝陽(yáng)醫(yī)院為案例,獲取2018年1月-7月的藥品銷售數(shù)據(jù),通過對(duì)所售藥品進(jìn)行歸類,數(shù)量統(tǒng)計(jì),對(duì)藥品的成分組成、藥品月均消費(fèi)次數(shù)、月均消費(fèi)金額、客單價(jià)、消費(fèi)趨勢(shì)進(jìn)行分析。對(duì)藥品銷量的影響因素進(jìn)行預(yù)測(cè);對(duì)藥品銷量前十的數(shù)據(jù)進(jìn)行分析,對(duì)醫(yī)院就診人群的年齡進(jìn)行分析,來分析患者的購(gòu)藥需求及深層分析致病原因,為患者,醫(yī)院,藥品生產(chǎn)商提出參考,提醒群眾購(gòu)置相關(guān)藥品,提前加以防范運(yùn)用一元線性回歸建模,以日為周期,元為單位,應(yīng)收金額為自變量,實(shí)收金額為因變量,探索兩者之間的關(guān)系并進(jìn)行預(yù)測(cè)。即給到一個(gè)自變量:應(yīng)收金額,通過一元線性回歸算法預(yù)測(cè)因變量:實(shí)收金額。該建??梢詼p少醫(yī)院工作量,做到醫(yī)院真正銷售額的估值2021105140439盧晨曦大作業(yè)報(bào)告第2章分析方法與過程2.1分析思路通過數(shù)據(jù)分析醫(yī)院藥品的銷售情況,分析醫(yī)院月均消費(fèi)次數(shù)、月均消費(fèi)金額、客單價(jià)、消費(fèi)趨勢(shì)進(jìn)行分析,對(duì)藥品銷量的影響因素進(jìn)行預(yù)測(cè)通過對(duì)藥品銷量前十的數(shù)據(jù)進(jìn)行分析,分析2018年流行病毒,提醒群眾購(gòu)置相關(guān)藥品,提前加以防范通過對(duì)藥品銷量前十的數(shù)據(jù)進(jìn)行分析,對(duì)醫(yī)院就診人群的年齡進(jìn)行預(yù)測(cè),增加年齡占比大的相關(guān)設(shè)備和藥品儲(chǔ)備通過線性回歸算法,給出應(yīng)收金額,預(yù)測(cè)實(shí)收金額2021105140439盧晨曦大作業(yè)報(bào)告2.2分析涉及指標(biāo)2021105140439盧晨曦大作業(yè)報(bào)告2.3數(shù)據(jù)來源采集數(shù)據(jù):本文數(shù)據(jù)來源于公開數(shù)據(jù)數(shù)據(jù)集來源:朝陽(yáng)醫(yī)院2018年銷售數(shù)據(jù).xlsx、藥品總銷量.xlsx,總共6578行7列數(shù)據(jù)2021105140439盧晨曦大作業(yè)報(bào)告2.4數(shù)據(jù)探索與預(yù)處理2.4.1數(shù)據(jù)預(yù)處理(1)加載數(shù)據(jù)分析常用庫(kù)2021105140439盧晨曦大作業(yè)報(bào)告其中"%matplotlibinline",用于繪制圖形時(shí)將圖形直接嵌入到Notebook中,而不是彈出一個(gè)新的窗口顯示圖形(2)讀取文件2021105140439盧晨曦大作業(yè)報(bào)告(3)查看數(shù)據(jù)總共有6578行7列數(shù)據(jù),但是"購(gòu)藥時(shí)間"和"社??ㄌ?hào)"這兩列只有6576個(gè)數(shù)據(jù),而"商品編碼"一直到"實(shí)收金額"這些列都是只有6577個(gè)數(shù)據(jù),這就意味著數(shù)據(jù)中存在缺失值,可以推斷出數(shù)據(jù)中存在一行缺失值,此外"購(gòu)藥時(shí)間"和"社??ㄌ?hào)"這兩列都各自存在一個(gè)缺失數(shù)據(jù),這些缺失數(shù)據(jù)在后面步驟中需要進(jìn)一步處理(4)選擇子集2021105140439盧晨曦大作業(yè)報(bào)告在我們獲取到的數(shù)據(jù)中,數(shù)據(jù)量十分龐大,但是不是每一列都是我們所需要分析的呢,不一定,那么這個(gè)時(shí)候就要選擇整個(gè)數(shù)據(jù)中合適的子集去進(jìn)行分析,這樣可以使后續(xù)的分析變得更加方便,在本次案例中,不需要選擇子集,所以可以先跳過這一步(5)列名重命名在數(shù)據(jù)的獲取中,有時(shí)候會(huì)有一些列名和數(shù)據(jù)不那么符合,或者容易產(chǎn)生歧義,一不小心就理解錯(cuò)了,很不利于分析,在這個(gè)時(shí)候,就需要給列名重命名,把購(gòu)藥時(shí)間改成銷售時(shí)間比較有利于理解,inplace=True,直接在原數(shù)據(jù)框內(nèi)改動(dòng)。代碼如下2021105140439盧晨曦大作業(yè)報(bào)告(6)缺失值處理任何一個(gè)得到的數(shù)據(jù)都很有可能會(huì)有缺失值,那么對(duì)于這些缺失值一定需要處理一下,不然會(huì)干擾后來的分析結(jié)果。刪除缺失值用dropna函數(shù)。"購(gòu)藥時(shí)間"和"社??ㄌ?hào)"這兩列只有6576個(gè)數(shù)據(jù)的消費(fèi)數(shù)據(jù)對(duì)于本次分析是無效的,所以清理一下缺失值。代碼如下2021105140439盧晨曦大作業(yè)報(bào)告(7)數(shù)據(jù)類型處理在導(dǎo)入的時(shí)候?yàn)榱朔乐褂行?shù)據(jù)導(dǎo)入不進(jìn)來,所以強(qiáng)制所有數(shù)據(jù)都是object類型,但在實(shí)際分析上這樣是不可能的,所以要把需要改變類型的數(shù)據(jù)類型改變了,通過觀察,我們發(fā)現(xiàn),銷售數(shù)量,應(yīng)收金額,實(shí)收金額,應(yīng)該改成float類型,銷售時(shí)間應(yīng)該清理后改成時(shí)間類型,對(duì)于改變成float類型的幾列,使用astype函數(shù),代碼如下2021105140439盧晨曦大作業(yè)報(bào)告而銷售時(shí)間那一列,則需要進(jìn)行處理后才能轉(zhuǎn)換為時(shí)間類型,把銷售時(shí)間的日期和星期分開,代碼如下2021105140439盧晨曦大作業(yè)報(bào)告切分好之后,把銷售時(shí)間變?yōu)闀r(shí)間類型,代碼如下(8)數(shù)據(jù)排序2021105140439盧晨曦大作業(yè)報(bào)告但是在這個(gè)時(shí)候時(shí)間是無序排列的,所以還是需要排序一下,排序之后索引會(huì)被打亂,所以也需要重置一下索引,對(duì)數(shù)據(jù)按照時(shí)間排序。代碼如下在排序結(jié)束之后簡(jiǎn)單看一下數(shù)據(jù)的整體情況2021105140439盧晨曦大作業(yè)報(bào)告(9)異常值處理2021105140439盧晨曦大作業(yè)報(bào)告從數(shù)據(jù)基本情況可以看出,銷售數(shù)量和應(yīng)收金額,實(shí)收金額,都有負(fù)的異常值,需要把這些值舍去,即選取銷售數(shù)量和應(yīng)收金額大于0的列,選取銷售數(shù)量和應(yīng)收金額大于0的列,代碼如下2021105140439盧晨曦大作業(yè)報(bào)告做完以上的幾個(gè)步驟之后,就基本上完成了數(shù)據(jù)清洗得到大部分內(nèi)容了,可以對(duì)數(shù)據(jù)進(jìn)行一個(gè)分析了2.4.2數(shù)據(jù)探索數(shù)據(jù)清洗完成后,需要利用數(shù)據(jù)構(gòu)建模型(就是計(jì)算相應(yīng)的業(yè)務(wù)指標(biāo)),并用可視化的方式呈現(xiàn)結(jié)果(1)月均消費(fèi)次數(shù)2021105140439盧晨曦大作業(yè)報(bào)告這里的月均消費(fèi)次數(shù)定義為總次數(shù)除以月份,其中假如一個(gè)人一天買了兩次藥,但只算做消費(fèi)了一次,即計(jì)算次數(shù)的時(shí)候需要進(jìn)行去重處理。首先對(duì)數(shù)據(jù)進(jìn)行一個(gè)去重,使用drop_duplicates函數(shù),去重后看一下共有多少條購(gòu)買數(shù)據(jù)(結(jié)果為5363)業(yè)務(wù)指標(biāo)一:月均消費(fèi)次數(shù)=總消費(fèi)次數(shù)/月份數(shù)。其中假如一個(gè)人一天買了兩次藥,但只算做消費(fèi)了一次,即計(jì)算次數(shù)的時(shí)候需要進(jìn)行去重處理2021105140439盧晨曦大作業(yè)報(bào)告再計(jì)算月份用銷售時(shí)間的最大值減去最小值即可得到天數(shù),再除以(地板除)三十就可以得到月份了得到月均消費(fèi)次數(shù)為:8932021105140439盧晨曦大作業(yè)報(bào)告(2)月均消費(fèi)金額業(yè)務(wù)指標(biāo)二:月均消費(fèi)金額=總消費(fèi)金額/月份數(shù)。同樣,月均消費(fèi)金額為總金額除以月份,在計(jì)算總金額的時(shí)候不能去重,需要都計(jì)算上金額得到月均消費(fèi)金額為:50909.6592021105140439盧晨曦大作業(yè)報(bào)告(3)客單價(jià)客單價(jià)就是總的消費(fèi)金額除以總的購(gòu)買次數(shù)(4)消費(fèi)趨勢(shì)關(guān)于消費(fèi)趨勢(shì),首先我們先來看一下每天的消費(fèi)總金額的變化,把數(shù)據(jù)按天聚合,繪圖。代碼如下2021105140439盧晨曦大作業(yè)報(bào)告可以看出每天消費(fèi)總額有高有低,其中出現(xiàn)幾個(gè)峰值消費(fèi)數(shù)據(jù)特別高。下面可視化一下這組數(shù)據(jù),可以更加直觀地進(jìn)行觀察2021105140439盧晨曦大作業(yè)報(bào)告通過這里,我們可以發(fā)現(xiàn),藥品銷量在周五達(dá)到高峰,周六、周日持續(xù)下降,到周二又小幅度的增加。周五出現(xiàn)銷量波峰的原因可能是上班族周五下午放假,而周六日部分醫(yī)生休息,從而集中選擇周五前往醫(yī)院就診。即每周的銷售趨勢(shì)是周日到周四銷售總額會(huì)有波動(dòng),但是幅度不大,周五周六的銷售總額相對(duì)較高2021105140439盧晨曦大作業(yè)報(bào)告針對(duì)銷量較低的日期,可結(jié)合掛號(hào)量、實(shí)際就診人數(shù)等因素結(jié)合分析,多方面分析導(dǎo)致銷量減少的實(shí)際原因。針對(duì)銷量較好的藥品,應(yīng)增加進(jìn)貨量,以最大程度滿足供需,對(duì)于銷量較差的藥品,應(yīng)減少進(jìn)貨量,進(jìn)行庫(kù)存優(yōu)化,達(dá)到資源最大化利用2021105140439盧晨曦大作業(yè)報(bào)告2021105140439盧晨曦大作業(yè)報(bào)告數(shù)據(jù)量較大,可視化內(nèi)容將采用銷量前十的藥品,且商品名稱較長(zhǎng),在可視化中采用縮寫形式。代碼如下可視化后可以非常清晰直觀地看出銷量前十藥品的數(shù)據(jù)綜上,2018年上半年至七月,銷量前十的藥品主要治療的疾病均為:高血壓、心絞痛。而這些疾病的高病發(fā)人群為年齡55歲以上的中老年群體,由此可推測(cè)出,2018年至七月于朝陽(yáng)醫(yī)院就診的人群多為中老年人。對(duì)于銷售量排在前幾位的藥品,醫(yī)院應(yīng)該時(shí)刻關(guān)注,保證藥品不會(huì)短缺而影響患者。這些信息將會(huì)有助于加強(qiáng)醫(yī)院對(duì)藥房的管理2.4.3模型構(gòu)建2021105140439盧晨曦大作業(yè)報(bào)告醫(yī)院人流量眾多,工作量巨大,現(xiàn)給到一些應(yīng)收金額的數(shù)據(jù),需要短時(shí)間快速得到對(duì)應(yīng)的實(shí)收金額,為了減少工作量,將運(yùn)用一元線性回歸來預(yù)測(cè)該值(1)確定線性回歸的類型2021105140439盧晨曦大作業(yè)報(bào)告可以看到,實(shí)收金額與應(yīng)收金額之間的相關(guān)系數(shù)為0.998990,為強(qiáng)相關(guān)。因此確定自變量為應(yīng)收金額,因變量為實(shí)收金額(2)建立回歸模型以及檢驗(yàn)線性回歸分析的擬合程度2021105140439盧晨曦大作業(yè)報(bào)告日期應(yīng)收金額實(shí)收金額2018-07-155548.55035.12018-07-163054.62828.12018-07-171524.21420.38可以看出模型的評(píng)分為0.99,很接近1,擬合程度很高(3)利用線性回歸進(jìn)行預(yù)測(cè)現(xiàn)給出北京朝陽(yáng)醫(yī)院2018年7月15日到7月17日實(shí)收金額與應(yīng)收金額的數(shù)據(jù)(詳見表3.2)我們來對(duì)比一下真實(shí)實(shí)收數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)的實(shí)收金額2021105140439盧晨曦大作業(yè)報(bào)告我們可以看到真實(shí)數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)實(shí)際相差不大2021105140439盧晨曦大作業(yè)報(bào)告第3章結(jié)果分析線性回歸算法對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)前,需要先進(jìn)行數(shù)據(jù)預(yù)處理,以檢驗(yàn)線性回歸對(duì)于要預(yù)測(cè)的數(shù)值是否合適,本文建立了一元線性回歸模型,并得到了較好的擬合效果,用該模型對(duì)2018年北京朝陽(yáng)運(yùn)用藥品銷售實(shí)收金額進(jìn)行試預(yù)測(cè),預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)比較吻合,預(yù)測(cè)誤差較小,預(yù)測(cè)值與真實(shí)值具有良好的關(guān)聯(lián)性。可以減少醫(yī)護(hù)人員的工作負(fù)擔(dān),加快工作效率通過研究醫(yī)院的藥品銷量,從而分析患者的致病原因,為此提出解決措施,可以從源頭有效的預(yù)防此類疾病的發(fā)生以及根據(jù)醫(yī)院的藥品銷售數(shù)量,對(duì)醫(yī)院藥品庫(kù)存提出參考,對(duì)于銷量較高的藥品應(yīng)加大庫(kù)存量,對(duì)于銷量較低的藥品適當(dāng)減少庫(kù)存,將醫(yī)院資

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論