酒類銷售數(shù)據(jù)分析研究_第1頁
酒類銷售數(shù)據(jù)分析研究_第2頁
酒類銷售數(shù)據(jù)分析研究_第3頁
酒類銷售數(shù)據(jù)分析研究_第4頁
酒類銷售數(shù)據(jù)分析研究_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

成果形式:實(shí)踐報(bào)告成果名稱:酒類銷售數(shù)據(jù)分析實(shí)踐活動(dòng)題目一、實(shí)踐目的1.實(shí)踐學(xué)習(xí)周目的(1)為即將到來的大四外出實(shí)習(xí)就業(yè)做準(zhǔn)備,提前培養(yǎng)小組協(xié)商的合作能力;(2)從不同的實(shí)用角度學(xué)習(xí)python,從數(shù)據(jù)分析入手了解python;(3)積累和同學(xué)一起完成項(xiàng)目的經(jīng)驗(yàn),為大四后真正的實(shí)習(xí)工作做準(zhǔn)備;(4)提前鍛煉小組成員間一起合作數(shù)據(jù)處理能力,提高對(duì)真實(shí)數(shù)據(jù)的處理能力,引發(fā)對(duì)數(shù)據(jù)處理的自身獨(dú)立思考。2.實(shí)踐學(xué)習(xí)課題目的(1)在電子商務(wù)月新日易的背景下,為了增強(qiáng)品牌的競(jìng)爭(zhēng)力,全面優(yōu)化品牌的產(chǎn)品路線,準(zhǔn)確掌握市場(chǎng)上相似競(jìng)爭(zhēng)對(duì)手的實(shí)際情況,積極尋找及開發(fā)新的品牌網(wǎng)上市場(chǎng);(2)某一酒類品牌希望通過電子商務(wù)的渠道通過部分真實(shí)產(chǎn)品銷售數(shù)據(jù)對(duì)現(xiàn)行市場(chǎng)中的幾大相似競(jìng)爭(zhēng)品牌進(jìn)行產(chǎn)品對(duì)比分析。二、實(shí)踐內(nèi)容1.數(shù)據(jù)分析基礎(chǔ)知識(shí)學(xué)習(xí)(1)Anaconda的介紹使用Anaconda是目前市場(chǎng)上專門定點(diǎn)于數(shù)據(jù)分析的Python的發(fā)行版本,包含Conda、Python等等180多個(gè)科學(xué)包及相關(guān)依賴項(xiàng)。Conda是一個(gè)獨(dú)立的開源的包、環(huán)境管理器,其可以用于同一個(gè)機(jī)器安裝上不同版本軟件包及依賴項(xiàng),而且能夠在不同環(huán)境之間自由切換。Packages管理:Packages是可以使用Conda安裝、更新、卸載等工具包的,而且它更加關(guān)注于與科學(xué)技術(shù)等相關(guān)的工具包。安裝Anaconda時(shí)就提前集成了類似Scikit-learn等數(shù)據(jù)分析中會(huì)時(shí)常會(huì)用的包。虛擬環(huán)境管理系統(tǒng):就是Conda中能建立多個(gè)虛擬環(huán)境,分別用于隔離不同項(xiàng)目各自需要的不同版本之間的工具包,來防止版本沖突。Anaconda是通過管理包括工具包、開發(fā)的環(huán)境與Python的版本,極強(qiáng)的簡(jiǎn)單化工作流程。不僅能方便地安裝、卸載、更新相關(guān)的工具包,而且還能再安裝時(shí)自動(dòng)的安裝其相對(duì)應(yīng)的依賴項(xiàng),與此同時(shí)可以使用不相同的虛擬環(huán)境來隔離有不同要求的數(shù)據(jù)項(xiàng)目。本次實(shí)踐周,我們?cè)诶蠋煹囊笙轮苯邮褂胊naconda中的一個(gè)Jupyter(Notebook)的編輯器。Jupyter(Notebook)(此前曾被稱為IPythonnotebook)是一個(gè)交互式的筆記本,可以支持和運(yùn)行40多種的編程語言。其本質(zhì)是一個(gè)Web的應(yīng)用程序,用于創(chuàng)建與共享關(guān)于文字化程序文檔,可以支持新實(shí)時(shí)代碼,可視化和數(shù)學(xué)方程、Markdown。它的用途包括:數(shù)據(jù)清理及轉(zhuǎn)換,機(jī)器學(xué)習(xí),統(tǒng)計(jì)建模與數(shù)值模擬等等。對(duì)于向我們這樣的初學(xué)者來說,Jupyter(Notebook)的另一個(gè)獨(dú)有特色是可任意允許把其代碼寫入其獨(dú)立的cell中,并可以單獨(dú)執(zhí)行。能這樣做就意味著用戶們可以在測(cè)試項(xiàng)目時(shí),單獨(dú)的測(cè)試特定的代碼塊,而無需再從頭開始執(zhí)行代碼了。雖說其他的IDE環(huán)境(例如RStudio)其實(shí)也提供這種功能,不過就個(gè)人的使用情況來看,Jupyter(Notebook)單元結(jié)構(gòu)無疑是設(shè)計(jì)最好的。Jupyter(Notebook)優(yōu)勢(shì)還多呈現(xiàn)在其的靈活性與交互性上面。其中它支持編程語言的數(shù)量一度高達(dá)40余種類,除卻最基礎(chǔ)的Python,Jupyter甚至還允許其用戶在上面運(yùn)行包括R語言與SQL等語言。因?yàn)樗菼DE平臺(tái)要更具有交互性,所以用戶也就更樂于在各種的教程中用它來顯示代碼。(2)python的基礎(chǔ)學(xué)習(xí)在實(shí)踐學(xué)習(xí)周的前期我們集中學(xué)習(xí)了一些關(guān)于python的基礎(chǔ)知識(shí)運(yùn)用,其中包括一些基礎(chǔ)語法、標(biāo)準(zhǔn)數(shù)據(jù)的類型、組合數(shù)據(jù)的類型、流程控制的語句、一些基本函數(shù)等,還包括一些新型的機(jī)器學(xué)習(xí)理論,里面也介紹了一些關(guān)于數(shù)據(jù)挖掘的基礎(chǔ)知識(shí)。在實(shí)踐學(xué)習(xí)周的后期我們還學(xué)習(xí)了一些特定的算法、架構(gòu)等等,例如k近鄰算法。以下將簡(jiǎn)要的概括介紹一下這些內(nèi)容。Python的思想,Python其實(shí)是被設(shè)計(jì)成是“符合大腦的思維習(xí)慣”的運(yùn)用,采用了極簡(jiǎn)主義設(shè)計(jì)理念,加上統(tǒng)一的、規(guī)范的交互模式。這就使得Python更加易于學(xué)習(xí)、理解與記憶。Python開發(fā)的哲學(xué):“用一種方法,最好是只用一種方法來完成一件事”。Python是完全面向?qū)ο蟮囊环N編程語言,函數(shù)、模塊、字符串、數(shù)字等等內(nèi)置類型都是其對(duì)象。它的類也支持多態(tài)、操作符的重載及多重繼承等等高級(jí)OOP概念,而且Python所特有的簡(jiǎn)便語法與類型使OOP相當(dāng)易于使用。不過OOP也只是Python的其中一個(gè)選擇罷了,類似C++,Python一面支持面向?qū)ο缶幊?,一面也支持面向過程編程的模式。Python是一種解釋型的語言,當(dāng)前Python的標(biāo)準(zhǔn)實(shí)現(xiàn)方式是,把源代碼的語句編譯為字節(jié)碼格式,隨后通過解釋器將字節(jié)碼給解釋出來。這Python就沒有將代碼編譯成底層二進(jìn)制的代碼,所以相較于對(duì)比于C與C++等編譯型語言來說,Python的執(zhí)行速度會(huì)稍微慢一些。不過Python解釋型語言特性也提高了開發(fā)者的開發(fā)速度,于此同時(shí)也使它擁有了解釋型語言易于編寫與調(diào)試的優(yōu)點(diǎn)。機(jī)器學(xué)習(xí)的本質(zhì)其實(shí)就是借助數(shù)學(xué)模型來理解繁雜的數(shù)據(jù)。而當(dāng)我們給模型裝上適應(yīng)觀測(cè)數(shù)據(jù)的可調(diào)節(jié)參數(shù),“學(xué)習(xí)”就正式開始了;此時(shí)程序被認(rèn)為是具有從數(shù)據(jù)中“學(xué)習(xí)”的能?的。所以模型?旦可以擬合一些舊觀測(cè)數(shù)據(jù),那么就可以預(yù)測(cè)并且解釋新觀測(cè)數(shù)據(jù)了。數(shù)據(jù)挖掘的?標(biāo)是要從歷史數(shù)據(jù)之中找尋特殊的模式,?這些所尋找的模式?般都不會(huì)十分清晰,也就是說,客戶所發(fā)出的信號(hào)有噪聲,這就使得數(shù)據(jù)挖掘過程會(huì)變得困難,所以從噪聲中分離出信號(hào),要從看似隨意的變化中識(shí)別出關(guān)鍵模式,一下子就變成數(shù)據(jù)挖掘的?項(xiàng)極重要的任務(wù)。數(shù)據(jù)挖掘是需要在特定情況的環(huán)境中所進(jìn)?的,而這種環(huán)境源于企業(yè),也決定于企業(yè),既數(shù)據(jù)挖掘是應(yīng)該嵌?整體客戶關(guān)系的管理策略中的.而通過策略構(gòu)架也可以清楚知道那些從數(shù)據(jù)挖掘中所獲取知識(shí)應(yīng)采取的動(dòng)作。kNN,?稱為是k近鄰算法,是數(shù)據(jù)挖掘技術(shù)之中原理最為簡(jiǎn)單的算法之?。kNN的核?功能是:解決有監(jiān)督分類問題,也可被?于回歸問題。作為一種惰性學(xué)習(xí)算法,kNN從不產(chǎn)?模型,所以算法的準(zhǔn)確性其實(shí)不具備可推?性,不過KNN能快速地、?效地解決建?在其特殊數(shù)據(jù)集上的預(yù)測(cè)分類型問題,具備十分?泛使?的情景。(3)實(shí)踐中醫(yī)院案例的指導(dǎo)學(xué)習(xí)案例的數(shù)據(jù)源是CDA指導(dǎo)老師所給的“某醫(yī)院2018年銷售的數(shù)據(jù).xlsx”,案例要求用python進(jìn)行的處理有:得出月均消費(fèi)的次數(shù)、客單價(jià)、月均消費(fèi)的金額、消費(fèi)的趨勢(shì)、各類藥品售出的數(shù)量的前10排名。

數(shù)據(jù)分析基本過程包括:數(shù)據(jù)的獲取、數(shù)據(jù)的清洗、模型的構(gòu)建、數(shù)據(jù)的可視化以及消費(fèi)的趨勢(shì)。由數(shù)據(jù)查看可得知:酒類數(shù)據(jù)共有6578行7列的數(shù)據(jù),但“購藥時(shí)間”與“社??ㄌ?hào)”這兩列卻只有6576個(gè)數(shù)據(jù),但從“商品編碼”到“實(shí)收金額”這幾列都只有6577個(gè)數(shù)據(jù),這也就是說,數(shù)據(jù)中存在一部分缺失值。知道存在缺失值后,這些缺失數(shù)據(jù)就需要在后序步驟等著做進(jìn)一步的處理了。在最初的數(shù)據(jù)清洗過程中,包括:子集的選擇、缺失數(shù)據(jù)的處理、列名的重命名、數(shù)據(jù)類型的轉(zhuǎn)換等等。子集的選擇,通常獲取的真實(shí)統(tǒng)計(jì)數(shù)據(jù)都十分龐大,所以我們要從中提取主要的、關(guān)鍵的數(shù)據(jù),這就需要從數(shù)據(jù)中選取恰當(dāng)?shù)淖蛹瘉砗雎詿o效的數(shù)據(jù)。但在本例中因?yàn)閿?shù)據(jù)列還比較少,所以暫時(shí)不需要選取子集。缺失數(shù)據(jù)的處理,我們常使用的方式是刪除缺失項(xiàng),但如果缺失項(xiàng)多的話,那就只能補(bǔ)全缺失數(shù)據(jù)繼續(xù)使用。在本次案例中缺失項(xiàng)的數(shù)量并不多,所以可以直接使用dropna函數(shù)來刪除缺失數(shù)據(jù)項(xiàng)。數(shù)據(jù)類型的轉(zhuǎn)換,在導(dǎo)入數(shù)據(jù)時(shí),為了防止導(dǎo)入的數(shù)據(jù)類型出錯(cuò)或干脆導(dǎo)入不進(jìn)來,我們會(huì)強(qiáng)制所有數(shù)據(jù)類型統(tǒng)一為object類型,但是數(shù)據(jù)分析過程中,“應(yīng)收金額”,“銷售數(shù)量”等數(shù)據(jù)為了后期的統(tǒng)計(jì)運(yùn)算,是需要使用浮點(diǎn)型數(shù)據(jù)類型的;而“銷售時(shí)間”則需要根據(jù)要求改成時(shí)間格式。本例中可以通過astype()函數(shù)將數(shù)據(jù)轉(zhuǎn)為浮點(diǎn)型數(shù)據(jù);而時(shí)間類型相對(duì)比較難轉(zhuǎn)化,例如“銷售時(shí)間”這數(shù)據(jù)項(xiàng)中存在“星期”這樣的數(shù)據(jù),但是在數(shù)據(jù)分析過程中不需要用到它,那么就可以把“銷售時(shí)間”列中的“日期”與“星期”通過split函數(shù)進(jìn)行分割,分割后的時(shí)間類型,返回Series數(shù)據(jù)類型。所需要的數(shù)據(jù)項(xiàng)清洗完成后,就需要利用這些數(shù)據(jù)來構(gòu)建模型,也就是根據(jù)具體的業(yè)務(wù)要求來計(jì)算相應(yīng)的業(yè)務(wù)指標(biāo),并直接的通過圖片或數(shù)字結(jié)果來展示結(jié)果。2.實(shí)踐學(xué)習(xí)中的數(shù)據(jù)范疇本數(shù)據(jù)以excel保存,來源:天貓商場(chǎng),類型:不同品牌白酒銷售數(shù)據(jù)。3.數(shù)據(jù)的分析要點(diǎn)(1)根據(jù)要求仔細(xì)觀察數(shù)據(jù),并挑選數(shù)據(jù)中的關(guān)鍵變量,并分析變量之間的對(duì)于數(shù)據(jù)分析的關(guān)系;(2)務(wù)必對(duì)缺失值進(jìn)行填充,進(jìn)行數(shù)據(jù)整合等預(yù)處理;(3)不要浪費(fèi)有用的數(shù)據(jù)項(xiàng),充分利用不同列的數(shù)據(jù)項(xiàng),從不同角度下手對(duì)不同品牌進(jìn)行對(duì)比分析,提出自己的問題,找到自己的數(shù)據(jù)分析答案。4.數(shù)據(jù)分析的流程(1)數(shù)據(jù)的需求分析(2)收集重要數(shù)據(jù)(3)數(shù)據(jù)的清洗與整理(4)根據(jù)要求對(duì)數(shù)據(jù)探索(5)要求對(duì)應(yīng)的數(shù)據(jù)結(jié)果展示三、實(shí)踐過程1.收集數(shù)據(jù)(1)數(shù)據(jù)的讀取importpandasaspdalcoh=pd.read_excel('酒類銷售數(shù)據(jù).xlsx',dtype='str')通過代碼讀取文件“酒類銷售數(shù)據(jù)”,并將數(shù)據(jù)保存為對(duì)象alcoh。(2)數(shù)據(jù)的查看alcoh.columns#查看數(shù)據(jù)列名alcoh.count()#查看數(shù)據(jù)缺失情況()#查看各列數(shù)據(jù)類型alcoh.head()#前5行數(shù)據(jù)查看2.數(shù)據(jù)的清洗(1)缺失值的處理alcoh.drop(columns=['商品ID','促銷活動(dòng)','廣告詞'],inplace=True)刪除對(duì)分析無用的數(shù)據(jù)項(xiàng)(列)商品名規(guī)格處理alcoh['酒精度']=alcoh.商品名稱.str.extract('(\d{2})度',expand=False)alcohol['香型']=alcoh.商品名稱.str.extract('(.{2}型)')alcoh.rename(columns={'價(jià)格(元)':'價(jià)格'},inplace=True)alcoh.rename(columns={'近30天銷量(件)':'月銷量'},inplace=True)根據(jù)數(shù)據(jù)分析要求,提取商品名稱中的酒精度數(shù)、香型為單獨(dú)一列數(shù)據(jù)類型的轉(zhuǎn)換alcoh['價(jià)格']=alcoh['價(jià)格'].astype('float')alcoh['月銷量']=alcoh['月銷量'].astype('float')alcoh['評(píng)論數(shù)']=alcoh['評(píng)論數(shù)'].astype('float')alcoh['酒精度']=alcoh['酒精度'].astype('float')alcoh.loc[:,'日期']=pd.to_datetime(alcoh.loc[:,'日期'],format='%Y-%m-%d',errors='coerce')alcohol.dtypes日期轉(zhuǎn)化為時(shí)間格式、價(jià)格、評(píng)論數(shù)、酒精度、銷量轉(zhuǎn)化為浮點(diǎn)型3.數(shù)據(jù)整理(1)數(shù)據(jù)排序alcoh=alcoh.sort_values(by='日期',ascending=True)#按日期進(jìn)行升序排序alcoh=alcoh.reset_index(drop=True)#重置索引(index)alcoh.head()數(shù)據(jù)分類pd.cut(alcoh.價(jià)格,3)#按自定義將酒類價(jià)格分為“中、低、高檔”alcoh.價(jià)格.min()alcoh.價(jià)格.max()alcoh['級(jí)別']=pd.cut(alcoh.價(jià)格,[9.899,624.672,1259.243,1883.917],False,labels=['低檔','中檔','高檔'])4.數(shù)據(jù)探索(1)銷售數(shù)量最多的前十品牌top_alcoh=re_alcoh.iloc[:10,:]#截取銷售數(shù)量最多的前十品牌print(top_alcoh)#用條形圖展示銷售數(shù)量前十的藥品top_alcoh.plot(kind='bar')plt.title('酒類銷售前十情況')plt.xlabel('酒類')plt.ylabel('銷售數(shù)量')plt.legend(loc=0)plt.savefig('alcoh.png')plt.show()(2)銷售金額最多的前十品牌Groupalcoh=alcoh#不同品牌酒類的月均銷售金額排序#聚合統(tǒng)計(jì)各種酒類的銷售數(shù)量alcoh=groupalcoh[['品牌','總銷售額']]bk=alcoh.groupby('品牌')[['總銷售額']]re_alcoh=bk.sum()#對(duì)酒類銷售數(shù)量按降序排序re_alcoh=re_alcoh.sort_values(by='總銷售額',ascending=False)re_alcoh=re_alcoh.head(10)re_alcoh.plot(kind='bar',color='b',grid=True,alpha=0.5,title="酒類品牌月均銷售金額前十")(3)評(píng)論數(shù)最多的品牌排序(最熱門品牌)Groupalcoh=alcoh#評(píng)論數(shù)最多的品牌排序――最熱門品牌#聚合統(tǒng)計(jì)各種酒類的評(píng)論數(shù)數(shù)量alcoh=groupalcoh[['品牌','評(píng)論數(shù)']]bk=alcoh.groupby('品牌')[['評(píng)論數(shù)']]re_alcoh=bk.sum()#對(duì)酒類評(píng)論數(shù)數(shù)量按降序排序re_alcoh=re_alcohol.sort_values(by='評(píng)論數(shù)',ascending=False)re_alcoh=re_alcohol.head(10)re_alcoh.plot(kind='bar',color='g',grid=True,alpha=0.5,title="最熱門的酒類前十")(4)低中高檔品牌中賣的最好的前十品牌alcoh['級(jí)別']=pd.cut(alcoh.價(jià)格,[9.899,624,2580,11512.8],False,labels=['低檔','中檔','高檔'])typeliq=alcoh#中低高檔品牌中買的最好的前10個(gè)品牌light=typeliq[typeliq.級(jí)別=='低檔']mid=typeliq[typeliq.級(jí)別=='中檔']height=typeliq[typeliq.級(jí)別=='高檔']light=light.groupby('品牌')[['近30天銷量']].sum().sort_values(by='近30天銷量',ascending=False).head(10)mid=mid.groupby('品牌')[['近30天銷量']].sum().sort_values(by='近30天銷量',ascending=False).head(10)height=height.groupby('品牌')[['近30天銷量']].sum().sort_values(by='近30天銷量',ascending=False).head(10)light.plot(kind='barh',color='g',grid=True,alpha=0.5,title="低檔酒銷量排行")mid.plot(kind='barh',color='b',grid=True,alpha=0.5,title="中檔酒銷量排行")height.plot(kind='barh',color='r',grid=True,alpha=0.5,title="高檔酒銷量排行")(4)低中高檔品牌的銷售情況importmatplotlib.pyplotasplt#描繪品牌按檔次不同銷售的情況plt.rcParams['font.sans-serif']=['SimHei']#用來正常顯示中文標(biāo)簽plt.axis('equal')#保證長(zhǎng)寬相等labels=['低檔','中檔','高檔']sizes=[7672,513,157]explode=(0.1,0.1,0.1)colors=['r','g','b']#plt.legend(loc="upperright",bbox_to_anchor=(1.1,1.05),borderaxespad=0.3)plt.pie(sizes,explode=explode,labels=labels,autopct='%1.1f%%',colors=colors,shadow=True)plt.title("餅圖-不同檔次的銷量比")plt.show()4.數(shù)據(jù)展示數(shù)據(jù)分析酒類市場(chǎng)=1\*GB3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論