版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第11章詞語庫--wordcloud庫參考學(xué)時(shí)3課時(shí)教學(xué)目標(biāo)區(qū)掌握生成詞云的基本操作:創(chuàng)建詞云對(duì)象、加載詞云文本、輸出詞云圖了解設(shè)置詞云圖大小的參數(shù)了解設(shè)置詞云圖字體大小參數(shù)掌握font_path、mask、background_color和stopwords參數(shù)的設(shè)置掌握讀取圖片文件的方法掌握csv文件的讀取操作掌握表格數(shù)據(jù)的詞云圖的生成方法等教學(xué)重難點(diǎn)教學(xué)重點(diǎn):1.掌握font_path、mask、background_color和stopwords參數(shù)的設(shè)置;2.掌握讀取圖片文件的方法;3.掌握csv文件的讀取操作教學(xué)難點(diǎn):掌握讀取圖片文件的方法;掌握csv文件的讀取操作;了解表格數(shù)據(jù)的詞云圖的生成方法等教學(xué)主要內(nèi)容本章知識(shí)框架如下:教學(xué)的過程及方法線上:生成詞云的基本操作:創(chuàng)建詞云對(duì)象、加載詞云文本、輸出詞云圖等由學(xué)生通過線上資源自主學(xué)習(xí)完成。線下:教師主要講授詞云參數(shù)的設(shè)置,重點(diǎn)講授藝術(shù)詞云圖的制作以及如何利用詞云圖來提升數(shù)據(jù)展示的能力。詞云圖:也叫”文字云”,是統(tǒng)計(jì)和設(shè)計(jì)的結(jié)合,是藝術(shù)和大數(shù)據(jù)的結(jié)合wordcloud庫:wordcloud庫是優(yōu)秀的詞云展示的第三方庫wordcloud庫安裝wordcloud庫:>\pipinstallwordcloud使用wordcloud庫創(chuàng)建詞云圖詞云生成三部曲:創(chuàng)建詞云對(duì)象w=wordcloud.WordCloud():代表一個(gè)文本對(duì)應(yīng)的詞云對(duì)象,根據(jù)文本中詞語出現(xiàn)的頻率等參數(shù)來繪制詞云加載詞云文本w.generate(“文本內(nèi)容”):1.文本必須以空格進(jìn)行分隔;2.文本以字符串形式傳入generate()方法中輸出詞云文件w.to_file(“圖像文件名”):包含圖片存儲(chǔ)位置和圖片名稱,例如:“D:\\圖片名稱.png”詞云參數(shù)設(shè)置文本變成詞云:#導(dǎo)入wordcloud庫1.生成一個(gè)詞云對(duì)象;2.將一段文本加載到詞云當(dāng)中;3.將詞云效果輸出到一個(gè)圖片文件詞云對(duì)象常用參數(shù)(1)mask參數(shù)-設(shè)置詞云圖形狀默認(rèn)詞云圖形狀是長(zhǎng)方形的,通過設(shè)置詞云對(duì)象的寬(width)和高(height)可以改變默認(rèn)的矩形大小,但如果要改變?cè)~云圖形狀,使得呈現(xiàn)的詞云效果圖更加具有藝術(shù)性,體現(xiàn)數(shù)據(jù)與藝術(shù)的結(jié)合,就要設(shè)置mask參數(shù)。設(shè)置參數(shù)"mask=picfilename"時(shí),需要事先將用于繪制詞云的圖片文件“picfilename”讀取進(jìn)來,并且“picfilename”是一個(gè)包含圖像文件名和存儲(chǔ)位置的字符串。Python讀取圖片文件的第三方庫很多,如opencv、PIL(pillow)、matplotlib.image子庫、scipy.misc子庫等等,都可以完成圖片文件的讀取操作。(2)background_color參數(shù)-設(shè)置詞云圖背景顏色詞云圖背景顏色默認(rèn)是黑色,可以通過參數(shù)"background_color=color"改變?cè)~語圖背景顏色,其中的color可以用顏色字符串或RGB元組來表示。(3)font_path參數(shù)-設(shè)置顯示字體通過設(shè)置參數(shù)"font_path=path"可以改變?cè)~云圖中出現(xiàn)字符的字體,path是一個(gè)包含字體文件名和存儲(chǔ)位置的字符串,它的默認(rèn)值為None,系統(tǒng)會(huì)選擇默認(rèn)的字體來顯示詞云。但如果要顯示中文詞云,則必須設(shè)置此參數(shù),否則顯示亂碼。對(duì)于中文詞云,還有一點(diǎn)要注意,因?yàn)間enerate方法只接收以空格分隔的字符串,因此,還需要利用jieba庫對(duì)中文文本進(jìn)行分詞處理。請(qǐng)看示例:(4)stopwords參數(shù)-排除不顯示的單詞在詞云效果圖的顯示當(dāng)中,有時(shí)可能希望屏蔽掉某些敏感單詞的顯示。此時(shí)可以通過設(shè)置參數(shù)stopwords來達(dá)成目的??梢允孪葘⒁懦膯卧~保存在一個(gè)集合類型里,然后將該集合賦給參數(shù)stopwords。csv文件的讀取操作使用python內(nèi)置的csv模塊讀取csv文件注意:1.再次讀取csv文件得不到所希望的結(jié)果;2.讀取的每一列數(shù)據(jù)都是字符型數(shù)據(jù)實(shí)際操作時(shí)請(qǐng)根據(jù)需要進(jìn)行類型的轉(zhuǎn)換使用pandas庫讀取CSV文件pandas是python中最好的處理數(shù)據(jù)和分析數(shù)據(jù)的第三方庫,它提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。簡(jiǎn)單地說,pandas提供了:①便于操作數(shù)據(jù)的數(shù)據(jù)類型(Series類型、DataFrame類型)②提供了很多的分析函數(shù)和分析工具,使得數(shù)據(jù)分析變得非常容易操作使用pandas的read_csv函數(shù)讀取csv文件通過DataFrame對(duì)象的屬性訪問DataFrame類型數(shù)據(jù)csv_data的值是一個(gè)帶表頭(列索引)的二維數(shù)據(jù)表,有行索引,行索引編號(hào)從0開始,它的類型是DataFrame類型。DataFrame是一個(gè)表格型的數(shù)據(jù)類型,它既有行索引,也有列索引。通過訪問DataFrame對(duì)象的相關(guān)屬性可以很方便地獲得每一列的數(shù)據(jù),其訪問格式為:<對(duì)象名>.屬性名這里的“屬性名”就是DataFrame類型數(shù)據(jù)的字段名,即列索引使用pandas的read_csv函數(shù)讀取csv文件通過DataFrame對(duì)象的列索引訪問DataFrame類型數(shù)據(jù)表格數(shù)據(jù)的詞云圖通過help命令可以了解generate_from_frequencies方法的語法格式。>>>help(wordcloud.WordCloud.generate_from_frequencies)統(tǒng)計(jì)《三國(guó)演義》前20名人物出場(chǎng)次數(shù):(1)讀取.csv文件中的數(shù)據(jù)(2)將讀取的每一列數(shù)據(jù)分別存儲(chǔ)在列表ls_names和ls_counts中(3)使用zip函數(shù),得到元素形如“(人物,出場(chǎng)次數(shù))”的zip對(duì)象,再轉(zhuǎn)換為列表ls_names_counts,注意“出場(chǎng)次數(shù)”要為數(shù)值類型數(shù)據(jù)(4)通過dict函數(shù)將“鍵值對(duì)”信息構(gòu)成的列表ls_names_counts轉(zhuǎn)換為字典dt_names_counts(5)把字典dt_names_counts作為參數(shù)傳遞給WordCloud對(duì)象的方法generate_from_frequencies生成詞云圖實(shí)例【例11-19】使用自定義的圖形作為詞云形狀圖繪制西游記(第一回)詞云圖。分析:由于要求使用自定義圖形作為詞云形狀圖來繪制詞云圖,因此,該實(shí)例繪制的是藝術(shù)詞云圖,故需設(shè)置mask參數(shù),同時(shí)要求提供背景顏色是白色的的自定義圖形,其次,由于繪制的是中文詞云圖,所以,還需要設(shè)置字體參數(shù)font_path來設(shè)置顯示字體。求解該問題的算法思路如下:(1)素材收集和準(zhǔn)備。準(zhǔn)備好“西游記第一回.txt”文本文件和用于繪制藝術(shù)詞云圖的自定義圖形文件“picture.jpg”。(2)利用open函數(shù)讀入文本文件“西游記第一回.txt”到字符串變量txt。(3)將中文字符串txt變成以空格分隔每個(gè)詞構(gòu)成的長(zhǎng)字符串。由于generate方法只接收以空格分隔的字符串,因此,還需要利用jieba庫首先對(duì)文本字符串txt進(jìn)行分詞處理,然后再將分詞的結(jié)果拼接成一個(gè)以空格分隔的長(zhǎng)字符串。(4)讀取用于繪制詞云的形狀圖片文件。讀取圖片文件的第三方庫很多,這里使用imageio庫的imread方法來讀取圖片文件。(5)創(chuàng)建詞云對(duì)象并設(shè)置相關(guān)參數(shù)。調(diào)用wordcloud庫的WordCloud類來創(chuàng)建詞云對(duì)象,并設(shè)置mask參數(shù)、background_color參數(shù)和font_path參數(shù)。(6)向詞云對(duì)象加載文本。生成詞云對(duì)象后,調(diào)用generate方法向詞云對(duì)象加載文本,但要求加載的文本必須是以空格分隔的字符
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度瓦工裝修綠色施工認(rèn)證合同3篇
- 二零二五版?;饭愤\(yùn)輸安全監(jiān)管服務(wù)合同2篇
- 二零二五版攪拌站輪胎專用備品備件供應(yīng)合同3篇
- 二零二五版智能辦公樓深度清潔及保養(yǎng)服務(wù)合同2篇
- 二零二五版辦公室文員工作環(huán)境優(yōu)化合同3篇
- 二零二五年度高端房地產(chǎn)項(xiàng)目個(gè)人連帶責(zé)任保證擔(dān)保合同2篇
- 二零二五年度互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)設(shè)施租賃合同3篇
- 2025年度中式烹飪技藝傳承與創(chuàng)新合同協(xié)議3篇
- 屋頂防水施工合同(2篇)
- 二零二五年救生員水上安全培訓(xùn)與勞動(dòng)合同3篇
- 廣東省惠州市2024-2025學(xué)年高一上學(xué)期期末考試英語試題(含答案)
- 醫(yī)院骨科2025年帶教計(jì)劃(2篇)
- 環(huán)境保護(hù)應(yīng)急管理制度執(zhí)行細(xì)則
- 2024-2030年中國(guó)通航飛行服務(wù)站(FSS)行業(yè)發(fā)展模式規(guī)劃分析報(bào)告
- 機(jī)械制造企業(yè)風(fēng)險(xiǎn)分級(jí)管控手冊(cè)
- 地系梁工程施工方案
- 藏文基礎(chǔ)-教你輕輕松松學(xué)藏語(西藏大學(xué))知到智慧樹章節(jié)答案
- 2024電子商務(wù)平臺(tái)用戶隱私保護(hù)協(xié)議3篇
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 英語 含答案
- 醫(yī)學(xué)教程 常見體表腫瘤與腫塊課件
- 內(nèi)分泌系統(tǒng)異常與虛勞病關(guān)系
評(píng)論
0/150
提交評(píng)論