




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、正版課件 內容可修改(中職)Python編程基礎與應用電子課件文本處理庫的應用文本處理庫的應用主講:Python編程基礎與應用配套課件+contents目錄jieba的安裝和簡介wordcloud的安裝和簡介案例:可視化中文詞云項目列表的定義和索引訪問01jieba的簡介“結巴”中文分詞支持繁體分詞,支持自定義詞典,還支持四種分詞模式:1)精確模式,試圖將句子最精確地切開,適合文本分析。2)全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義。3)搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。4)paddle模式,利用Paddle
2、Paddle深度學習框架,訓練序列標注(雙向GRU)網絡模型實現(xiàn)分詞。jieba的安裝它的安裝方法很簡單,可以直接使用PIP進行安裝:jieba庫的常用函數(shù)范例11-1 jieba庫的三種分詞模式應用jieba庫的三種分詞模式,對字符串“jieba是優(yōu)秀的中文分詞第三方庫”進行分詞。范例11-1 jieba庫的三種分詞模式它的結果 如下wordcloud的安裝和簡介02wordcloud的安裝和簡介wordcloud庫把詞云當作一個WordCloud對象。wordcloud.WordCloud()代表一個文本對應的詞云,可以根據文本中詞語出現(xiàn)的頻率等參數(shù)繪制詞云,繪制詞云的形狀、尺寸和顏色都可
3、以設定。它的安裝方法很簡單,可以直接使用PIP進行安裝wordcloud的常用方法在生成詞云時,它默認會以空格或者標點為分隔符對目標文本進行分詞處理,但是對于中文的文本,分詞處理需要我們提前處理好。一般的做法是先將中文文本進行分詞,然后以空格或者標點拼接,再調用wordcloud庫函數(shù)。范例11-2 wordcloud庫生成詞云應用wordcloud庫對以下字符串“Python JAVA C# C+ ASP.NET Python and WordCloud Python”生成一個詞云,并保存為圖片。范例11-2 wordcloud庫生成詞云它生成了一張圖片pywordcloud.png,效果如
4、圖。從圖中看到“Python”文字比較大,這是因為它的詞頻是字符串中最高的。生成指定形狀的詞云wordcloud也可以生成任何形狀的詞云,為了獲取形狀,需要提供一張相應形狀的圖像。圖像最好以PNG格式的圖片,其它無關的輪廓或者內容提前使用圖像處理軟件清除好。對于圖片的讀取可以使用imageio庫。imageio是一個Python庫,它提供了一個簡單的接口來讀取和寫入大量的圖像數(shù)據,包括動畫圖像、體積數(shù)據和科學格式。生成指定形狀的詞云wordcloud也可以生成任何形狀的詞云,為了獲取形狀,需要提供一張相應形狀的圖像。圖像最好以PNG格式的圖片,其它無關的輪廓或者內容提前使用圖像處理軟件清除好。
5、對于圖片的讀取可以使用imageio庫。imageio是一個Python庫,它提供了一個簡單的接口來讀取和寫入大量的圖像數(shù)據,包括動畫圖像、體積數(shù)據和科學格式。wordcloud的常用參數(shù)wordcloud處理中文時,還可以指定用到的中文字體。中文字體文件需要與代碼存放在同一個目錄下。如果不放在同一個目錄下,中文字體文件即要提供完整路徑。范例11-3wordcloud庫生成一個心形詞云應用wordcloud庫對素材中的“phthon.txt”文件中的文本生成一個詞云,并保存為圖片。這個文本也更換為其它的長文本。原始參照圖形如圖所示。范例11-3wordcloud庫生成一個心形詞云它的代碼如下范
6、例11-3wordcloud庫生成一個心形詞云它生成了一張圖片pywcloud.png,效果如圖9-5。它的寬是600,高是500,使用了圖片love.png的詞云形狀,背景顏色為白色white。單詞“Python”的詞頻最大,其次是“Tutorial”,從詞云中可以很直觀地看到那些是高頻單詞。案例:可視化中文詞云項目03案例描述扶貧是保障貧困戶的合法權益,取消貧困負擔。2020年11月23日,中國832個國家級貧困縣全部脫貧摘帽。我國脫貧攻堅取得的成就,見證了“中國力量”。消除絕對貧困是一項對中華民族、對人類都具有重大意義的偉業(yè)!小劉在一間大數(shù)據技術應用與開發(fā)公司工作,是一名Python程序
7、員。他的項目經理要求小劉對一篇關于中國的精準扶貧的文章進行中文分詞,并對高頻出現(xiàn)的一些詞語自動生成一個詞云圖片。這個詞云圖將會應用于一個大數(shù)據可視化大屏展示系統(tǒng)中。案例分析本項目可以用Python語言jieba結巴分詞庫對文章進行中文分詞,統(tǒng)計出高頻的詞語,然后結合wordcloud詞云庫,自動化地生成詞云。它的主要實施步驟為:1)使用IO函數(shù),對文本文件的讀取。2)應用jieba進行中文分詞。3)詞頻統(tǒng)計。4)對詞頻進行排序。5)對高頻詞進行輸出顯示,并對分詞使用空格拼接成字符串。6)讀取圖片,以生成詞云的形狀。7)設置wordcloud的參數(shù),自動生成詞云圖片并保存。安裝imread 需要注意的是本案例要提前安裝imread ,如下:pip install imread如果直接安裝不成功,可以從網站/gohlke/pythonlibs/下載whl文件進行安裝。代碼代碼代碼調試結果在代碼編輯區(qū)按“Shift+F10”或者右鍵直接選擇“運行”,即可調試,效果圖如下所示,這是一個點贊的大拇指效果圖。從效果圖中可以看到詞頻最高的詞語的字體最大。試一試1)請你找一些其它中文文章生成詞云,看一下它的效果是如何的。比如
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年錨桿鉆機項目投資可行性研究分析報告
- 母愛藏在枕頭里
- 七年級下冊語文議論文文體知識復習資料
- 礦業(yè)固廢處理工程項目可行性研究分析報告-甲級資質
- 中國鋼簾線用盤條行業(yè)市場調查研究及投資策略研究報告
- 不銹鋼羊眼項目投資可行性研究分析報告(2024-2030版)
- 簡易推廣合同范本
- 【語文】語文常備知識點總結
- 制作標牌合同范本
- 托管聘用合同范本
- 科技結合的小學種植園活動方案
- 2024小學語文課標培訓
- 2024年新人教版五年級數(shù)學下冊《教材練習2練習二附答案》教學課件
- 8.3 法治社會 課件高中政治統(tǒng)編版必修三政治與法治
- 小兒高熱驚厥課件
- 四則混合運算100道(專項訓練)-2024-2025學年五年級上冊數(shù)學人教版
- 智慧燃氣安全監(jiān)管平臺整體解決方案
- 《鴻門宴》優(yōu)教課件1
- 工廠用電安全培訓課件(課件)
- 風電項目施工進度計劃
- 急性呼吸窘迫綜合征-課件
評論
0/150
提交評論