商務(wù)智能與數(shù)據(jù)可視化分析基礎(chǔ) 課件 第6章_第1頁
商務(wù)智能與數(shù)據(jù)可視化分析基礎(chǔ) 課件 第6章_第2頁
商務(wù)智能與數(shù)據(jù)可視化分析基礎(chǔ) 課件 第6章_第3頁
商務(wù)智能與數(shù)據(jù)可視化分析基礎(chǔ) 課件 第6章_第4頁
商務(wù)智能與數(shù)據(jù)可視化分析基礎(chǔ) 課件 第6章_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第6章數(shù)據(jù)可視化之詞云圖篇商務(wù)智能與數(shù)據(jù)可視化分析基礎(chǔ)1本章內(nèi)容詞云圖與分詞算法詞云圖分詞算法中文分詞的難點(diǎn)Excel實(shí)現(xiàn)中文分詞Python實(shí)現(xiàn)中文分詞與第三方插件詞云圖與詞云看板的實(shí)現(xiàn)

Excel分詞結(jié)果展示Python分詞結(jié)果展示背景制作與看板美化201詞云圖與分詞算法詞云圖分詞算法中文分詞的難點(diǎn)數(shù)據(jù)可視化之詞云圖篇詞云就是對(duì)文本中出現(xiàn)頻率較高的關(guān)鍵詞予以視覺上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,以便讓瀏覽者一眼掃過就可以領(lǐng)略文本的重點(diǎn)。詞云圖又稱文字云,是信息可視化的表現(xiàn)形式之一。1.1詞云圖3

分詞就是將連續(xù)的“字序列”按照一定的規(guī)范重新組合成語義獨(dú)立的“詞序列”的過程?;谠~典分詞算法基于詞典的分詞算法也稱字符串匹配分詞算法,該算法是按照一定的策略將待匹配的字符串和一個(gè)已建立好的“充分大的”詞典中的詞進(jìn)行匹配,如果找到某個(gè)詞條,則說明匹配成功,識(shí)別了該詞。常見的基于詞典的分詞算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基于詞典的分詞算法是應(yīng)用最廣泛、分詞速度最快的。很長一段時(shí)間內(nèi),研究者都在使用基于字符串匹配的方法進(jìn)行優(yōu)化。例如,優(yōu)化最大長度設(shè)定、字符串存儲(chǔ)和查找方式,以及對(duì)詞表的組織結(jié)構(gòu)優(yōu)化,如采用Trie樹、哈希索引等。1.2分詞算法4基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法目前常用的算法是HMM、CRF、SVM、深度學(xué)習(xí)等算法。例如,自然語言處理工具包Stanford、Hanlp就是基于CRF算法來實(shí)現(xiàn)的。以CRF為例,其基本思路是對(duì)漢字進(jìn)行標(biāo)注訓(xùn)練,基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法不僅考慮詞語出現(xiàn)的頻率,還考慮上下文,具備較好的學(xué)習(xí)能力,因此其對(duì)歧義詞和未登錄詞的識(shí)別都具有良好的效果。

隨著深度學(xué)習(xí)的興起,出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的分詞器。例如,有人嘗試使用雙向LSTM+CRF實(shí)現(xiàn)分詞器功能,其本質(zhì)是序列標(biāo)注,所以具有通用性。當(dāng)命名、實(shí)體識(shí)別時(shí)都可以使用該模型,據(jù)報(bào)道其分詞器字符的準(zhǔn)確率可高達(dá)97.5%。1.3分詞算法5目前中文分詞難點(diǎn)主要如下:

(1)分詞標(biāo)準(zhǔn):比如人名,在哈工大的標(biāo)準(zhǔn)中姓和名是分開的,但在HanLP(HanLanguageProcessing

)中是合在一起的。這需要根據(jù)不同的需求制定不同的分詞標(biāo)準(zhǔn)。

(2)歧義:對(duì)同一個(gè)待切分的字符串存在多個(gè)分詞結(jié)果。歧義又分為組合型歧義、交集型歧義和真歧義三種類型。

組合型歧義:分詞是有不同的粒度的,某個(gè)詞條中的一部分也可以被切分為一個(gè)獨(dú)立的詞條。例如,“北京大學(xué)歷史悠久”,粗粒度的分詞就是“北京大學(xué)/歷史/悠久”,細(xì)粒度的分詞可能是“北京/大學(xué)/歷史/悠久”。

交集型歧義:在“杭州西湖南邊”中,“西湖”是湖名,是一個(gè)專有詞,“湖南”也是一個(gè)詞,它們共享了“湖”字。真歧義:本身的語法和語義都沒有問題,即使采用人工切分也會(huì)產(chǎn)生同樣的歧義,只有通過上下文的語義環(huán)境才能給出正確的切分結(jié)果。例如,句子“我知道你也認(rèn)識(shí)小王”,既可以切分成“我知道/你也認(rèn)識(shí)小王”,又可以切分成“我知道你/也認(rèn)識(shí)小王”。(3)新詞:即未被詞典收錄的詞,該問題的解決依賴于人們對(duì)分詞技術(shù)和漢語語言結(jié)構(gòu)的進(jìn)一步認(rèn)識(shí)。1.4中文分詞的難點(diǎn)6702Excel實(shí)現(xiàn)中文分詞下載插件安裝插件插件安裝確認(rèn)中文分詞數(shù)據(jù)規(guī)整詞頻統(tǒng)計(jì)數(shù)據(jù)可視化之詞云圖篇Excel本身沒有分詞的功能,可以借助插件——“方方格子”工具箱來實(shí)現(xiàn)中文分詞的功能。(1)下載插件首先登錄方方格子官網(wǎng),單擊“方方格子工具箱”按鈕,并選擇下載地址進(jìn)行安裝包的下載。2.1Excel實(shí)現(xiàn)中文分詞8(2)安裝插件將下載的安裝包解壓縮后,在確認(rèn)關(guān)閉Excel的情況下,以管理員權(quán)限運(yùn)行安裝向?qū)?,按照提示進(jìn)行安裝。2.2Excel實(shí)現(xiàn)中文分詞9(3)插件安裝確認(rèn)在完成安裝之后打開Excel,可以在菜單欄中找到“方方格子”選項(xiàng)卡。2.3Excel實(shí)現(xiàn)中文分詞10(4)方方格子安裝異常處理如果Excel的菜單欄中未出現(xiàn)“方方格子”選項(xiàng)卡,則選擇“文件”→“選項(xiàng)”命令,在彈出的“Excel選項(xiàng)”對(duì)話框中選擇“加載項(xiàng)”選項(xiàng),并設(shè)置啟用“FFCell”加載項(xiàng)。2.4Excel實(shí)現(xiàn)中文分詞11中文分詞在分詞之前,首先將配套素材文件中的內(nèi)容以文本的格式粘貼到A1單元格中。然后在“方方格子”選項(xiàng)卡的“高級(jí)文本處理”組中選擇“更多”→“分割更多”→“文本分詞”選項(xiàng)。

2.5Excel實(shí)現(xiàn)中文分詞12中文分詞在彈出的“文本分詞”對(duì)話框中,設(shè)置區(qū)域?yàn)椤癆1”,分隔符為“/”,并單擊“確定”按鈕,最后設(shè)置將結(jié)果存放在“$A$2”區(qū)域中。2.6Excel實(shí)現(xiàn)中文分詞13數(shù)據(jù)規(guī)整在分詞完成之后,A2單元格中存放著以“/”為分隔符的詞語集合,為之后看板制作的數(shù)據(jù)做準(zhǔn)備,需要將詞語集合轉(zhuǎn)換為一列。首先選中單元格A2,然后選擇“數(shù)據(jù)”→“分列”選項(xiàng),在彈出的對(duì)話框中勾選“分隔符號(hào)”單選按鈕,并單擊“下一步”按鈕。2.7Excel實(shí)現(xiàn)中文分詞14數(shù)據(jù)規(guī)整勾選“分隔符號(hào)”區(qū)域中的“其他”復(fù)選框,在輸入框中輸入“/”,單擊“完成”按鈕。2.8Excel實(shí)現(xiàn)中文分詞15數(shù)據(jù)規(guī)整在完成分列后,首先選中分列后的全部詞語所在的A2單元格進(jìn)行復(fù)制(按“Ctrl+C”組合鍵),然后在A3單元格處右擊,在彈出的快捷菜單中選擇“選擇性粘貼”命令,在彈出的“選擇性粘貼”對(duì)話框中,勾選“轉(zhuǎn)置”復(fù)選框并單擊“確定”按鈕。2.9Excel實(shí)現(xiàn)中文分詞16數(shù)據(jù)規(guī)整最后在“A1”單元格處鍵入“分詞結(jié)果”作為列名,并刪除A2行。2.10Excel實(shí)現(xiàn)中文分詞17詞頻統(tǒng)計(jì)在得到一列分詞結(jié)果后,可以在Excel中使用數(shù)據(jù)透視表進(jìn)行簡單的詞頻統(tǒng)計(jì),單擊“插入”→“數(shù)據(jù)透視表”按鈕,在彈出的“來自表格或區(qū)域的數(shù)據(jù)透視表”對(duì)話框中,選擇表格區(qū)域中的“A”列,在“選擇放置數(shù)據(jù)透視表的位置”區(qū)域中選中“現(xiàn)有工作表”單選按鈕,并設(shè)置“位置”為B1單元格。2.11Excel實(shí)現(xiàn)中文分詞18詞頻統(tǒng)計(jì)在數(shù)據(jù)透視表字段中,勾選“分詞結(jié)果”復(fù)選框并分別拖放至“行”框和“值”框,在“值”框中設(shè)置默認(rèn)“計(jì)數(shù)項(xiàng)”為分詞結(jié)果。2.12Excel實(shí)現(xiàn)中文分詞192003Python實(shí)現(xiàn)中文分詞與第三方插件精確模式全模式搜索引擎模式

文本分詞示例第三方插件數(shù)據(jù)可視化之詞云圖篇現(xiàn)成的分詞工具有不少,其中Python環(huán)境下的分詞工具也很多,包括盤古分詞、Yaha分詞、結(jié)巴分詞等,這些分詞工具都是開源軟件,在許可協(xié)議下可以免費(fèi)使用這些分詞工具。其中結(jié)巴分詞(jieba庫)是一款優(yōu)秀的Python第三方中文分詞庫,它支持三種分詞模式:精確模式、全模式和搜索引擎模式:1、精確模式:可以精確地切分語句,不存在冗余數(shù)據(jù),適合進(jìn)行文本分析。jieba.cut(text,cut_all=False)#精確模式2、全模式:將語句中所有可能是詞語的部分都切分出來,切分速度快,但是存在冗余數(shù)據(jù)。jieba.cut(text,cut_all=True)#全模式3、搜索引擎模式:jieba.cut_for_search(text)#搜索引擎模式3.1Python實(shí)現(xiàn)中文分詞21

文本分詞示例:1、分詞庫安裝

全自動(dòng)安裝:pipinstalljieba(window環(huán)境)pip3installjieba(Linux環(huán)境)2、導(dǎo)入相關(guān)工具庫importjieba,osimportpandasaspd3、導(dǎo)入文本與停用詞表root='D:\\1'#文件夾所在路徑stopwords=[line.strip()forlineinopen(os.path.join(root,'6.stopwords.txt'),encoding='UTF-8').readlines()]df_fcb=pd.DataFrame()

3.2Python實(shí)現(xiàn)中文分詞224、分詞過程3.3Python實(shí)現(xiàn)中文分詞235、完成分詞結(jié)果整理與導(dǎo)出

df_fcb.to_excel('6.6_jieba分詞后.xlsx',index=None)PowerBI本身并沒有詞云的可視化對(duì)象,可安裝第三方插件來實(shí)現(xiàn),既可通過“獲取更多視覺對(duì)象”,也可通過“從文件導(dǎo)入視覺對(duì)象”來安裝。其中通過“獲取更多視覺對(duì)象”安裝的步驟如下:

(1)從“可視化效果”窗格中選擇省略號(hào)。

(2)點(diǎn)擊“獲取更多視覺對(duì)象”,從而加載更多豐富的第三方插件來實(shí)現(xiàn)詞云圖。

(3)點(diǎn)擊WordCloud進(jìn)行加載,此時(shí)需要稍等一會(huì),PowerBI會(huì)自動(dòng)下載并安裝該插件。3.4安裝第三方插件24通過“從文件導(dǎo)入視覺對(duì)象”安裝第三方插件的步驟如下:(1)在“可視化”窗格中單擊“…”按鈕。(2)在彈出的快捷菜單中選擇“從文件導(dǎo)入視覺對(duì)象”命令。(3)在彈出的對(duì)話框中,選中待導(dǎo)入的文件,如WordCloud_ImportTest.pbiviz,并單擊“打開”按鈕。(4)視覺對(duì)象將在“可視化效果”窗格中顯示為新圖標(biāo)。3.5加載第三方插件252604詞云圖與詞云看板的實(shí)現(xiàn)Excel分詞結(jié)果展示背景制作與看板美化數(shù)據(jù)可視化之詞云圖篇標(biāo)題提升4.1Excel分詞結(jié)果展示27默認(rèn)詞云圖接著導(dǎo)入詞云的可視化對(duì)象,勾選“行標(biāo)簽”復(fù)選框并拖放至“類別”框,勾選“計(jì)數(shù)項(xiàng):分詞結(jié)果”復(fù)選框并拖放至“值”框,并將聚合類型設(shè)置為“求和”,即可得到默認(rèn)詞云圖。4.2Excel分詞結(jié)果展示28除了可以在Excel中統(tǒng)計(jì)詞頻,還可以使用DAX來建立一個(gè)“分詞計(jì)數(shù)”的度量值,要勾選未統(tǒng)計(jì)過的“分詞結(jié)果”復(fù)選框并拖放至“類別”框,勾選“分詞計(jì)數(shù)”復(fù)選框并拖放至“值”框,即可得到可視化結(jié)果。4.3使用度量值繪制詞云29雖然在Excel中通過方方盒子插件實(shí)現(xiàn)了“0代碼”中文分詞功能,但分詞過程中無法手動(dòng)去除如“的”“與”“基于”“研究”“二”“我們”這樣的無意義的助詞、代詞或名詞。依次選擇“主頁”→“輸入數(shù)據(jù)”選項(xiàng),輸入需要去除的如“的”“與”“基于”“研究”“二”“我們”這樣的無意義的助詞、代詞或名詞。4.4去除無意義的詞30勾選輸入的“列1”復(fù)選框并拖放至“不包含”框,可以發(fā)現(xiàn)之前的“的”“基于”等字樣消失了。4.5去除無意義的詞314.6Python分詞結(jié)果展示32PowerBI作為微軟產(chǎn)品,默認(rèn)版面尺寸和PowerPoint(PPT)是一致的,因此可借助PPT來快速完成背景的制作。以“上海大創(chuàng)項(xiàng)目名稱”看板為例,首先在網(wǎng)上收集幾張與主題強(qiáng)相關(guān)的圖片,然后將它們插入PPT。4.7背景制作與看板美化33選擇合適的背景,并插入后,依次設(shè)置標(biāo)題為“上海大創(chuàng)項(xiàng)目名稱”,設(shè)置目錄切片器,并插入在之前制作的詞云可視化對(duì)象4.8背景制作與看板美化34可以看到目錄切片器中的順序較混亂。由于PowerBI是英文的軟件,所以不支持中文升序或降序,目錄順序是按照首字母默認(rèn)進(jìn)行排序的。但是在PowerBIDesketop中編輯報(bào)表時(shí),可以選擇用一列來定義另一列的方式進(jìn)行排序。按月份排序的示例如下:4.9背景制作與看板美化35(1)首先選擇要排序的列,在本例中為目錄列。請(qǐng)注意,視覺對(duì)象中的目錄按字母順序排序。設(shè)置“列工具”選項(xiàng)卡為活動(dòng)狀態(tài),并單擊“按列排序”按鈕。4.10背景制作與看板美化36(2)然后選中作為排序依據(jù)的列。4.11背景制作與看板美化37注意選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論