能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第1頁(yè)
能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第2頁(yè)
能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第3頁(yè)
能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第4頁(yè)
能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例09能源政策文本分析EnergyPolicyText

Analysis9.1.1案例描述能源政策對(duì)于政府、企業(yè)等均具有重要影響,對(duì)于政策的把握有助于進(jìn)行科學(xué)決策,文本大數(shù)據(jù)處理與分析技術(shù)為能源政策的研究提供了一種新的工具。本案例通過(guò)爬蟲程序爬取能源網(wǎng)站能源要聞頁(yè)面的文本,繪制詞云圖,根據(jù)詞云圖中關(guān)鍵詞的出現(xiàn)頻率分析能源政策的關(guān)注重點(diǎn)。本案例主要介紹能源政策文本數(shù)據(jù)采集和分析技術(shù)的實(shí)現(xiàn)方法,包括新聞文本的爬取、文本處理和存儲(chǔ)、詞云圖生成與結(jié)果分析等。9.1.2能源政策文本數(shù)據(jù)采集案例文本數(shù)據(jù)可從國(guó)家能源局網(wǎng)站的能源要聞頁(yè)面采集,該頁(yè)面包含大量關(guān)于能源政策和發(fā)展動(dòng)態(tài)的信息,能夠反映我國(guó)能源政策的導(dǎo)向與實(shí)踐效果。本節(jié)僅采集2023年的文本數(shù)據(jù)進(jìn)行案例展示,其他時(shí)間的數(shù)據(jù)可采用相同方法獲取并分析。在編寫Python爬蟲前,需明確目標(biāo)頁(yè)面的URL,然后利用urllib+正則表達(dá)式爬取能源要聞的內(nèi)容,并解析網(wǎng)頁(yè)獲取標(biāo)題和正文。最終,將爬取的文本數(shù)據(jù)保存至TXT文件,以便后續(xù)分析和處理。9.1.2能源政策文本數(shù)據(jù)采集Python爬蟲程序包含三個(gè)部分的內(nèi)容。發(fā)送請(qǐng)求能源政策文本數(shù)據(jù)采集使用urllib庫(kù),主要使用的是urllib.request,使用前需要提前導(dǎo)入這個(gè)庫(kù)。使用response對(duì)象接收打開(kāi)的頁(yè)面,之后用定義過(guò)的空字符串讀取response中的HTML頁(yè)面代碼,注意使用“UTF-8”形式。為了避免異常情況發(fā)生,在訪問(wèn)頁(yè)面時(shí),可以增加try、except方法進(jìn)行異常處理。發(fā)送請(qǐng)求的代碼如下。9.1.2能源政策文本數(shù)據(jù)采集爬取能源要聞標(biāo)題和正文爬取能源要聞標(biāo)題和正文需要調(diào)用Python中的re庫(kù),可以使用import提前導(dǎo)入這個(gè)庫(kù)。使用pile()結(jié)合findall()函數(shù)解析response,爬取能源要聞標(biāo)題和正文并輸出,其中正文爬取了兩次,分別用于縮小范圍和爬取正文內(nèi)容。編寫代碼之前需要提前找好網(wǎng)址中標(biāo)題和正文內(nèi)容所在的位置。首先在能源要聞頁(yè)面使用F12鍵,打開(kāi)頁(yè)面調(diào)試窗口。在頁(yè)面調(diào)試窗口上的導(dǎo)航欄中找到元素,單擊框選的位置,然后分別單擊標(biāo)題和正文,可以發(fā)現(xiàn)標(biāo)題在“<divclass=”titles“></div>”元素之間,正文在“<p></p>”元素之間,如下圖所示。9.1.2能源政策文本數(shù)據(jù)采集爬取能源要聞標(biāo)題和正文的代碼如下。9.1.2能源政策文本數(shù)據(jù)采集主函數(shù)主函數(shù)部分需要調(diào)用Python的BeautifulSoup庫(kù),可以使用import提前導(dǎo)入這個(gè)庫(kù)。程序中通過(guò)指定能源要聞頁(yè)面的URL地址,進(jìn)行遍歷爬取。此處僅爬取2023年的能源要聞,共需要爬取6個(gè)頁(yè)面,因此需要將所有頁(yè)面網(wǎng)址存入urls_news列表。利用同樣的方法可以獲取標(biāo)題鏈接(在特征為“class=box01”的div標(biāo)簽中的li標(biāo)簽中),其中urls即鏈接所在列表。最后使用for循環(huán)遍歷列表中的所有鏈接,調(diào)用上文中的get_page()和get_parser()兩個(gè)函數(shù)爬取標(biāo)題和正文。9.1.3能源政策詞云圖將上文爬取的能源要聞標(biāo)題和正文的文本內(nèi)容進(jìn)行分詞,并繪制詞云圖。Python程序代碼編寫共分為以下三個(gè)階段。準(zhǔn)備階段需要提前安裝matplotlib庫(kù)、jieba庫(kù)和WordCloud庫(kù)。因?yàn)閃ordCloud庫(kù)默認(rèn)不支持中文,所以這里需要下載好中文字庫(kù),本文使用的是“思源屏顯臻宋.ttf”。同時(shí),由于語(yǔ)氣詞、虛詞、標(biāo)點(diǎn)符號(hào)等在文本中出現(xiàn)頻率較高,但并沒(méi)有實(shí)際意義,而且影響詞頻分析結(jié)果,因此需要添加停用詞,以排除掉這些詞語(yǔ),可以使用停用詞詞庫(kù)文件或手動(dòng)添加停用詞(本書使用的是“cn_stopwords.txt”詞庫(kù)文件,文件中可以繼續(xù)添加停用詞)的方法。最后需要準(zhǔn)備詞云圖呈現(xiàn)形狀的圖片,一般為白底黑色填充的圖片樣式。讀取文本并分詞將上文中爬取的能源要聞標(biāo)題和正文文本保存進(jìn)“word_cloud_text.txt”文件中,通過(guò)read()函數(shù)讀取文件內(nèi)容。利用jieba庫(kù)進(jìn)行分詞形成列表(使用導(dǎo)入的jieba庫(kù)),將列表里面的詞用空格分開(kāi),并拼接成長(zhǎng)字符串,最后導(dǎo)入停用詞。讀取文本并分分詞的代碼如下。9.1.3能源政策詞云圖9.1.3能源政策詞云圖生成詞云圖并保存先導(dǎo)入下載好的中文字庫(kù)和形狀圖片,再使用np.array()函數(shù)處理圖片(此處需要導(dǎo)入numpy庫(kù)),使用WordCloud()函數(shù)設(shè)定好詞云圖的字體、背景色、背景寬和高、最大最小字號(hào)等(需要提前導(dǎo)入WordCloud庫(kù)),生成詞云圖并保存,最終以圖片形式顯示。生成詞云圖并保存的代碼如下。9.1.3能源政策詞云圖詞云圖如下圖所示。由上面的詞云圖能夠看出,“項(xiàng)目”“發(fā)展”“企業(yè)”“技術(shù)”“創(chuàng)新”“新能源”“綠色”“低碳”“電力”“儲(chǔ)能”是出現(xiàn)較多的詞,說(shuō)明我國(guó)能源政策仍以項(xiàng)目驅(qū)動(dòng)發(fā)展,技術(shù)創(chuàng)新與綠色低碳是重要導(dǎo)向,能源系統(tǒng)中新能源發(fā)展、儲(chǔ)能等是當(dāng)前的重點(diǎn)領(lǐng)域。本節(jié)僅根據(jù)2023年的能源要聞數(shù)據(jù)制作了一個(gè)詞云圖,讀者可以根據(jù)不同年份的能源要聞數(shù)據(jù)制作不同的詞云圖,觀察政策和能源行業(yè)的演化特征,也可以進(jìn)一步使用主題識(shí)別技術(shù),研究能源政策的主題演化。國(guó)際LNG貿(mào)易網(wǎng)絡(luò)分析AnalysisOfinternationalLNGTradeNetwork9.2.1案例描述本案例基于圖神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)全球各國(guó)LNG貿(mào)易網(wǎng)絡(luò)的特點(diǎn)進(jìn)行研究,使用節(jié)點(diǎn)中心性方法研究各國(guó)在LNG貿(mào)易網(wǎng)絡(luò)中的地位和影響力,通過(guò)分析歷年的節(jié)點(diǎn)中心性探究LNG貿(mào)易格局的演變趨勢(shì),并且使用圖嵌入技術(shù)實(shí)現(xiàn)節(jié)點(diǎn)的向量化,將LNG貿(mào)易網(wǎng)絡(luò)中的各國(guó)進(jìn)行向量化表示,這種向量化表示可以為后續(xù)的研究提供幫助。本案例的理論基礎(chǔ)參考6.6節(jié)相關(guān)內(nèi)容,案例數(shù)據(jù)來(lái)源于《BP世界能源統(tǒng)計(jì)年鑒》。9.2.2數(shù)據(jù)預(yù)處理與圖的生成數(shù)據(jù)預(yù)處理從《BP世界能源統(tǒng)計(jì)年鑒》“Gas-TrademovtsLNG”表單中提取數(shù)據(jù),單獨(dú)創(chuàng)建“relation”表單來(lái)保存案例中的“節(jié)點(diǎn)”和“邊”,“relation”表單部分內(nèi)容如下圖所示。9.2.2數(shù)據(jù)預(yù)處理與圖的生成圖的生成首先使用openpyxl庫(kù)導(dǎo)入數(shù)據(jù),使用networkx庫(kù)來(lái)生成圖,將“relation”表單中的貿(mào)易關(guān)系信息作為“邊”導(dǎo)入,無(wú)數(shù)據(jù)的則認(rèn)為不存在貿(mào)易關(guān)系,表單中對(duì)應(yīng)的國(guó)家或地區(qū)設(shè)置為“節(jié)點(diǎn)”,然后生成圖。圖生成的代碼如下。9.2.2數(shù)據(jù)預(yù)處理與圖的生成2013年各國(guó)的LNG貿(mào)易網(wǎng)絡(luò)可以繪制為一個(gè)圖,如下所示。9.2.3LNG貿(mào)易網(wǎng)絡(luò)節(jié)點(diǎn)中心性使用networkx庫(kù)可以直接生成LNG貿(mào)易網(wǎng)絡(luò)中各節(jié)點(diǎn)的點(diǎn)度中心性、中介中心性、接近中心性、特征向量中心性,并將中心性結(jié)果保存為Excel文件,代碼如下。9.2.3LNG貿(mào)易網(wǎng)絡(luò)節(jié)點(diǎn)中心性利用同樣的方法可以輸出2022年各國(guó)的LNG貿(mào)易網(wǎng)絡(luò)中各節(jié)點(diǎn)的中心性,從而可以從時(shí)間維度對(duì)比分析中心性指標(biāo)的變化。下圖展示了2013年和2022年LNG貿(mào)易網(wǎng)絡(luò)中各國(guó)的點(diǎn)度中心性對(duì)比結(jié)果。觀察點(diǎn)度中心性對(duì)比結(jié)果可以得出如下結(jié)論:2013年全球LNG貿(mào)易的重心主要在卡塔爾、日本、韓國(guó)等地,2022年LNG貿(mào)易的重心發(fā)生了變化,美國(guó)的中心性明顯提升,主要源于美國(guó)LNG出口的快速增長(zhǎng)。9.2.4LNG貿(mào)易網(wǎng)絡(luò)的圖嵌入圖嵌入是指將圖節(jié)點(diǎn)進(jìn)行向量化表示,獲取更多的特征嵌入編碼,這可以幫助以后的任務(wù)獲得更好的結(jié)果。運(yùn)用圖嵌入方法可以將上述的LNG貿(mào)易網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行向量化表示。本節(jié)以DeepWalk方法為例,對(duì)圖嵌入方法的使用進(jìn)行介紹。首先需要實(shí)現(xiàn)deep_walk()函數(shù),輸入?yún)?shù)為圖的節(jié)點(diǎn)集合和最大游走步數(shù)。先通過(guò)G.nodes()函數(shù)獲取圖中節(jié)點(diǎn)集合,通過(guò)G.neighbors(node)函數(shù)獲取當(dāng)前節(jié)點(diǎn)的鄰居節(jié)點(diǎn),再通過(guò)random方法隨機(jī)選取鄰居節(jié)點(diǎn),持續(xù)到規(guī)定的最大游走步數(shù),即完成一個(gè)節(jié)點(diǎn)的采樣。deep_walk()函數(shù)代碼如下。9.2.4LNG貿(mào)易網(wǎng)絡(luò)的圖嵌入調(diào)用Gensim庫(kù)的Word2Vec方法,對(duì)上述隨機(jī)游走獲得的訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練,獲取詞嵌入結(jié)果,此處為了便于圖形化展示,將vector_size設(shè)置為2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論