![能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第1頁(yè)](http://file4.renrendoc.com/view14/M0B/0E/39/wKhkGWeQrkeANmq_AAEpMfU9idI488.jpg)
![能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第2頁(yè)](http://file4.renrendoc.com/view14/M0B/0E/39/wKhkGWeQrkeANmq_AAEpMfU9idI4882.jpg)
![能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第3頁(yè)](http://file4.renrendoc.com/view14/M0B/0E/39/wKhkGWeQrkeANmq_AAEpMfU9idI4883.jpg)
![能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第4頁(yè)](http://file4.renrendoc.com/view14/M0B/0E/39/wKhkGWeQrkeANmq_AAEpMfU9idI4884.jpg)
![能源大數(shù)據(jù)分析理論與實(shí)踐 課件 9.能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例_第5頁(yè)](http://file4.renrendoc.com/view14/M0B/0E/39/wKhkGWeQrkeANmq_AAEpMfU9idI4885.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
能源經(jīng)濟(jì)與管理大數(shù)據(jù)處理與分析案例09能源政策文本分析EnergyPolicyText
Analysis9.1.1案例描述能源政策對(duì)于政府、企業(yè)等均具有重要影響,對(duì)于政策的把握有助于進(jìn)行科學(xué)決策,文本大數(shù)據(jù)處理與分析技術(shù)為能源政策的研究提供了一種新的工具。本案例通過(guò)爬蟲程序爬取能源網(wǎng)站能源要聞頁(yè)面的文本,繪制詞云圖,根據(jù)詞云圖中關(guān)鍵詞的出現(xiàn)頻率分析能源政策的關(guān)注重點(diǎn)。本案例主要介紹能源政策文本數(shù)據(jù)采集和分析技術(shù)的實(shí)現(xiàn)方法,包括新聞文本的爬取、文本處理和存儲(chǔ)、詞云圖生成與結(jié)果分析等。9.1.2能源政策文本數(shù)據(jù)采集案例文本數(shù)據(jù)可從國(guó)家能源局網(wǎng)站的能源要聞頁(yè)面采集,該頁(yè)面包含大量關(guān)于能源政策和發(fā)展動(dòng)態(tài)的信息,能夠反映我國(guó)能源政策的導(dǎo)向與實(shí)踐效果。本節(jié)僅采集2023年的文本數(shù)據(jù)進(jìn)行案例展示,其他時(shí)間的數(shù)據(jù)可采用相同方法獲取并分析。在編寫Python爬蟲前,需明確目標(biāo)頁(yè)面的URL,然后利用urllib+正則表達(dá)式爬取能源要聞的內(nèi)容,并解析網(wǎng)頁(yè)獲取標(biāo)題和正文。最終,將爬取的文本數(shù)據(jù)保存至TXT文件,以便后續(xù)分析和處理。9.1.2能源政策文本數(shù)據(jù)采集Python爬蟲程序包含三個(gè)部分的內(nèi)容。發(fā)送請(qǐng)求能源政策文本數(shù)據(jù)采集使用urllib庫(kù),主要使用的是urllib.request,使用前需要提前導(dǎo)入這個(gè)庫(kù)。使用response對(duì)象接收打開(kāi)的頁(yè)面,之后用定義過(guò)的空字符串讀取response中的HTML頁(yè)面代碼,注意使用“UTF-8”形式。為了避免異常情況發(fā)生,在訪問(wèn)頁(yè)面時(shí),可以增加try、except方法進(jìn)行異常處理。發(fā)送請(qǐng)求的代碼如下。9.1.2能源政策文本數(shù)據(jù)采集爬取能源要聞標(biāo)題和正文爬取能源要聞標(biāo)題和正文需要調(diào)用Python中的re庫(kù),可以使用import提前導(dǎo)入這個(gè)庫(kù)。使用pile()結(jié)合findall()函數(shù)解析response,爬取能源要聞標(biāo)題和正文并輸出,其中正文爬取了兩次,分別用于縮小范圍和爬取正文內(nèi)容。編寫代碼之前需要提前找好網(wǎng)址中標(biāo)題和正文內(nèi)容所在的位置。首先在能源要聞頁(yè)面使用F12鍵,打開(kāi)頁(yè)面調(diào)試窗口。在頁(yè)面調(diào)試窗口上的導(dǎo)航欄中找到元素,單擊框選的位置,然后分別單擊標(biāo)題和正文,可以發(fā)現(xiàn)標(biāo)題在“<divclass=”titles“></div>”元素之間,正文在“<p></p>”元素之間,如下圖所示。9.1.2能源政策文本數(shù)據(jù)采集爬取能源要聞標(biāo)題和正文的代碼如下。9.1.2能源政策文本數(shù)據(jù)采集主函數(shù)主函數(shù)部分需要調(diào)用Python的BeautifulSoup庫(kù),可以使用import提前導(dǎo)入這個(gè)庫(kù)。程序中通過(guò)指定能源要聞頁(yè)面的URL地址,進(jìn)行遍歷爬取。此處僅爬取2023年的能源要聞,共需要爬取6個(gè)頁(yè)面,因此需要將所有頁(yè)面網(wǎng)址存入urls_news列表。利用同樣的方法可以獲取標(biāo)題鏈接(在特征為“class=box01”的div標(biāo)簽中的li標(biāo)簽中),其中urls即鏈接所在列表。最后使用for循環(huán)遍歷列表中的所有鏈接,調(diào)用上文中的get_page()和get_parser()兩個(gè)函數(shù)爬取標(biāo)題和正文。9.1.3能源政策詞云圖將上文爬取的能源要聞標(biāo)題和正文的文本內(nèi)容進(jìn)行分詞,并繪制詞云圖。Python程序代碼編寫共分為以下三個(gè)階段。準(zhǔn)備階段需要提前安裝matplotlib庫(kù)、jieba庫(kù)和WordCloud庫(kù)。因?yàn)閃ordCloud庫(kù)默認(rèn)不支持中文,所以這里需要下載好中文字庫(kù),本文使用的是“思源屏顯臻宋.ttf”。同時(shí),由于語(yǔ)氣詞、虛詞、標(biāo)點(diǎn)符號(hào)等在文本中出現(xiàn)頻率較高,但并沒(méi)有實(shí)際意義,而且影響詞頻分析結(jié)果,因此需要添加停用詞,以排除掉這些詞語(yǔ),可以使用停用詞詞庫(kù)文件或手動(dòng)添加停用詞(本書使用的是“cn_stopwords.txt”詞庫(kù)文件,文件中可以繼續(xù)添加停用詞)的方法。最后需要準(zhǔn)備詞云圖呈現(xiàn)形狀的圖片,一般為白底黑色填充的圖片樣式。讀取文本并分詞將上文中爬取的能源要聞標(biāo)題和正文文本保存進(jìn)“word_cloud_text.txt”文件中,通過(guò)read()函數(shù)讀取文件內(nèi)容。利用jieba庫(kù)進(jìn)行分詞形成列表(使用導(dǎo)入的jieba庫(kù)),將列表里面的詞用空格分開(kāi),并拼接成長(zhǎng)字符串,最后導(dǎo)入停用詞。讀取文本并分分詞的代碼如下。9.1.3能源政策詞云圖9.1.3能源政策詞云圖生成詞云圖并保存先導(dǎo)入下載好的中文字庫(kù)和形狀圖片,再使用np.array()函數(shù)處理圖片(此處需要導(dǎo)入numpy庫(kù)),使用WordCloud()函數(shù)設(shè)定好詞云圖的字體、背景色、背景寬和高、最大最小字號(hào)等(需要提前導(dǎo)入WordCloud庫(kù)),生成詞云圖并保存,最終以圖片形式顯示。生成詞云圖并保存的代碼如下。9.1.3能源政策詞云圖詞云圖如下圖所示。由上面的詞云圖能夠看出,“項(xiàng)目”“發(fā)展”“企業(yè)”“技術(shù)”“創(chuàng)新”“新能源”“綠色”“低碳”“電力”“儲(chǔ)能”是出現(xiàn)較多的詞,說(shuō)明我國(guó)能源政策仍以項(xiàng)目驅(qū)動(dòng)發(fā)展,技術(shù)創(chuàng)新與綠色低碳是重要導(dǎo)向,能源系統(tǒng)中新能源發(fā)展、儲(chǔ)能等是當(dāng)前的重點(diǎn)領(lǐng)域。本節(jié)僅根據(jù)2023年的能源要聞數(shù)據(jù)制作了一個(gè)詞云圖,讀者可以根據(jù)不同年份的能源要聞數(shù)據(jù)制作不同的詞云圖,觀察政策和能源行業(yè)的演化特征,也可以進(jìn)一步使用主題識(shí)別技術(shù),研究能源政策的主題演化。國(guó)際LNG貿(mào)易網(wǎng)絡(luò)分析AnalysisOfinternationalLNGTradeNetwork9.2.1案例描述本案例基于圖神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)全球各國(guó)LNG貿(mào)易網(wǎng)絡(luò)的特點(diǎn)進(jìn)行研究,使用節(jié)點(diǎn)中心性方法研究各國(guó)在LNG貿(mào)易網(wǎng)絡(luò)中的地位和影響力,通過(guò)分析歷年的節(jié)點(diǎn)中心性探究LNG貿(mào)易格局的演變趨勢(shì),并且使用圖嵌入技術(shù)實(shí)現(xiàn)節(jié)點(diǎn)的向量化,將LNG貿(mào)易網(wǎng)絡(luò)中的各國(guó)進(jìn)行向量化表示,這種向量化表示可以為后續(xù)的研究提供幫助。本案例的理論基礎(chǔ)參考6.6節(jié)相關(guān)內(nèi)容,案例數(shù)據(jù)來(lái)源于《BP世界能源統(tǒng)計(jì)年鑒》。9.2.2數(shù)據(jù)預(yù)處理與圖的生成數(shù)據(jù)預(yù)處理從《BP世界能源統(tǒng)計(jì)年鑒》“Gas-TrademovtsLNG”表單中提取數(shù)據(jù),單獨(dú)創(chuàng)建“relation”表單來(lái)保存案例中的“節(jié)點(diǎn)”和“邊”,“relation”表單部分內(nèi)容如下圖所示。9.2.2數(shù)據(jù)預(yù)處理與圖的生成圖的生成首先使用openpyxl庫(kù)導(dǎo)入數(shù)據(jù),使用networkx庫(kù)來(lái)生成圖,將“relation”表單中的貿(mào)易關(guān)系信息作為“邊”導(dǎo)入,無(wú)數(shù)據(jù)的則認(rèn)為不存在貿(mào)易關(guān)系,表單中對(duì)應(yīng)的國(guó)家或地區(qū)設(shè)置為“節(jié)點(diǎn)”,然后生成圖。圖生成的代碼如下。9.2.2數(shù)據(jù)預(yù)處理與圖的生成2013年各國(guó)的LNG貿(mào)易網(wǎng)絡(luò)可以繪制為一個(gè)圖,如下所示。9.2.3LNG貿(mào)易網(wǎng)絡(luò)節(jié)點(diǎn)中心性使用networkx庫(kù)可以直接生成LNG貿(mào)易網(wǎng)絡(luò)中各節(jié)點(diǎn)的點(diǎn)度中心性、中介中心性、接近中心性、特征向量中心性,并將中心性結(jié)果保存為Excel文件,代碼如下。9.2.3LNG貿(mào)易網(wǎng)絡(luò)節(jié)點(diǎn)中心性利用同樣的方法可以輸出2022年各國(guó)的LNG貿(mào)易網(wǎng)絡(luò)中各節(jié)點(diǎn)的中心性,從而可以從時(shí)間維度對(duì)比分析中心性指標(biāo)的變化。下圖展示了2013年和2022年LNG貿(mào)易網(wǎng)絡(luò)中各國(guó)的點(diǎn)度中心性對(duì)比結(jié)果。觀察點(diǎn)度中心性對(duì)比結(jié)果可以得出如下結(jié)論:2013年全球LNG貿(mào)易的重心主要在卡塔爾、日本、韓國(guó)等地,2022年LNG貿(mào)易的重心發(fā)生了變化,美國(guó)的中心性明顯提升,主要源于美國(guó)LNG出口的快速增長(zhǎng)。9.2.4LNG貿(mào)易網(wǎng)絡(luò)的圖嵌入圖嵌入是指將圖節(jié)點(diǎn)進(jìn)行向量化表示,獲取更多的特征嵌入編碼,這可以幫助以后的任務(wù)獲得更好的結(jié)果。運(yùn)用圖嵌入方法可以將上述的LNG貿(mào)易網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行向量化表示。本節(jié)以DeepWalk方法為例,對(duì)圖嵌入方法的使用進(jìn)行介紹。首先需要實(shí)現(xiàn)deep_walk()函數(shù),輸入?yún)?shù)為圖的節(jié)點(diǎn)集合和最大游走步數(shù)。先通過(guò)G.nodes()函數(shù)獲取圖中節(jié)點(diǎn)集合,通過(guò)G.neighbors(node)函數(shù)獲取當(dāng)前節(jié)點(diǎn)的鄰居節(jié)點(diǎn),再通過(guò)random方法隨機(jī)選取鄰居節(jié)點(diǎn),持續(xù)到規(guī)定的最大游走步數(shù),即完成一個(gè)節(jié)點(diǎn)的采樣。deep_walk()函數(shù)代碼如下。9.2.4LNG貿(mào)易網(wǎng)絡(luò)的圖嵌入調(diào)用Gensim庫(kù)的Word2Vec方法,對(duì)上述隨機(jī)游走獲得的訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練,獲取詞嵌入結(jié)果,此處為了便于圖形化展示,將vector_size設(shè)置為2
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 26《好的故事》說(shuō)課稿-2024-2025學(xué)年語(yǔ)文六年級(jí)上冊(cè)統(tǒng)編版
- 1場(chǎng)景歌說(shuō)課稿-2024-2025學(xué)年統(tǒng)編版語(yǔ)文二年級(jí)上冊(cè)
- 2024年秋一年級(jí)道德與法治下冊(cè) 第二單元 我和大自然 5 風(fēng)兒輕輕吹說(shuō)課稿 新人教版
- 18古詩(shī)三首浪淘沙(其一)說(shuō)課稿-2024-2025學(xué)年六年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版
- 8 設(shè)計(jì)制作小車(二) 說(shuō)課稿-2024-2025學(xué)年科學(xué)四年級(jí)上冊(cè)教科版
- 23《月光曲》說(shuō)課稿-2024-2025學(xué)年語(yǔ)文六年級(jí)上冊(cè)統(tǒng)編版
- 1 24時(shí)計(jì)時(shí)法(說(shuō)課稿)-2024-2025學(xué)年三年級(jí)上冊(cè)數(shù)學(xué)人教版001
- 2023九年級(jí)道德與法治上冊(cè) 第三單元 文明與家園 第五課 守望精神家園第2框 凝聚價(jià)值追求說(shuō)課稿 新人教版
- 2025北京市飼料采購(gòu)合同新
- 2025建造船舶所要用到的合同
- 中醫(yī)中風(fēng)病(腦梗死)診療方案
- GMP-基礎(chǔ)知識(shí)培訓(xùn)
- 人教版小學(xué)六年級(jí)數(shù)學(xué)下冊(cè)(全冊(cè))教案
- 人教版二年級(jí)語(yǔ)文上冊(cè)同音字歸類
- 高二數(shù)學(xué)下學(xué)期教學(xué)計(jì)劃
- 文學(xué)類作品閱讀練習(xí)-2023年中考語(yǔ)文考前專項(xiàng)練習(xí)(浙江紹興)(含解析)
- SB/T 10624-2011洗染業(yè)服務(wù)經(jīng)營(yíng)規(guī)范
- 第五章硅酸鹽分析
- 外科學(xué)總論-第十四章腫瘤
- 網(wǎng)絡(luò)反詐知識(shí)競(jìng)賽參考題庫(kù)100題(含答案)
- 運(yùn)動(dòng)技能學(xué)習(xí)與控制課件第四章感覺(jué)系統(tǒng)對(duì)運(yùn)動(dòng)控制的作用
評(píng)論
0/150
提交評(píng)論