




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《Python自然語(yǔ)言處理入門與實(shí)戰(zhàn)》教學(xué)大綱課程名稱:Python自然語(yǔ)言處理入門與實(shí)戰(zhàn)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論34學(xué)時(shí),實(shí)驗(yàn)30學(xué)時(shí))總學(xué)分:4.0學(xué)分一、 課程的性質(zhì)自然語(yǔ)言處理作為人工智能的一個(gè)重要分支,促進(jìn)了社會(huì)傳播學(xué)的發(fā)展,并且在新聞傳播領(lǐng)域中的影響也越來(lái)越深刻。社會(huì)傳播學(xué)是一門研究人類交流形式的學(xué)問,新聞包含于傳播之中,而語(yǔ)言交流和文字交流是人類最重要的交流方式。分析語(yǔ)言的成分和結(jié)構(gòu),理解語(yǔ)義和深層意義,是社會(huì)傳播學(xué)與自然語(yǔ)言處理的共同任務(wù)。自然語(yǔ)言處理與社會(huì)傳播學(xué)的融合研究正在成為新的趨勢(shì),中文自然語(yǔ)言處理能夠迅速且有效地處理新媒體特別是網(wǎng)絡(luò)和社交媒體中海量的內(nèi)容與知識(shí),能夠有效加速社會(huì)傳播學(xué)的研究進(jìn)展。由于中文自然語(yǔ)言處理的研究起步較晚,加上中文語(yǔ)句本身結(jié)構(gòu)更為松散,語(yǔ)法和語(yǔ)義更為靈活,因此無(wú)法直接套用英文自然語(yǔ)言處理中較成熟的理論和技術(shù)。與具有相對(duì)完善理論框架的社會(huì)傳播學(xué)進(jìn)行結(jié)合能夠?yàn)橹形淖匀徽Z(yǔ)言處理的發(fā)展帶來(lái)新的機(jī)遇。為了推動(dòng)我國(guó)大數(shù)據(jù),云計(jì)算,人工智能和新聞傳媒行業(yè)的發(fā)展,滿足日益增長(zhǎng)的數(shù)據(jù)分析人才需求,特開設(shè)Python自然語(yǔ)言處理入門與實(shí)戰(zhàn)。二、 課程的任務(wù)通過(guò)本課程的學(xué)習(xí),使學(xué)生學(xué)會(huì)使用Python進(jìn)行數(shù)據(jù)爬取、分詞與詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵詞提取、文本向量化、文本相似度計(jì)算、文本分類與聚類,并詳細(xì)拆解學(xué)習(xí)情感分類、文本分類和智能推薦三個(gè)實(shí)際案例,將理論與實(shí)踐相結(jié)合,為將來(lái)從事數(shù)據(jù)分析挖掘研究、工作奠定基礎(chǔ)。
三、課程學(xué)時(shí)分配序號(hào)教學(xué)內(nèi)容理論學(xué)時(shí)實(shí)驗(yàn)學(xué)時(shí)其它1第1章導(dǎo)論212第2章文本數(shù)據(jù)爬取423第3章文本基礎(chǔ)處理844第4章文本進(jìn)階處理845第5章天問一號(hào)事件中的網(wǎng)民評(píng)論情感分析456第6章新聞文本分類467第7章基于瀏覽記錄的個(gè)性化新聞推薦468第8早基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類02總計(jì)3430四、教學(xué)內(nèi)容及學(xué)時(shí)安排1.理論教學(xué)序號(hào)章節(jié)名稱主要內(nèi)容教學(xué)目標(biāo)學(xué)時(shí)1導(dǎo)論了解自然語(yǔ)言處理的概念了解自然語(yǔ)言處理的發(fā)展歷程了解自然語(yǔ)言處理的主要內(nèi)容了解自然語(yǔ)言處理的常用工具了解Python數(shù)據(jù)分析的優(yōu)勢(shì)了解Python數(shù)據(jù)分析的常用類庫(kù)在Windows操作系統(tǒng)上安裝Anaconda創(chuàng)建自然語(yǔ)言處理虛擬環(huán)境了解自然語(yǔ)言處理的概念、發(fā)展歷程與主要內(nèi)容了解自然語(yǔ)言處理的常用庫(kù)掌握Windows系統(tǒng)卜Anaconda安裝掌握自然語(yǔ)言處理虛擬環(huán)境的創(chuàng)建方法2
2文本數(shù)據(jù)爬取熟悉HTTP的常見請(qǐng)求方法熟悉HTTP的與過(guò)程熟悉常見的HTTP狀態(tài)碼熟悉常見的HTTP頭字段熟悉HTTP的Cookie機(jī)制爬取靜態(tài)網(wǎng)頁(yè)的數(shù)據(jù)了解靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè)的區(qū)別使用逆向分析和Selenium庫(kù)爬取動(dòng)態(tài)網(wǎng)頁(yè)熟悉HTTP請(qǐng)求方法與過(guò)程熟悉常見的HTTP狀態(tài)碼、頭字段和Cookie掌握靜態(tài)網(wǎng)頁(yè)數(shù)據(jù)的爬取方法了解靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè)的區(qū)別。掌握逆向分析和使用Selenium庫(kù)爬取動(dòng)態(tài)網(wǎng)頁(yè)的方法。43文本基礎(chǔ)處理了解語(yǔ)料庫(kù)的基本概念、用途、類型構(gòu)建語(yǔ)料庫(kù)了解中文分詞的基本概念和常用方法4?使用中文分詞工具jieba庫(kù)進(jìn)行分詞了解詞性標(biāo)注和命名實(shí)體識(shí)別的基本概念使用jieba進(jìn)行詞性標(biāo)注7?使用jieba進(jìn)行命名實(shí)體識(shí)別了解關(guān)鍵詞提取的基本概念提取文本中的關(guān)鍵詞了解語(yǔ)料庫(kù)的基本概念、用途、類型和構(gòu)建原則了解中文分詞的基本概念和常用方法掌握中文分詞工具jieba庫(kù)的使用方法了解詞性標(biāo)注和命名實(shí)體識(shí)別的基本概念熟悉jieba詞性標(biāo)注的流程和命名實(shí)體識(shí)別的實(shí)現(xiàn)流程了解關(guān)鍵詞提取的基本概念掌握關(guān)鍵詞提取的方法。8
4文本進(jìn)階處理了解文本向量化的基本概念。了解文本離散表示的常用方法熟悉文本向量化模型Word2Vec和Doc2Vec的基本原理掌握Word2Vec和Doc2Vec模型的訓(xùn)練流程和網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算文本的相似度了解文本挖掘的基本概念熟悉常用的文本分類和聚類算法實(shí)現(xiàn)文本分類實(shí)現(xiàn)文本聚類了解文本向量化的基本概念了解文本離散表示的常用方法熟悉文本向量化模型Word2Vec和Doc2Vec的基本原理掌握Word2Vec和Doc2Vec模型的訓(xùn)練流程和網(wǎng)絡(luò)結(jié)構(gòu),以及文本相似度的計(jì)算方法了解文本挖掘的基本概念熟悉常用的文本分類和聚類算法掌握實(shí)現(xiàn)文本分類和聚類的步驟85天問一號(hào)事件中的網(wǎng)民評(píng)論情感分析了解案例背景了解數(shù)據(jù)現(xiàn)狀了解案例的目標(biāo)對(duì)數(shù)據(jù)進(jìn)行可視化分析對(duì)文本進(jìn)行中文分詞、去停用詞等處理對(duì)預(yù)處理后的文本進(jìn)行向量化7?使用樸素貝葉斯分類算法構(gòu)建分類模型8.對(duì)構(gòu)建的分類模型進(jìn)行模型評(píng)估了解天問一號(hào)事件bilibili網(wǎng)站用戶評(píng)論情感分析案例背景、數(shù)據(jù)和目標(biāo)掌握數(shù)據(jù)探索的方法掌握文本預(yù)處理的方法掌握樸素貝葉斯分類算法的使用方法,構(gòu)建分類模型和進(jìn)行模型優(yōu)化的方法掌握分類模型評(píng)估方法4
6新聞文本分類了解案例的業(yè)務(wù)背景熟悉數(shù)據(jù)說(shuō)明了解分析目標(biāo)對(duì)數(shù)據(jù)進(jìn)行基本的清洗進(jìn)行可視化展示對(duì)文本進(jìn)行基礎(chǔ)處理和向量化基于支持向量機(jī)分類算法構(gòu)建分類模型對(duì)構(gòu)建的分類模型進(jìn)行模型評(píng)價(jià)了解新聞文本分類案例的業(yè)務(wù)背景、數(shù)據(jù)說(shuō)明和分析目標(biāo)掌握數(shù)據(jù)探索的方法掌握文本預(yù)處理的方法熟悉支持向量機(jī)分類算法,構(gòu)建分類模型和模型優(yōu)化的方法掌握分類模型的評(píng)價(jià)方法47基于瀏覽記錄的個(gè)性化新聞推薦了解個(gè)性化新聞推薦案例的背景熟悉案例數(shù)了解分析目標(biāo)。探索數(shù)據(jù)的基本情況并進(jìn)行可視化展示對(duì)瀏覽數(shù)據(jù)進(jìn)行基礎(chǔ)處理基于物品的協(xié)同過(guò)濾推薦算法構(gòu)建推薦模型。對(duì)構(gòu)建的推薦模型進(jìn)行模型評(píng)估。了解個(gè)性化新聞推薦案例的背景、數(shù)據(jù)和分析目標(biāo)。掌握常用數(shù)據(jù)探索方法掌握常用數(shù)據(jù)預(yù)處理的方法掌握基于物品的協(xié)同過(guò)濾推薦算法的使用方法。掌握協(xié)同過(guò)濾推薦算法的評(píng)價(jià)方法4學(xué)時(shí)合計(jì)302.實(shí)驗(yàn)教學(xué)序號(hào)實(shí)驗(yàn)項(xiàng)目名稱實(shí)驗(yàn)要求學(xué)時(shí)1自然語(yǔ)言處理虛擬環(huán)境搭建在Windows系統(tǒng)上安裝Anaconda創(chuàng)建自然語(yǔ)言處理虛擬環(huán)境12文本數(shù)據(jù)爬取通過(guò)Requests庫(kù)實(shí)現(xiàn)HTTP請(qǐng)求爬取靜態(tài)網(wǎng)頁(yè)數(shù)據(jù)并解析連接數(shù)據(jù)庫(kù)并存儲(chǔ)解析后的數(shù)據(jù)逆向分析爬取動(dòng)態(tài)網(wǎng)頁(yè)使用Selenium庫(kù)爬取動(dòng)態(tài)網(wǎng)頁(yè)23文本基礎(chǔ)處理構(gòu)建語(yǔ)料庫(kù)讀取語(yǔ)料庫(kù)并查看詞頻使用jieba進(jìn)行中文分詞使用jieba進(jìn)行詞性標(biāo)注4
進(jìn)行中文命名實(shí)體識(shí)別提取文本關(guān)鍵詞4文本進(jìn)階處理Word2Vec詞向量訓(xùn)練計(jì)算文本相似度對(duì)新聞文本進(jìn)行分類對(duì)新聞文本進(jìn)行聚類45天問一號(hào)事件中的網(wǎng)民評(píng)論情感分析對(duì)數(shù)據(jù)進(jìn)行探索分析進(jìn)行文本預(yù)處理劃分訓(xùn)練集和測(cè)試集構(gòu)建樸素貝葉斯模型對(duì)模型分類效果進(jìn)行評(píng)估56新聞文本分類對(duì)數(shù)據(jù)進(jìn)行清洗進(jìn)行可視化展示對(duì)文本進(jìn)行基礎(chǔ)處理、向量化構(gòu)建支持向量機(jī)分類模型對(duì)構(gòu)建后的模型進(jìn)行模型評(píng)價(jià)67基于瀏覽記錄的個(gè)性化新聞推薦對(duì)數(shù)據(jù)進(jìn)行探索分析對(duì)數(shù)據(jù)進(jìn)行預(yù)處理劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測(cè)試集構(gòu)建協(xié)同過(guò)濾智能推薦模型對(duì)模型的推薦效果進(jìn)行評(píng)估68基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類配置數(shù)據(jù)源文本預(yù)處理模型構(gòu)建與訓(xùn)練模型評(píng)價(jià)2學(xué)時(shí)合計(jì)34五、考核方式突出學(xué)生解決實(shí)際問題的能力,加強(qiáng)過(guò)程性考核。課程考核的成績(jī)構(gòu)成=平時(shí)作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應(yīng)包括基本概念、數(shù)據(jù)爬取、分詞與詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵詞提取、文本向量化、文本相似度計(jì)算、文本分類與聚類等部分,題型可采用判斷題、選擇、簡(jiǎn)答、應(yīng)用題等方式。六、教材與參考資料1.教材戴程,張良均.Python自然語(yǔ)言處理入門與實(shí)戰(zhàn)[M].北京:人民郵電出版社.2022.2.參考資料張良均.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版社.2015.張良均.Python與數(shù)據(jù)挖掘[M].北京:機(jī)械工業(yè)出版社.2016.⑶肖剛,張良均.Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)[M].北京:人民郵電出版社.2021.學(xué)院課程教學(xué)進(jìn)度計(jì)劃表(20?20學(xué)年第二學(xué)期)課程名稱Python自然語(yǔ)言處理入門與實(shí)戰(zhàn)授課學(xué)時(shí) 64 主講(責(zé)任)教0 參與教學(xué)教師 授課班級(jí)/人數(shù) 專業(yè)(教研室) 填表時(shí)間 專業(yè)(教研室)主任 教務(wù)處編印
年月七、課程教學(xué)目的通過(guò)本課程的學(xué)習(xí),使學(xué)生學(xué)會(huì)使用Python進(jìn)行數(shù)據(jù)爬取、分詞與詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵詞提取、文本向量化、文本相似度計(jì)算、文本分類與聚類,并詳細(xì)拆解學(xué)習(xí)情感分類、文本分類和智能推薦三個(gè)實(shí)際案例,將理論與實(shí)踐相結(jié)合,為將來(lái)從事數(shù)據(jù)分析挖掘研究、工作奠定基礎(chǔ)。八、 教學(xué)方法及手段本課程將采用理論與實(shí)踐相結(jié)合的教學(xué)方法。在理論上,通過(guò)任務(wù)引入概念、原理和方法。在實(shí)踐上,充分地利用現(xiàn)有的硬件資源,發(fā)揮學(xué)生主觀能動(dòng)性,指導(dǎo)學(xué)生爬取靜態(tài)和動(dòng)態(tài)網(wǎng)友的數(shù)據(jù),對(duì)文本數(shù)據(jù)進(jìn)行文本預(yù)處理,構(gòu)建文本分類或聚類模型。同時(shí)結(jié)合三個(gè)綜合案例,引導(dǎo)學(xué)生將所學(xué)知識(shí)與企業(yè)需求相結(jié)合,將知識(shí)活學(xué)活用。要求學(xué)生自己動(dòng)手分析實(shí)例,學(xué)習(xí)基本理論和方法,結(jié)合已有的知識(shí),適當(dāng)組織一些討論,充分調(diào)動(dòng)學(xué)生的主觀能動(dòng)性,以達(dá)到本課程的教學(xué)目的。九、 課程考核方法突出學(xué)生解決實(shí)際問題的能力,加強(qiáng)過(guò)程性考核。課程考核的成績(jī)構(gòu)成=平時(shí)作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應(yīng)包括基本概念、數(shù)據(jù)爬取、分詞與詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵詞提取、文本向量化、文本相似度計(jì)算、文本分類與聚類等部分,題型可采用判斷題、選擇、簡(jiǎn)答、應(yīng)用題等方式。
《Python自然語(yǔ)言處理入門與實(shí)戰(zhàn)》教學(xué)日歷周次學(xué)時(shí)授課內(nèi)容作業(yè)要求備注13第1章導(dǎo)論第1章課后習(xí)題25第2章文本數(shù)據(jù)爬?。?)第2章課后習(xí)題33第2章文本數(shù)據(jù)爬取(2)第3章文本基礎(chǔ)處理(1)第3章課后習(xí)題45第3章文本基礎(chǔ)處理(2)第3章課后習(xí)題53第3章文本基礎(chǔ)處理(3)第3章課后習(xí)題65第3章文本基礎(chǔ)處理(4)第4章文本進(jìn)階處理(1)第3章課后習(xí)題73第4章文本進(jìn)階處理(2)第4章課后習(xí)題85第4章文本進(jìn)階處理(3)第4章課后習(xí)題93第4章文本進(jìn)階處理(4)第5章天問一號(hào)事件中的網(wǎng)民評(píng)論情感分析(1)第4章課后習(xí)題105第5章天問一號(hào)事件中的網(wǎng)民評(píng)論情感分析(2)第5章課后習(xí)題113第5章天問一號(hào)事件中的網(wǎng)民評(píng)論情感分析(3)第6章新聞文本分類(1)第5章課后習(xí)題1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 子女成長(zhǎng)跟蹤與教育輔導(dǎo)項(xiàng)目合同
- 藝術(shù)展覽策展與藝術(shù)品運(yùn)輸保險(xiǎn)服務(wù)合作協(xié)議
- 橋梁工程現(xiàn)場(chǎng)檢測(cè)員崗位要求與聘用協(xié)議
- 跨區(qū)域房產(chǎn)使用權(quán)及資源共享合作開發(fā)協(xié)議
- 體育旅游地接服務(wù)協(xié)議
- 海關(guān)進(jìn)出口貿(mào)易數(shù)據(jù)錄入勞務(wù)派遣及質(zhì)量監(jiān)控協(xié)議
- 文化創(chuàng)意產(chǎn)品區(qū)域經(jīng)銷商網(wǎng)絡(luò)特許經(jīng)營(yíng)合同
- 煤礦入礦安全培訓(xùn)
- 培訓(xùn)畢業(yè)答辯
- 腸梗阻管道護(hù)理
- MOOC 單片機(jī)原理與應(yīng)用-北京交通大學(xué) 中國(guó)大學(xué)慕課答案
- 新粵教粵科版五年級(jí)下冊(cè)科學(xué)全冊(cè)教學(xué)課件
- 2024年快遞員技能競(jìng)賽理論知識(shí)考試題庫(kù)(500題)
- 醫(yī)療糾紛的法律責(zé)任與風(fēng)險(xiǎn)防范
- 獸醫(yī)傳染病學(xué)PDF
- 2023年廣東省東莞日?qǐng)?bào)社招聘7人筆試參考題庫(kù)(共500題)答案詳解版
- 二手車鑒定評(píng)估報(bào)告書(范本)
- 林威老師形形色色的人習(xí)作課 點(diǎn)評(píng)
- 03K132 風(fēng)管支吊架圖集
- 前庭功能疾患護(hù)理課件
- 西鐵計(jì)202119號(hào) 中國(guó)鐵路西安局集團(tuán)有限公司關(guān)于印發(fā)《西安局集團(tuán)公司地方涉鐵工程建設(shè)管理辦法》的通知2021-01-25
評(píng)論
0/150
提交評(píng)論