版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《Python人工智能技術(shù)與應用》能力模塊五掌握基于深度學習的自然語言處理技術(shù)應用任務(wù)二完成文本數(shù)據(jù)采集與預處理實訓TaskImport任務(wù)導入
公司的汽車門戶網(wǎng)站已經(jīng)有大量的合作廠商決定接入,公司的汽車門戶網(wǎng)站非常的火熱,收到了很多用戶對各種汽車品牌的評價和反饋。現(xiàn)需要對合作廠商的汽車相關(guān)數(shù)據(jù)進行收集和文本預處理以及文本表示。
你作為該公司數(shù)據(jù)科學助理,主要負責協(xié)助數(shù)據(jù)科學家完成數(shù)據(jù)的準備和特征表示的任務(wù)。為后續(xù)建立模型對汽車口碑進行分析做數(shù)據(jù)準備。素養(yǎng)目標引導問題的過程中,培養(yǎng)學生形成勤于思考的能力獲得分析解決問題以及多元化思考解決問題的方法,形成創(chuàng)新意識。TaskObject任務(wù)目標知識目標了解文本數(shù)據(jù)的定義。了解文本數(shù)據(jù)的主要特點。了解文本數(shù)據(jù)的采集方法。了解文本數(shù)據(jù)的數(shù)據(jù)來源。了解中文文本預處理的流程以及與英文文本預處理的區(qū)別。技能目標能夠列舉實現(xiàn)汽車評論文本數(shù)據(jù)的采集和預處理相關(guān)Python工具。能夠思考出汽車評論文本數(shù)據(jù)的采集和預處理的實現(xiàn)流程,在思考中鍛煉系統(tǒng)性的職業(yè)思維。新
授Python實現(xiàn)汽車評論文本的采集和預處理04CONTENTS目錄文本數(shù)據(jù)的定義與主要特點01文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02自然語言文本數(shù)據(jù)預處理流程0301文本數(shù)據(jù)的定義與主要特點
文本數(shù)據(jù)是用字符串形式表示的信息??梢允俏淖?、語音、圖像或其他多媒體形式在計算機中存儲和處理為字符串格式;也可以是文章、評論、社交媒體消息、電子郵件等表示各種類型的信息形式。定義
由于目前的大多數(shù)信息(80%)是以文本的形式來保存,文本挖掘被認為具有較高的商業(yè)潛在價值。應用形式(一)文本數(shù)據(jù)的定義01文本數(shù)據(jù)的定義與主要特點(二)文本數(shù)據(jù)的主要特點半結(jié)構(gòu)化,包含標題、作者、分類等結(jié)構(gòu)字段,又包含非結(jié)構(gòu)化的文字內(nèi)容1蘊含語義、情感,如一詞多義、一義多詞、起承轉(zhuǎn)合、時間關(guān)系等2文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02(一)文本數(shù)據(jù)的采集方法
如scikit-learn中包含20類新聞數(shù)據(jù)集和口語語料庫。Keras中的IMDB評論數(shù)據(jù)集和商品評論數(shù)據(jù)集。Python及其第三方庫內(nèi)置的數(shù)據(jù)集文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02(一)文本數(shù)據(jù)的采集方法開源數(shù)據(jù)集
當前已有很多公開的NLP數(shù)據(jù)集支撐相關(guān)的研究和應用分析,如github項目:CLUEDatasetSearch(收集了眾多中英文NLP數(shù)據(jù)集)、funNLP(分門別類地組織了眾多的NLP數(shù)據(jù)集和項目)、awesome-chinese-nlp(收集了中文自然語言處理相關(guān)資料)等。文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02(一)文本數(shù)據(jù)的采集方法網(wǎng)絡(luò)爬蟲
很多情況所研究的是面向某種特定的領(lǐng)域,這些開放語料庫經(jīng)常無法滿足使用需求,可使用爬蟲爬取相應的信息。文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02(二)文本數(shù)據(jù)的來源參考
文本數(shù)據(jù)集的來源通常是在調(diào)查報告、社交媒體、在線評論中。以社交媒體為例,在社交平臺上,人們通過社交帖子中的語言和表情符號表達自己的想法、感受和行動。社交帖子對于理解目標受眾并引起共鳴非常有價值,社交媒體可視為世界上最大的文本數(shù)據(jù)池。
社交媒體上存在著大量文本數(shù)據(jù)更多的文本數(shù)據(jù)還來源于社交論壇、新聞報道、訪談、學術(shù)研究論文、演講稿等。自然語言文本數(shù)據(jù)預處理流程03
文本數(shù)據(jù)預處理是指對原始文本數(shù)據(jù)進行清洗、格式化、結(jié)構(gòu)化處理,以便于后續(xù)的分析和模型訓練。包括但不限于去除噪音數(shù)據(jù)、標準化語言、分詞、詞干提取、去除停用詞等步驟。(一)中文文本預處理流程(以中文文本為例)去除無效標簽:例如從網(wǎng)頁源代碼獲取的文本信息中包含HTML標簽?;炯m錯:對于文本中明顯的人名、地名等常用語和特定場景用語的錯誤進行糾正。去除空白:文本中可能包含的大量空格、空行等需要去除。去標點符號:去除句子中的標點符號、特殊符號等。分詞:將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。去停用詞:比如“的”“是”等。自然語言文本數(shù)據(jù)預處理流程03(二)中英文文本預處理的主要區(qū)別對英文預處理要包括拼寫檢查,比如“HeloWorld”這樣的錯誤。詞干提?。╯temming)和詞形還原(lemmatization)英文文本可直接處理得到單詞的原始形態(tài)。比如,"faster"、"fastest",都變?yōu)?fast";“l(fā)eafs”“l(fā)eaves”,都變?yōu)?leaf"。拼寫英文可以直接用最簡單的空格和標點符號完成分詞。中文詞沒有一個形式上的分界符。分詞自然語言文本數(shù)據(jù)預處理流程03(二)中英文文本預處理的主要區(qū)別步驟中文文本預處理英文文本預處理分詞中文文本需要分詞,將連續(xù)的漢字切分成離散的詞語英文文本通常已經(jīng)是離散的單詞形式停用詞過濾中文文本需要去除常見但無實際含義的詞語,如“的”“是”等英文文本也需要去除停用詞,如“the”“a”等詞干提取/詞形還原中文文本不需要詞干提取,但可以使用詞形還原進行規(guī)范化處理英文文本需要進行詞干提取,如將“running”轉(zhuǎn)化為“run”實體識別中文文本需要進行實體識別,如人名、地名、機構(gòu)名等英文文本也可以進行實體識別,如人名、公司名等詞向量表示中文文本需要進行中文詞向量表示,如使用Word2Vec或BERT等模型進行訓練英文文本也可以進行詞向量表示,使用相應的模型進行訓練編碼轉(zhuǎn)換中文文本需要將文本從GBK或GB2312等編碼轉(zhuǎn)換為UTF-8編碼英文文本通常已經(jīng)是UTF-8編碼清洗/過濾中文文本需要清洗去除一些噪聲、無用信息和不規(guī)范的文本格式,如網(wǎng)頁標簽等英文文本也需要進行類似的清洗和過濾文本歸一化中文文本需要進行拼音轉(zhuǎn)化、數(shù)字規(guī)范化、繁簡體轉(zhuǎn)換等處理英文文本通常不需要進行文本歸一化處理
中英文文本預處理步驟區(qū)別表Python實現(xiàn)汽車評論文本的采集和預處理04Jieba庫采用了基于前綴詞典的分詞方法,可以實現(xiàn)高效準確的中文分詞。Jieba庫支持三種分詞模式:精確模式、全模式和搜索引擎模式。其中,精確模式是默認模式,它試圖將文本切分成最精確的詞語;全模式則將文本中可能的詞語全部切分出來;搜索引擎模式則在精確模式的基礎(chǔ)上,對長詞再次進行切分。Jieba還提供了一些其他的功能,比如關(guān)鍵詞提取、詞性標注、繁體轉(zhuǎn)簡體等。Jieba庫是一個開源的Python庫,可以通過pip安裝。它的使用非常簡單,只需要導入庫并調(diào)用相應的函數(shù)即可。(一)工具介紹
Jieba(結(jié)巴)是一個中文分詞庫,它可以將中文文本分成一個一個的詞語。Python實現(xiàn)汽車評論文本的采集和預處理04(二)實現(xiàn)流程1.通過pip命令安裝Jieba庫。代碼示例:!pipinstalljieba2.對文本進行分詞,使用默認分詞模式。代碼示例:importjieba<br>seg_list=jieba.cut("我來到清華大學",cut_all=False)<br>print("DefaultMode:"+"/".join(seg_list))3.將"自然語言處理"添加到詞典中,以便在分詞時被識別。代碼示例:jieba.add_word("自然語言處理")4.將"機器學習"從詞典中刪除。代碼示例:jieba.del_word("機器學習")Python實現(xiàn)汽車評論文本的采集和預處理04(二)實現(xiàn)流程5.使用TF-IDF算法提取關(guān)鍵詞,返回前3個關(guān)鍵詞及其權(quán)重。代碼示例:importjieba.analyse<br>text="結(jié)巴是一個優(yōu)秀的中文分詞工具,使用方便,效果出眾"<br>keywords=jieba.analyse.extract_tags(text,topK=3,withWeight=True)<br>print(keywords)6.對文本進行詞性標注,輸出每個詞及其對應的詞性標記。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東外語外貿(mào)大學《納稅申報模擬實訓》2023-2024學年第一學期期末試卷
- 廣東女子職業(yè)技術(shù)學院《工程制圖(Ⅱ)》2023-2024學年第一學期期末試卷
- 廣東南華工商職業(yè)學院《光纖器件工程》2023-2024學年第一學期期末試卷
- 廣東梅州職業(yè)技術(shù)學院《版面文化與設(shè)計》2023-2024學年第一學期期末試卷
- 專題三-信守合同與違約單元基礎(chǔ)測試2(新人教版選修5)
- 大學英語過程寫作(吉林大學)學習通測試及答案
- 個人理財規(guī)劃(重慶理工大學)學習通測試及答案
- 【KS5U發(fā)布】河南省豫南九校2021屆高三上期第二次聯(lián)考-政治-掃描版含答案
- 2021年高考藝體生文化課百日沖刺-英語專題復習講練:專題二-代詞和介詞
- 江西省宜春市2024-2025學年上高二中高一(上)第三次月考物理試卷(含答案)
- MOOC 創(chuàng)新思維與創(chuàng)業(yè)實驗-東南大學 中國大學慕課答案
- 新生兒先心病篩查工作計劃
- (2024年)Maya三維建模教案
- 新能源汽車研發(fā)合作協(xié)議書
- 國開電大本科《理工英語4》機考真題(第六套)
- 四川省成都市2023-2024學年高二上學期期末校級調(diào)研聯(lián)考數(shù)學試題【含答案解析】
- 4s店管理的年度工作總結(jié)
- 中醫(yī)護理查房脅痛好
- 新概念英語第一冊1-72課測試
- 2024年二級造價師題庫(鞏固)
- 類風濕關(guān)節(jié)炎課件
評論
0/150
提交評論