人工智能數(shù)據(jù)標(biāo)注實戰(zhàn)教程 課件 第四章 自然語言處理任務(wù)標(biāo)注_第1頁
人工智能數(shù)據(jù)標(biāo)注實戰(zhàn)教程 課件 第四章 自然語言處理任務(wù)標(biāo)注_第2頁
人工智能數(shù)據(jù)標(biāo)注實戰(zhàn)教程 課件 第四章 自然語言處理任務(wù)標(biāo)注_第3頁
人工智能數(shù)據(jù)標(biāo)注實戰(zhàn)教程 課件 第四章 自然語言處理任務(wù)標(biāo)注_第4頁
人工智能數(shù)據(jù)標(biāo)注實戰(zhàn)教程 課件 第四章 自然語言處理任務(wù)標(biāo)注_第5頁
已閱讀5頁,還剩107頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第四章自然語言處理任務(wù)標(biāo)注任務(wù)一

命名實體識別標(biāo)注內(nèi)容概括命名實體識別標(biāo)注概念典型應(yīng)用場景標(biāo)注方式標(biāo)注操作1.命名實體識別標(biāo)注概念“人人心中都有一個衡量語言的天平”--艾青1.命名實體識別標(biāo)注概念命名實體識別(NamedEntityRecognition,NER)是NLP中一項非?;A(chǔ)的任務(wù)。從自然語言處理的流程來看,NER可以看作詞法分析中未登錄詞識別的一種,是未登錄詞中數(shù)量最多、識別難度最大、對分詞效果影響最大問題。同時命名實體識別也是關(guān)系抽取、事件抽取、知識圖譜、機器翻譯、問答系統(tǒng)等諸多NLP任務(wù)的基礎(chǔ)。命名實體一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、組織機構(gòu)名、日期時間、專有名詞等。1.命名實體識別標(biāo)注概念學(xué)術(shù)上NER所涉及的命名實體一般包括3大類(實體類,時間類,數(shù)字類)和多個小類。2.典型應(yīng)用場景中醫(yī)藥數(shù)據(jù)領(lǐng)域廣泛應(yīng)用深度學(xué)習(xí)等新技術(shù)開展研究,中醫(yī)古籍文本作為中醫(yī)藥的重要組成部分之一。近年隨著古籍?dāng)?shù)字化研究的不斷深入,如何讓計算機識別、理解古籍文本內(nèi)容成為中醫(yī)藥數(shù)據(jù)處理的難題,這也是古籍?dāng)?shù)字化下一步深度知識挖掘工作的重點。隨著自然語言處理領(lǐng)域的發(fā)展,命名實體識別技術(shù)被引入中醫(yī)古籍文本研究中。宋刻《備急千金要方》2.典型應(yīng)用場景百度2019年基于自己的深度學(xué)習(xí)框架構(gòu)造了ERNIE模型,它是在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上產(chǎn)生的另一個通過多任務(wù)學(xué)習(xí)方式充分捕捉語料信息的優(yōu)化模型。3.數(shù)據(jù)標(biāo)注方式NER是一種序列標(biāo)注問題,數(shù)據(jù)標(biāo)注方式遵照序列標(biāo)注問題的方式,目前主要分為是BIO和BIOES兩種。這里主要介紹BIOES。3.數(shù)據(jù)標(biāo)注方式【例1】在下面文本中挑出主要實體小明在北京大學(xué)的燕園看了中國男籃的一場比賽“小明”以PER,“北京大學(xué)”以O(shè)RG,“燕園”以LOC,“中國男籃”以O(shè)RG[B-PER,E-PER,O,B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O]3.數(shù)據(jù)標(biāo)注方式【例1】在下面文本中挑出主要實體小明在北京大學(xué)的燕園看了中國男籃的一場比賽B-PERE-PEROB-ORGI-ORGI-ORGE-ORGOB-LOCE-LOCOOB-ORGI-ORGI-ORGE-ORGOOOOO4.實踐標(biāo)注操作(1)準(zhǔn)備數(shù)據(jù)demo.txt使用“utf-8withoutBOM”編碼錄入小明在北京大學(xué)的燕園看了中國男籃的一場比賽(2)創(chuàng)建項目label-studiostart4.實踐標(biāo)注操作在彈出頁面中的“ProjectName”標(biāo)簽頁中,錄入項目名稱為“命名實體識別Demo”。4.實踐標(biāo)注操作選擇“DataImport”標(biāo)簽頁,選擇“UploadFiles”,在彈出框中選擇準(zhǔn)備好的數(shù)據(jù)文件demo.txt,然后進(jìn)行提交導(dǎo)入。4.實踐標(biāo)注操作在選擇導(dǎo)入文件后,在“UploadMoreFiles”按鈕旁出現(xiàn)“TreatCSV/TSCas”選框,選中“ListofTask”項。4.實踐標(biāo)注操作切換到“LabelingSetup”標(biāo)簽頁,指定項目模板類型為“NamedEntityRecognition”。4.實踐標(biāo)注操作在選擇后的配置頁面中,維護(hù)標(biāo)簽類型。完成標(biāo)簽配置后,單擊“Save”按鈕保存項目。4.實踐標(biāo)注操作(3)開始標(biāo)注在標(biāo)注時,首先選擇標(biāo)簽,然后在文本中劃詞選中相關(guān)文本。例如,選擇“PER”標(biāo)簽,然后在文本中劃詞選中“小明”。4.實踐標(biāo)注操作一般每次標(biāo)注一個詞語,需要重新選中標(biāo)簽,才能開始標(biāo)注。為加快標(biāo)注速度,可以通過配置選項,使得選中標(biāo)簽固定,這樣可以連續(xù)多次劃詞標(biāo)注,提高標(biāo)注效率。4.實踐標(biāo)注操作標(biāo)注完“小明”之后,按照相似描述步驟繼續(xù)操作直到完成所有實體標(biāo)記操作4.實踐標(biāo)注操作標(biāo)注能完成后,單擊“Submit”按鈕進(jìn)行提交保存。保存后,按鈕文字由“Submit”切換為“Update”4.實踐標(biāo)注操作(4)導(dǎo)出結(jié)果單擊左側(cè)返回列表頁面,標(biāo)注后的結(jié)果在“Completed”列將出現(xiàn)標(biāo)注時間。4.實踐標(biāo)注操作單擊“Export”按鈕,在彈出菜單中選擇csv格式。4.實踐標(biāo)注操作導(dǎo)出結(jié)果為csv文件,具體格式如下:text,id,label,annotator,annotation_id,created_at,updated_at,lead_time小明在北京大學(xué)的燕園看了中國男籃的一場比賽,1,"[{""start"":1,""end"":3,""text"":""小明"",""labels"":[""PER""]},{""start"":4,""end"":8,""text"":""北京大學(xué)"",""labels"":[""ORG""]},{""start"":13,""end"":17,""text"":""中國男籃"",""labels"":[""ORG""]},{""start"":9,""end"":11,""text"":""燕園"",""labels"":[""LOC""]}]",1,4,2022-04-29T13:15:08.415121Z,2022-04-29T13:15:08.415121Z,905.472小結(jié)知識目標(biāo):(1)明確命名實體識別標(biāo)注概念(2)了解典型應(yīng)用場景(3)掌握標(biāo)注方式(4)掌握標(biāo)注操作思政目標(biāo):(1)了解中國傳統(tǒng)人文精神(2)了解中國優(yōu)秀傳統(tǒng)文化第四章自然語言處理任務(wù)標(biāo)注任務(wù)二

文本分類數(shù)據(jù)標(biāo)注內(nèi)容概括文本分類數(shù)據(jù)標(biāo)注概念典型應(yīng)用場景標(biāo)注方式標(biāo)注操作1.文本分類數(shù)據(jù)標(biāo)注概念文本分類,也稱文檔分類,是自然語言處理任務(wù)中最基本的任務(wù)。文本分類簡單來講,即將給定文檔分類為既定n個類別中的一個或多個。1.文本分類數(shù)據(jù)標(biāo)注概念文本分類任務(wù)的核心是要找到一個有效的映射函數(shù),準(zhǔn)確地實現(xiàn)文本域到分類的映射,這個映射函數(shù)實際上就是通常所說的分類器。文本分類最早實現(xiàn)是通過專家規(guī)則進(jìn)行分類,利用知識工程建立專家系統(tǒng),但覆蓋的范圍和準(zhǔn)確率都有限。后來伴隨著統(tǒng)計學(xué)習(xí)方法的發(fā)展,特別是90年代后互聯(lián)網(wǎng)在線文本數(shù)量增長和機器學(xué)習(xí)學(xué)科的興起,逐漸形成了特征工程為特點的淺層分類模型的做法。1.文本分類數(shù)據(jù)標(biāo)注概念自2014年,CNN方法開始應(yīng)用在自然語言處理領(lǐng)域,此后近20年深度學(xué)習(xí)方式在該任務(wù)得到了廣泛采用。前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)是用于文本分類任務(wù)的兩種深度學(xué)習(xí)方法,與淺層學(xué)習(xí)模型相比,它們可以提高性能。隨著深度學(xué)習(xí)的不斷發(fā)展,通過改進(jìn)CNN,RNN和注意力,或模型融合和多任務(wù)方法等,文本分類性能不斷得到提高。2.典型應(yīng)用場景目前,文本分類任務(wù)在多種常見應(yīng)用場景中得到運用,包括情感分析、話題標(biāo)記、新聞分類、問答系統(tǒng)、對話行為分類、自然語言推理、關(guān)系分類和事件預(yù)測等。場景典型例子情感分析文本:局長指著衛(wèi)生員說:“你認(rèn)識我么?”問題:該說話人是否高興?方法:可以設(shè)置“高興”和“不高興”兩種標(biāo)簽,構(gòu)建模型加以判斷意圖識別文本:教師拿著粉筆,走向講臺。問題:教師想干什么?方法:整理教師的常見意圖,例如"講課"和"準(zhǔn)備下課",構(gòu)建模型加以判斷問答匹配文本:強敵當(dāng)前,毛主席發(fā)表《論持久戰(zhàn)》。問題:《論持久戰(zhàn)》作者是誰?方法:采用兩個階段,第一個階段識別文檔中的所有人名,第二個階段建模判斷。2.典型應(yīng)用場景文心(ERNIE)是依托百度深度學(xué)習(xí)平臺飛槳打造的語義理解技術(shù)與平臺,集先進(jìn)的預(yù)訓(xùn)練模型、全面的NLP算法集、端到端開發(fā)套件和平臺化服務(wù)于一體。文心使用“高精度”文本分類算法可得到90%以上的準(zhǔn)確率。3.數(shù)據(jù)標(biāo)注方式(1)確定任務(wù)類型務(wù)類型會影響標(biāo)記標(biāo)簽的已選擇項數(shù),所以在開始任務(wù)初,需要首先明確分類任務(wù)是單標(biāo)簽任務(wù)還是多標(biāo)簽任務(wù)。3.數(shù)據(jù)標(biāo)注方式【例1】新聞文本分類單標(biāo)簽標(biāo)注任務(wù)北師大大贊山西生源“綜合素質(zhì)高”,今年大幅增加在晉招生計劃,擬招63人,“山西生源綜合素質(zhì)高,所以我們今年大幅增加了在山西的統(tǒng)招計劃,計劃招生63人,其中文科生為23人,理科生為40人?!?。6月9日,北京師范大學(xué)招生辦公室主任虞立紅解釋說,“可能你們覺得63人不多,但北師大今年的統(tǒng)招計劃總共才1600多名,將面向全國31個省市進(jìn)行招生,所以山西的招生計劃確實已經(jīng)不少了!”。而去年,該校在我省的招生計劃為36人。'娛樂','體育','教育','時政','科技','房產(chǎn)','社會','股票','財經(jīng)','家居','游戲','時尚','彩票','星座'3.數(shù)據(jù)標(biāo)注方式進(jìn)行標(biāo)注,并按指定格式輸入標(biāo)注結(jié)果。例如,采用txt文檔,在原文本和標(biāo)注標(biāo)簽之間采用TAB制表符進(jìn)行間隔。北師大大贊山西生源“綜合素質(zhì)高”,今年大幅增加在晉招生計劃,擬招63人,“山西生源綜合素質(zhì)高,所以我們今年大幅增加了在山西的統(tǒng)招計劃,計劃招生63人,其中文科生為23人,理科生為40人。”。6月9日,北京師范大學(xué)招生辦公室主任虞立紅解釋說,“可能你們覺得63人不多,但北師大今年的統(tǒng)招計劃總共才1600多名,將面向全國31個省市進(jìn)行招生,所以山西的招生計劃確實已經(jīng)不少了!”。而去年,該校在我省的招生計劃為36人。{TAB}教育4.實踐標(biāo)注操作(1)準(zhǔn)備數(shù)據(jù)demo.txt使用“utf-8withoutBOM”編碼錄入北師大大贊山西生源“綜合素質(zhì)高”,今年大幅增加在晉招生計劃,擬招63人,“山西生源綜合素質(zhì)高,所以我們今年大幅增加了在山西的統(tǒng)招計劃,計劃招生63人,其中文科生為23人,理科生為40人。”。6月9日,北京師范大學(xué)招生辦公室主任虞立紅解釋說,“可能你們覺得63人不多,但北師大今年的統(tǒng)招計劃總共才1600多名,將面向全國31個省市進(jìn)行招生,所以山西的招生計劃確實已經(jīng)不少了!”。而去年,該校在我省的招生計劃為36人。4.實踐標(biāo)注操作(2)創(chuàng)建項目在彈出頁面中的“ProjectName”標(biāo)簽頁中,錄入項目名稱為“文本分類Demo”。4.實踐標(biāo)注操作選擇“DataImport”標(biāo)簽頁,選擇“UploadFiles”,在彈出框中選擇準(zhǔn)備好的數(shù)據(jù)文件demo.txt,然后進(jìn)行提交導(dǎo)入。4.實踐標(biāo)注操作在選擇導(dǎo)入文件后,在“UploadMoreFiles”按鈕旁出現(xiàn)“TreatCSV/TSCas”選框,選中“ListofTask”項。4.實踐標(biāo)注操作切換到“LabelingSetup”標(biāo)簽頁,指定項目模板類型為“TextClassification”。4.實踐標(biāo)注操作在選擇項目類型后,進(jìn)入標(biāo)簽維護(hù)界面。在“Choices”列表中,通過跟在標(biāo)簽項后的刪除按鈕刪除默認(rèn)標(biāo)簽選項。4.實踐標(biāo)注操作在“Choices”列表中,通過跟在標(biāo)簽項后的刪除按鈕刪除默認(rèn)標(biāo)簽選項。然后通過“Addchoices”進(jìn)行新增標(biāo)簽。4.實踐標(biāo)注操作為了加快標(biāo)簽維護(hù)速度,可以通過單擊“Code”按鈕切換到Code視圖,進(jìn)行復(fù)制操作。標(biāo)簽維護(hù)完成后,單擊“Save”按鈕完成項目保存。4.實踐標(biāo)注操作(3)開始標(biāo)注在樣本列表中單擊選則待標(biāo)注樣本,開始標(biāo)注。4.實踐標(biāo)注操作在標(biāo)注界面的可選標(biāo)簽中,勾選”教育“標(biāo)簽,如下圖所示:選擇完成后,單擊”Submit“進(jìn)行保存提交。4.實踐標(biāo)注操作(4)導(dǎo)出結(jié)果返回列表頁面,已經(jīng)標(biāo)注的記錄第三列從開始的“0”修改為“1”,表示標(biāo)簽的數(shù)量。4.實踐標(biāo)注操作單擊“Export”按鈕,在彈出菜單中選擇JSON格式。小結(jié)知識目標(biāo):(1)明確文本分類數(shù)據(jù)標(biāo)注概念(2)了解典型應(yīng)用場景(3)掌握標(biāo)注方式(4)掌握標(biāo)注操作思政目標(biāo):(1)了解新中國發(fā)展史的歷史縮影(2)了解中國國產(chǎn)信創(chuàng)軟件發(fā)展第四章自然語言處理任務(wù)標(biāo)注任務(wù)三

文本關(guān)系抽取標(biāo)注內(nèi)容概括文本關(guān)系抽取標(biāo)注概念典型應(yīng)用場景標(biāo)注方式標(biāo)注操作1.文本關(guān)系抽取標(biāo)注概念關(guān)系抽取與信息抽取有緊密的聯(lián)系。信息抽?。╥nformationextraction,簡稱IE),即從自然語言文本中,抽取出特定的事件或事實信息。這些信息通常包括實體(entity)、關(guān)系(relation)、事件(event)。例如從新聞中抽取時間、地點、關(guān)鍵人物,或者從技術(shù)文檔中抽取產(chǎn)品名稱、開發(fā)時間、性能指標(biāo)等。在實際操作中,信息抽取包括三個子任務(wù):關(guān)系抽?。撼槿∥谋局邪膶嶓w間的關(guān)系,構(gòu)成三元組。實體抽?。杭疵麑嶓w識別。事件抽取:一種多元關(guān)系的抽取。1.文本關(guān)系抽取標(biāo)注概念關(guān)系抽取的結(jié)果是得到三元組。三元組有三個部分組成,分別為句子的主語(subject)、謂語(predicate)和賓語(object)。取各自的英文單詞首字母,所以也稱此三元組為SPO三元組?!纠?】實現(xiàn)下面語句的關(guān)系抽取天津地處華北地區(qū)實體抽取首先檢測出這句話具有“天津”和“華北地區(qū)”兩個實體。然后根據(jù)關(guān)系判斷檢測出這句話中的“天津”和“華北地區(qū)”兩個實體具有“地處”關(guān)系。1.文本關(guān)系抽取標(biāo)注概念按照實體關(guān)系是否重疊,關(guān)系抽取又劃分為以下子類型:天津地處華北地區(qū)。該例為Normal型。因為文本中只存在一種實體關(guān)系。重疊類型含義Normal實體間只存在一種關(guān)系。EPO實體間只存在超過一種關(guān)系。SEO實體中只有一個實體對另外多個實體存在關(guān)系,其他實體對此實體是單一關(guān)系。1.文本關(guān)系抽取標(biāo)注概念【例2】找出如下語句關(guān)系中的重疊類型鄧超導(dǎo)演并主演了《銀河補習(xí)班》此文本中存在兩個實體分別為“鄧超”和“《銀河補習(xí)班》”。但在兩個實體之間存在兩種謂詞,一個是“導(dǎo)演”,另一個是“主演”。兩組三元組為(鄧超,導(dǎo)演,《銀河補習(xí)班》)和(鄧超,主演,《銀河補習(xí)班》)構(gòu)成兩組三元組,因此上述關(guān)系為EPO類型。1.文本關(guān)系抽取標(biāo)注概念【例3】找出如下語句關(guān)系中的重疊類型海河是華北最大的河流,長度在10千米以上的支流有300多條。此文本中存在三個實體分別為“海河”、“河流”和“支流”。其關(guān)系可用下圖表示:2.典型應(yīng)用場景現(xiàn)在,關(guān)系抽取的相關(guān)熱門應(yīng)用就是構(gòu)建專有領(lǐng)域的知識圖譜。例如,近年已經(jīng)有關(guān)注野生動植物保護(hù)相關(guān)知識圖譜產(chǎn)品。野生動植物保護(hù)一直是我國發(fā)展中的重要主題,同時也是一項嚴(yán)峻的任務(wù)。目前《瀕危野生動植物物種國際貿(mào)易公約》中列出640個世界瀕危物種,而我國就占了156種,約占總體的24%。按照相關(guān)學(xué)界推演統(tǒng)計,如果一旦某一種物種消失,就可能存在10種以上依附的物種面臨致命危險。2020年10月23日即“世界雪豹日”這一天,騰訊為推動野生動植物保護(hù),聯(lián)合WWF推出的“神秘雪豹在哪里”小程序正式上線。3.數(shù)據(jù)標(biāo)注方式(1)定義實體類別標(biāo)簽和關(guān)系標(biāo)簽特定的關(guān)系抽取只關(guān)注某領(lǐng)域,一般需要提前定義類別標(biāo)簽和關(guān)系標(biāo)簽。例如,3.數(shù)據(jù)標(biāo)注方式(2)標(biāo)注實體{鄧超}導(dǎo)演并主演了{(lán)《銀河補習(xí)班》}.(3)標(biāo)注關(guān)系該步驟利用之前的規(guī)則類別在實體間進(jìn)行標(biāo)注,形成三元組{鄧超,導(dǎo)演,《銀河補習(xí)班》}和{鄧超,主演,《銀河補習(xí)班》}。PERSONPRODUCT4.實踐標(biāo)注操作(1)準(zhǔn)備數(shù)據(jù)demo.txt使用“utf-8withoutBOM”編碼錄入鄧超導(dǎo)演并主演了《銀河補習(xí)班》(2)創(chuàng)建項目啟動labelstudio,選擇“Create”按鈕創(chuàng)建新項目。在彈出頁面的“ProjectName”標(biāo)簽頁中,輸入“關(guān)系提取Demo”。4.實踐標(biāo)注操作選擇“DataImport”標(biāo)簽頁,選擇“UploadFiles”,在彈出框中選擇準(zhǔn)備好的數(shù)據(jù)文件demo.txt,然后進(jìn)行提交導(dǎo)入。4.實踐標(biāo)注操作在選擇導(dǎo)入文件后,在“UploadMoreFiles”按鈕旁出現(xiàn)“TreatCSV/TSCas”選框,選中“ListofTask”項。4.實踐標(biāo)注操作切換到“LabelingSetup”標(biāo)簽頁,指定項目模板類型為“RelationExtraction”。4.實踐標(biāo)注操作在選擇項目類型后,進(jìn)入標(biāo)簽維護(hù)界面。在“Choices”列表中,通過跟在標(biāo)簽項后的刪除按鈕刪除默認(rèn)標(biāo)簽選項。4.實踐標(biāo)注操作通過界面“Addlabelnames”和“Labels”列表刪除按鈕維護(hù)標(biāo)簽,如上圖所示。左邊的“Addlabelnames”編輯框可以添加新的實體標(biāo)簽,右邊的“Labels”列表可以查看目前維護(hù)的實體標(biāo)簽并可以刪除不用的標(biāo)簽項。4.實踐標(biāo)注操作為了快速完成標(biāo)簽設(shè)置,選擇單擊如上圖所示“Code”按鈕,顯示代碼視圖來完成關(guān)系標(biāo)簽的維護(hù)。將Relations部分改為:4.實踐標(biāo)注操作(3)開始標(biāo)注 項目保存后,將出現(xiàn)項目樣本列表界面。在樣本列表中選中標(biāo)注樣本,可以進(jìn)入到樣本標(biāo)注界面。4.實踐標(biāo)注操作在開始實體標(biāo)注時,首先選擇實體標(biāo)簽,例如“Person”。然后在文本中劃詞選中相應(yīng)部分,如“鄧超”。4.實踐標(biāo)注操作在維護(hù)了該實體后,除在文本中高亮顯示選中的部分詞語外,在右側(cè)列表中將出現(xiàn)選中的實體內(nèi)容。循環(huán)上述操作直到完成所有類型實體標(biāo)記操作。4.實踐標(biāo)注操作在標(biāo)注實體關(guān)系時,需要在右側(cè)實體列表中選中某實體,如“Person鄧超”。然后單擊在實體列表上方的連接按鈕,此時鼠標(biāo)樣式變?yōu)槭中螤?,然后在文本中單擊選中的另外的實體,如“《銀河護(hù)衛(wèi)隊》”4.實踐標(biāo)注操作經(jīng)過上述操作,將在穩(wěn)重建立一個有向連接,同時在Relations列表中將出現(xiàn)一個連接實例。如下圖所示:4.實踐標(biāo)注操作單擊Relations中新建的連接旁的按鈕,選擇關(guān)系標(biāo)簽。4.實踐標(biāo)注操作(5)導(dǎo)出結(jié)果單擊項目導(dǎo)航中的“關(guān)系提取Demo”,返回列表頁面,如下圖所示。單擊“Export”按鈕,在彈出菜單中選擇JSON格式。小結(jié)知識目標(biāo):(1)明確文本關(guān)系抽取標(biāo)注概念(2)了解典型應(yīng)用場景(3)掌握標(biāo)注方式(4)掌握標(biāo)注操作思政目標(biāo):(1)了解祖國人文風(fēng)貌(2)理解人與自然和諧發(fā)展(3)了解中國國產(chǎn)智能軟件發(fā)展第四章自然語言處理任務(wù)標(biāo)注任務(wù)四

文本摘要數(shù)據(jù)標(biāo)注內(nèi)容概括文本摘要數(shù)據(jù)標(biāo)注概念典型應(yīng)用場景標(biāo)注方式標(biāo)注操作1.文本摘要數(shù)據(jù)標(biāo)注概念20世紀(jì)90年代以來,隨著互聯(lián)網(wǎng)的快速發(fā)展,自動文摘的應(yīng)用價值越來越廣,深度學(xué)習(xí)的熱潮更是為自動文本摘要的研究帶來了新的機遇。目前,自動文本摘要實現(xiàn)方法主要分為抽取式方法、生成式方法及兩者結(jié)合的方法。抽取式方法是從原始文檔中提取關(guān)鍵文本單元來組成摘要,文本單元包括但不限于字詞、短語、句子等。這種方法產(chǎn)生的摘要通常會保留源文章的顯著信息,有著正確的語法,但不可避免的是容易產(chǎn)生大量的冗余信息,且對于短文本摘要不太友好。這種方法天然的在語法、句法上錯誤率低,保證了一定的效果。傳統(tǒng)的抽取式摘要方法使用圖方法、聚類等方式完成無監(jiān)督摘要。目前流行的基于深度神經(jīng)網(wǎng)絡(luò)的完成上述任務(wù)。1.文本摘要數(shù)據(jù)標(biāo)注概念【例1】抽取式摘要狗不理包子,為天津名優(yōu)食品“三絕”之首,它在制餡、和面、揉肥、搟皮、捏包、上灶等各方面均有自己獨特的操作方法。采用抽取式摘要,其摘要結(jié)果如下:狗不理包子為天津名優(yōu)食品“三絕”之首,有獨特的操作方法。1.文本關(guān)系抽取標(biāo)注概念【例2】生成式摘要同樣針對例1中的文字,采用生成式摘要可以產(chǎn)生如下結(jié)果:狗不理包子是具有獨特操作方法的天津名優(yōu)食品“三絕”之首。2.典型應(yīng)用場景隨著目前網(wǎng)絡(luò)數(shù)字空間中文本數(shù)據(jù)的爆炸式增長,為了使人們可以輕易獲知文本大意,文本自動摘要工具應(yīng)運而生。例如,如果想從在線新聞報道中搜尋一些特定信息,需要花費大量時間剔除無用信息之后,才能找到自己想要了解的信息。因此實現(xiàn)提取有用信息并剔除無關(guān)緊要和無用數(shù)據(jù)的自動文本摘要工具變得非常重要。2.典型應(yīng)用場景隨著目前網(wǎng)絡(luò)數(shù)字空間中文本數(shù)據(jù)的爆炸式增長,為了使人們可以輕易獲知文本大意,文本自動摘要工具應(yīng)運而生。例如,如果想從在線新聞報道中搜尋一些特定信息,需要花費大量時間剔除無用信息之后,才能找到自己想要了解的信息。因此實現(xiàn)提取有用信息并剔除無關(guān)緊要和無用數(shù)據(jù)的自動文本摘要工具變得非常重要。3.數(shù)據(jù)標(biāo)注方式(1)標(biāo)識關(guān)鍵信息首先理解文本含義。根據(jù)文本含義,標(biāo)識關(guān)鍵詞語。例如:{狗不理包子},為{天津名優(yōu)食品“三絕”之首},它在制餡、和面、揉肥、搟皮、捏包、上灶等各方面均{有自己獨特的操作方法}。3.數(shù)據(jù)標(biāo)注方式(2)形成摘要內(nèi)容語句明確文字字?jǐn)?shù)上限,結(jié)合語境和文本主旨,重新組織關(guān)鍵詞匯,有必要時可以加入新的內(nèi)容。例如如果要求20字以內(nèi),可形成如下摘要內(nèi)容:狗不理包子為天津名優(yōu)食品“三絕”之首。4.實踐標(biāo)注操作(1)準(zhǔn)備數(shù)據(jù)demo.txt使用“utf-8withoutBOM”編碼錄入狗不理包子,為天津名優(yōu)食品“三絕”之首,它在制餡、和面、揉肥、搟皮、捏包、上灶等各方面均有自己獨特的操作方法。(2)創(chuàng)建項目啟動labelstudio,選擇“Create”按鈕創(chuàng)建新項目。在彈出頁面的“ProjectName”標(biāo)簽頁中,輸入“文本摘要Demo”。4.實踐標(biāo)注操作選擇“DataImport”標(biāo)簽頁,選擇“UploadFiles”,在彈出框中選擇準(zhǔn)備好的數(shù)據(jù)文件demo.txt,然后進(jìn)行提交導(dǎo)入。4.實踐標(biāo)注操作在選擇導(dǎo)入文件后,在“UploadMoreFiles”按鈕旁出現(xiàn)“TreatCSV/TSCas”選框,選中“ListofTask”項。4.實踐標(biāo)注操作切換到“LabelingSetup”標(biāo)簽頁,指定項目模板類型為“RelationExtraction”。4.實踐標(biāo)注操作在選擇后的頁面中選擇維護(hù)模板類型,將進(jìn)入如下所示界面:4.實踐標(biāo)注操作(3)開始標(biāo)注項目保存后,將出現(xiàn)項目樣本列表界面。在樣本列表中選中標(biāo)注樣本,可以進(jìn)入到樣本標(biāo)注界面。4.實踐標(biāo)注操作在“Provideonesentencesummary”下方文本框中,輸入摘要結(jié)果。如下圖所示:4.實踐標(biāo)注操作(5)導(dǎo)出結(jié)果單擊項目導(dǎo)航中的“文本摘要Demo”,返回列表頁面。單擊“Export”按鈕。小結(jié)知識目標(biāo):(1)明確文本摘要數(shù)據(jù)標(biāo)注概念(2)了解典型應(yīng)用場景(3)掌握標(biāo)注方式(4)掌握標(biāo)注操作思政目標(biāo):(1)了解中國國產(chǎn)信創(chuàng)軟件發(fā)展第四章自然語言處理任務(wù)標(biāo)注任務(wù)五

生成對話數(shù)據(jù)標(biāo)注內(nèi)容概括生成對話數(shù)據(jù)標(biāo)注概念典型應(yīng)用場景標(biāo)注方式標(biāo)注操作1.生成對話數(shù)據(jù)標(biāo)注概念自然語言智能對話作為新一代的人機交互媒介,已經(jīng)創(chuàng)建了廣泛的應(yīng)用程序。長期以來,研究人員一直在探索機器產(chǎn)生自然回復(fù)的不同方法,包括基于檢索的回復(fù),端到端的生成回復(fù),以及問答和推薦系統(tǒng)。一般來說,人機交互的智能對話系統(tǒng)場景一共分為三大類別,具體如下表所示:1.生成對話數(shù)據(jù)標(biāo)注概念進(jìn)入21世紀(jì)之后,隨著機器學(xué)習(xí)技術(shù)的發(fā)展,以及可得到的互聯(lián)網(wǎng)對話語料越來越多,數(shù)據(jù)驅(qū)動的智能對話技術(shù)愈發(fā)成熟。其中,最有代表性有基于檢索的智能對話技術(shù)和基于生成的智能對話技術(shù)。各技術(shù)優(yōu)缺點如下所示:2.典型應(yīng)用場景從智能家居設(shè)備到智能電話助手,從客戶服務(wù)到情感陪伴,人們生活周圍已經(jīng)出現(xiàn)了各式各樣的聊天機器人和各類智能對話應(yīng)用,而聊天機器人的核心技術(shù)源自智能對話。2.典型應(yīng)用場景近年,校園學(xué)生心理問題逐年增加。尤其是2020年初,新冠疫情席卷而來,全國院校轉(zhuǎn)向以網(wǎng)絡(luò)形式開展線上授課,嚴(yán)重地打亂了學(xué)生們的正常學(xué)習(xí),由此引發(fā)的恐懼、焦慮、抑郁等心理問題更加凸顯。無法得到及時有效的線下心理咨詢和開導(dǎo),導(dǎo)致更為嚴(yán)重的心理失衡狀態(tài)和心理應(yīng)激反應(yīng)。面對該類問題,起碩科技研發(fā)的小E機器人平臺通過人工智能與應(yīng)用心理學(xué)、腦科學(xué)交叉結(jié)合,運用自然語言理解、對話狀態(tài)跟蹤、對話策略和自然語言生成等技術(shù),以人機對話的形式,通過“主動引導(dǎo)對話”、“心理主題單輪對話”、“心理情緒療法多輪對話”和“生成式智能對話”的模型,對學(xué)生群體提供心理健康服務(wù),并可擴(kuò)展到其他重點人群。3.數(shù)據(jù)標(biāo)注方式(1)明確對話場景生成對話標(biāo)注前,一般需要熟悉領(lǐng)域相關(guān)知識和習(xí)慣用語。在對話系統(tǒng)中,回答內(nèi)容的好壞與上文的內(nèi)容有著直接的關(guān)聯(lián)。在標(biāo)注時最主要的一個限制條件就是上下文的內(nèi)容。評判一個對話系統(tǒng)生成答案好與壞的時候,測試者需要結(jié)合上文的內(nèi)容才能對答案作出比較公正和正確的判斷。這當(dāng)中不僅需要判斷當(dāng)前對話內(nèi)容的質(zhì)量,還涉及到對話所表達(dá)內(nèi)容邏輯的一致性與情感的合理性。上下文內(nèi)容對于多輪對話的生成起著至關(guān)重要的影響。一組對話內(nèi)容被放在不同的對話情境下會表現(xiàn)出皆然不同的效果。因此,在對一組對話內(nèi)容進(jìn)行評測時,有必要充分理解其所在的對話情境。3.數(shù)據(jù)標(biāo)注方式【例1】某電商客戶與客服對話客戶:我的快遞什么時候到啊?下單的時候說是1號可以到,現(xiàn)在都5號了,還沒到??头河惺裁磫栴}我可以幫您處理或解決呢?客戶:下單的時候說是1號可以到,現(xiàn)在都5號了,還沒到。麻煩你幫我催一下。這段對話描述了在線客服的與客戶交流的場景。在已知對話中,明顯客戶處于焦急的情緒中。所以在標(biāo)注時用語首先要安慰或緩解客戶的情緒,并且要符合公司客服的身份。3.數(shù)據(jù)標(biāo)注方式(2)根據(jù)上下文標(biāo)注對應(yīng)角色對話上述對話即使對話上下文,一般在標(biāo)注時是填寫客服回答用語。例如針對上文,可作為客服的回復(fù)如下:客服:好的呢。小妹這邊幫您催呢!3.數(shù)據(jù)標(biāo)注方式(3)明確標(biāo)注格式不同的預(yù)定義模型需要的輸入樣本格式不同,所以在正式標(biāo)注前,需要明確所需的樣本格式。例如:0 客戶 我的快遞什么時候到啊?下單時候說是1號可以到,現(xiàn)在都5號了,還沒到。0 客服 有什么問題我可以幫您處理或解決呢?0 客戶 下單的時候說是1號可以到,現(xiàn)在都5號了,還沒到。麻煩你幫我催一下。0 客服 好的呢。小妹這邊幫您催呢!1

客戶

…………4.實踐標(biāo)注操作(1)準(zhǔn)備數(shù)據(jù)demo.json由于labelstudio需要使用指定格式導(dǎo)入數(shù)據(jù),所以隨書配套腳本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論