




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、會計學(xué)1非結(jié)構(gòu)化數(shù)據(jù)的處理非結(jié)構(gòu)化數(shù)據(jù)的處理提綱提綱 非結(jié)構(gòu)化數(shù)據(jù)處理概述 自然語言處理技術(shù)概述 自然語言處理的基本技術(shù)第1頁/共31頁什么是非結(jié)構(gòu)化數(shù)據(jù)什么是非結(jié)構(gòu)化數(shù)據(jù)n相對于結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。第2頁/共31頁絕大部分數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)絕大部分數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)n世界上85%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%。第3頁/共31頁非結(jié)構(gòu)化數(shù)據(jù)處理的技術(shù)非結(jié)構(gòu)化數(shù)據(jù)處理
2、的技術(shù)n非結(jié)構(gòu)化數(shù)據(jù)處理的主要技術(shù)是自然語言處理技術(shù)。用來對非結(jié)構(gòu)化數(shù)據(jù)進行各種層次的理解。自然語言處理技術(shù)我要去清華大學(xué),從西直門怎么走?學(xué)院路堵不堵?為什么我上個月已退了GPRS,這個月還扣我錢?服務(wù):路線查詢起點:西直門終點:清華大學(xué)服務(wù):路況查詢地點:學(xué)院路服務(wù):客服投訴業(yè)務(wù):GPRS訴求:錯誤扣費第4頁/共31頁提綱提綱 非結(jié)構(gòu)化數(shù)據(jù)處理概述 自然語言處理技術(shù)概述 自然語言處理的基本技術(shù)第5頁/共31頁自然語言的概念自然語言的概念 什么是自然語言自然語言 語言是人類交際的工具,是人類思維的載語言是人類交際的工具,是人類思維的載體體 人造語言:編程語言,包括人造語言:編程語言,包括C+
3、, BASIC等等 世界語世界語 自然語言:自然語言: 形式:口語、書面語、手語形式:口語、書面語、手語 語種:漢語、英語、日語、法語語種:漢語、英語、日語、法語 語言學(xué)是研究語言規(guī)律的科學(xué)第6頁/共31頁網(wǎng)絡(luò)語言網(wǎng)絡(luò)語言“昨晚,我的JJ帶著他的青蛙BF到我家來吃飯。在飯桌上,JJ的BF一個勁兒地對我媽媽PMP,說她年輕的時候一定是個漂亮MM,那醬紫真是好BT,7456” JJ : 姐姐姐姐 醬紫醬紫:這樣子 BF : boy friend青蛙:長相不好的男朋友青蛙:長相不好的男朋友 PMP:拍馬屁拍馬屁MM:妹妹:妹妹BT:變態(tài):變態(tài)7456:氣死我了:氣死我了第7頁/共31頁語言的構(gòu)成語言
4、的構(gòu)成語言詞匯語法詞熟語詞法句法詞素構(gòu)形法構(gòu)詞法詞組構(gòu)造法造句法語言詞匯語法詞熟語詞法詞素句法構(gòu)形法構(gòu)詞法詞組構(gòu)造法語言詞匯語法詞熟語詞法詞素第8頁/共31頁自然語言處理的層次自然語言處理的層次 語音分析語音分析:從語音流中區(qū)分出一個一個聲音:從語音流中區(qū)分出一個一個聲音單元單元-音素音素 詞法分析詞法分析:從句子中切分出單詞、找出詞匯:從句子中切分出單詞、找出詞匯的各個詞素,確定單詞的詞性、詞義等。的各個詞素,確定單詞的詞性、詞義等。 句法分析句法分析:對句子和短語的結(jié)構(gòu)進行分析,:對句子和短語的結(jié)構(gòu)進行分析,找出詞、短語等的相互關(guān)系及在句子中的作找出詞、短語等的相互關(guān)系及在句子中的作用等。
5、用等。 語義分析語義分析:識別一句話所表達的實際意義。:識別一句話所表達的實際意義。 語用分析語用分析:研究語言所在的外界環(huán)境對語言:研究語言所在的外界環(huán)境對語言使用所產(chǎn)生的影響。使用所產(chǎn)生的影響。第9頁/共31頁語義與語義與語用語用 同一詞語在不同的同一詞語在不同的“語境語境”中具有不同中具有不同“語義語義” 例如:中國奧運史上十大女杰的精彩例如:中國奧運史上十大女杰的精彩“轉(zhuǎn)身轉(zhuǎn)身” 病毒病毒 計算機領(lǐng)域:計算機病毒計算機領(lǐng)域:計算機病毒 醫(yī)學(xué)領(lǐng)域:生物學(xué)病毒醫(yī)學(xué)領(lǐng)域:生物學(xué)病毒第10頁/共31頁自然語言處理的概念自然語言處理的概念自然語言處理自然語言處理( Natural Languag
6、e Processing,NLP ) 也稱也稱自然語言理解自然語言理解或或計算語言學(xué)計算語言學(xué); 主要研究如何讓機器進行自然語言信息處理,即主要研究如何讓機器進行自然語言信息處理,即人類語言活動中,信息成分的人類語言活動中,信息成分的發(fā)現(xiàn)發(fā)現(xiàn)、提取提取、存儲存儲、加工加工與與傳輸。傳輸。 NLP是計算機科學(xué)、語言學(xué)、人工智能與數(shù)學(xué)等是計算機科學(xué)、語言學(xué)、人工智能與數(shù)學(xué)等學(xué)科的交叉學(xué)科和邊緣學(xué)科。學(xué)科的交叉學(xué)科和邊緣學(xué)科。計算語言學(xué)是從計算角度處理語言計算語言學(xué)是從計算角度處理語言 將人們對語言的結(jié)構(gòu)規(guī)律的認識用精確的、形式將人們對語言的結(jié)構(gòu)規(guī)律的認識用精確的、形式化的、可計算的方式(計算模型)
7、加以表示?;摹⒖捎嬎愕姆绞剑ㄓ嬎隳P停┘右员硎?。第11頁/共31頁自然語言理解的困難自然語言理解的困難自然語言具有多樣性自然語言具有多樣性(不同語種、不同地域、不(不同語種、不同地域、不同人群)同人群)自然語言具有進化性自然語言具有進化性自然語言的模糊性自然語言的模糊性自然語言的歧義性自然語言的歧義性 處理歧義問題是處理歧義問題是NLP的的核心問題核心問題。自然語言處。自然語言處理過程就是各種歧義現(xiàn)象的消解過程。理過程就是各種歧義現(xiàn)象的消解過程。第12頁/共31頁自然語言理解的困難自然語言理解的困難第13頁/共31頁機器能夠理解人的語言嗎機器能夠理解人的語言嗎? 很難!很難!什么是理解?什么
8、是理解? 結(jié)構(gòu)主義:機器的理解機制與人相同(白盒)結(jié)構(gòu)主義:機器的理解機制與人相同(白盒) 問題:人類語言理解機理尚未清楚問題:人類語言理解機理尚未清楚 功能主義:機器的表現(xiàn)與人相同即可(黑盒)功能主義:機器的表現(xiàn)與人相同即可(黑盒) 圖靈測試圖靈測試 如果通過自然語言的問答,一個人無法如果通過自然語言的問答,一個人無法識別和他對話的是人還是機器,那么就識別和他對話的是人還是機器,那么就應(yīng)該承認機器具有智能應(yīng)該承認機器具有智能第14頁/共31頁理解自然語言的理解自然語言的準則準則n給計算機輸入一段自然語言文本,如果計算機能給計算機輸入一段自然語言文本,如果計算機能n問答問答(question-
9、answering)(question-answering)機器能正確地回答輸入機器能正確地回答輸入 文本中的有關(guān)問題;文本中的有關(guān)問題;n文摘生成文摘生成(summarizing)(summarizing)機器有能力產(chǎn)生輸入文本機器有能力產(chǎn)生輸入文本 的摘要;的摘要;n復(fù)述復(fù)述(paraphrase)(paraphrase)機器用不同的詞語和語句復(fù)述輸機器用不同的詞語和語句復(fù)述輸入文本;入文本;n翻譯翻譯(translation)(translation)機器把一種語言機器把一種語言( (源語言源語言) )翻譯翻譯為為 另一種語言另一種語言( (目標(biāo)語言目標(biāo)語言) )第15頁/共31頁自然語
10、言處理的研究自然語言處理的研究目標(biāo)目標(biāo)n弱人工智能目標(biāo)弱人工智能目標(biāo):建立一個足夠精確的語言數(shù):建立一個足夠精確的語言數(shù)學(xué)模型使計算機通過編程來完成自然語言的相學(xué)模型使計算機通過編程來完成自然語言的相關(guān)任務(wù)。如:聽、讀、寫、說,釋義,翻譯,關(guān)任務(wù)。如:聽、讀、寫、說,釋義,翻譯,回答問題等回答問題等;n強人工智能目標(biāo)強人工智能目標(biāo):讓用戶能通過自然語言與計:讓用戶能通過自然語言與計算機自由對話;算機自由對話;第16頁/共31頁自然語言處理的自然語言處理的研究內(nèi)容研究內(nèi)容應(yīng)用系統(tǒng)數(shù)字圖書館、電子商務(wù)、電子政務(wù)、遠程教育、語言學(xué)習(xí)基礎(chǔ)研究分詞、詞性標(biāo)注、短語切分、句法分析、語義分析、篇章理解等應(yīng)用
11、技術(shù)研究自動問答、機器翻譯、信息檢索、文本挖掘、自動校對、信息抽取資源建設(shè)語料庫資源建設(shè)語言學(xué)知識庫建設(shè)語言學(xué)家NLP研究者軟件企業(yè)第17頁/共31頁自然語言處理自然語言處理的應(yīng)用的應(yīng)用NLP應(yīng)用前景應(yīng)用前景 據(jù)統(tǒng)計,日常工作中據(jù)統(tǒng)計,日常工作中80%的信息來源于語言,處的信息來源于語言,處理文本的需求在不斷增長理文本的需求在不斷增長 文本是人類知識最大的存儲源,并且文本的數(shù)文本是人類知識最大的存儲源,并且文本的數(shù)量在不停地增長量在不停地增長電子郵件、新聞、網(wǎng)頁、科技論文、電子郵件、新聞、網(wǎng)頁、科技論文、 用戶抱怨信用戶抱怨信NLP典型應(yīng)用典型應(yīng)用 智能搜索引擎、自動問答、信息獲取、語義網(wǎng)智能
12、搜索引擎、自動問答、信息獲取、語義網(wǎng) 語音識別,文字識別、輸入法語音識別,文字識別、輸入法 機器翻譯,自動文摘,跨語言檢索機器翻譯,自動文摘,跨語言檢索 文本分類、文本聚類、文本分析(結(jié)構(gòu)、內(nèi)容、文本分類、文本聚類、文本分析(結(jié)構(gòu)、內(nèi)容、情感)、文本挖掘(主題跟蹤:人物跟蹤,企情感)、文本挖掘(主題跟蹤:人物跟蹤,企業(yè)跟蹤業(yè)跟蹤)、文本過濾、文本過濾第18頁/共31頁自然語言處理自然語言處理的應(yīng)用趨勢的應(yīng)用趨勢智能接口智能接口 功能:功能:把現(xiàn)實世界中的信息送入電子世界把現(xiàn)實世界中的信息送入電子世界 主要成果主要成果拼音輸入、手寫輸入、語音合成、語音輸入,手機輸入拼音輸入、手寫輸入、語音合成、
13、語音輸入,手機輸入知識處理知識處理 功能:功能:對于已進入電子世界中的信息進行加工處理獲得知識對于已進入電子世界中的信息進行加工處理獲得知識 知識經(jīng)濟的時代已經(jīng)到來!知識經(jīng)濟的時代已經(jīng)到來! 知識就是力量知識就是力量知識就是財富知識就是財富 百度愛問、百度文庫、新浪愛問、百度愛問、百度文庫、新浪愛問、VC知識庫知識庫第19頁/共31頁提綱提綱 非結(jié)構(gòu)化數(shù)據(jù)處理概述 自然語言處理技術(shù)概述 自然語言處理的基本技術(shù)第20頁/共31頁自然語言處理自然語言處理的基本技術(shù)的基本技術(shù) 詞法分析詞法分析 句法分析句法分析 語義分析語義分析第21頁/共31頁詞法分析概述詞法分析概述 詞法分析目的是從句子中切分出
14、單詞,找出詞匯詞法分析目的是從句子中切分出單詞,找出詞匯的各個的各個詞素詞素,從中獲得單詞的語言學(xué)信息并確定,從中獲得單詞的語言學(xué)信息并確定單詞的單詞的詞性詞性詞性詞性 : 名詞、動詞、形容詞、介詞等名詞、動詞、形容詞、介詞等詞的構(gòu)成詞的構(gòu)成 : 動賓動賓, 動補動補, 偏正偏正, 主謂主謂如如: 開學(xué)開學(xué), 生病生病, 加深加深, 認清認清, 原油原油, 火熱火熱, 頭痛頭痛, 人造人造自動分詞自動分詞: 漢語處理的難題之一漢語處理的難題之一 用程序從句子中切分出單詞用程序從句子中切分出單詞第22頁/共31頁詞法分析的分詞歧義詞法分析的分詞歧義例:南京市長江大橋例:南京市長江大橋 南京南京|
15、市長市長|江大橋江大橋 南京市南京市|長江長江|大橋大橋 例:我們研究所有東西例:我們研究所有東西 我們我們-研究所研究所-有有-東西東西(交叉歧義)(交叉歧義) 我們我們-研究研究-所有所有-東西東西把手放在桌上把手放在桌上 把把-手手-放在放在-桌上桌上(組合歧義)(組合歧義) 把手把手-放在放在-桌上桌上第23頁/共31頁句法分析概述句法分析概述目的:分析目的:分析句子結(jié)構(gòu)句子結(jié)構(gòu), , 找出詞找出詞, ,短語在句中的相互短語在句中的相互關(guān)系以及各自的作用關(guān)系以及各自的作用, , 并用層次結(jié)構(gòu)來加以表示并用層次結(jié)構(gòu)來加以表示S NP VP V NPPPMiss Smith put two
16、 books on this dining table.第24頁/共31頁句法分析過程句法分析過程 一一個句子是由各種不同的句子個句子是由各種不同的句子成分組成的。這些成分可以成分組成的。這些成分可以是單詞、詞組或從句。句子是單詞、詞組或從句。句子成分還可以按其作用分為主成分還可以按其作用分為主語、謂語、賓語、賓語補語語、謂語、賓語、賓語補語、定語、狀語、表語等。這、定語、狀語、表語等。這種關(guān)系可用一棵樹來表示,種關(guān)系可用一棵樹來表示,如對句子:如對句子: He wrote a book. 可用圖示的樹形結(jié)構(gòu)來表示??捎脠D示的樹形結(jié)構(gòu)來表示。 句子句子主語主語謂語謂語動詞動詞賓語賓語Hewro
17、teabook第25頁/共31頁句法分析過程句法分析過程 一一個句子又是由若干個個句子又是由若干個詞類構(gòu)成的,如名詞詞類構(gòu)成的,如名詞、動詞、代詞、形容、動詞、代詞、形容詞等。若從句子的詞詞等。若從句子的詞類來考慮,一個句子類來考慮,一個句子也可用一棵樹來表示也可用一棵樹來表示,這種樹稱為句子的,這種樹稱為句子的分析樹,如圖所示:分析樹,如圖所示:句子句子代代 詞詞動詞短語動詞短語動動 詞詞名詞短語名詞短語Hewroteabook第26頁/共31頁語義分析概述語義分析概述 語義分析就是要識別一句話所表達的實際意義。即弄清楚“干什么了”,“誰干的”,“這個行為的原因和結(jié)果是什么”以及“這個行為發(fā)生的時間、地點及其所用的工具或方法”等。 語義分析僅是在句法范圍內(nèi)根據(jù)詞性信息來分析自然語言中句子的文法結(jié)構(gòu)的,由于它沒有考慮句子本身的含義,也就不能排除像 The paper received the professor. 這種在語法結(jié)構(gòu)上正確,但實際意義上錯誤的句子。第27頁/共31頁語義分析過程語義分析過程John gave the book to SallyGAVE Agent: John Object: the book Source: John Goal: SallyAgent(施事):指行為的施動者;Object(受事):指行為作用的對象;C
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度門面房出租與租賃期限調(diào)整合同
- 二零二五年度診所負責(zé)人安全責(zé)任免除合同
- 服務(wù)器采購合同共
- 無人機研發(fā)制造投資合同
- 水利設(shè)施施工合同
- 高考語文復(fù)習(xí)-文言文專題訓(xùn)練-《遼史》
- 高考語文復(fù)習(xí):文言文霍去病專練
- 農(nóng)業(yè)產(chǎn)業(yè)孵化項目合作協(xié)議書
- 業(yè)務(wù)流程外包服務(wù)協(xié)議內(nèi)容詳訂
- 數(shù)字媒體設(shè)計技能考核點
- 硬件設(shè)計的模塊化
- 學(xué)校食堂食品安全投訴舉報登記表
- 梁湘潤.命學(xué)精華
- 六年級上冊心理健康課件6《健康上網(wǎng)快樂多》(27張PPT)
- 城市軌道交通工程施工組織設(shè)計與概預(yù)算PPT全套完整教學(xué)課件
- 某高速公路江蘇段施工組織設(shè)計
- 全國青少年機器人技術(shù)等級(機器人二級)考試復(fù)習(xí)題庫(含真題)
- 學(xué)習(xí)弘揚雷鋒精神課件
- 行政區(qū)域代碼表Excel
- 精神病醫(yī)院管理制度
- 化工廠中控DCS系統(tǒng)崗位職責(zé)
評論
0/150
提交評論