《教師答疑系統(tǒng)設(shè)計(jì)(論文)》_第1頁(yè)
《教師答疑系統(tǒng)設(shè)計(jì)(論文)》_第2頁(yè)
《教師答疑系統(tǒng)設(shè)計(jì)(論文)》_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于Nlp的教師答疑系統(tǒng)設(shè)計(jì)1教師答疑系統(tǒng)的NLP的實(shí)現(xiàn)NLP是本系統(tǒng)的核心,解決學(xué)生提出的自然語(yǔ)言形式的問(wèn)題,從本質(zhì)上講,就是以問(wèn)題為查詢需求,在系統(tǒng)問(wèn)題資源庫(kù)中進(jìn)行搜索的過(guò)程。在自然語(yǔ)言查詢時(shí),學(xué)生提出的問(wèn)題首先交給問(wèn)題內(nèi)容過(guò)濾部件進(jìn)行過(guò)濾,如果問(wèn)題里面含有禁用詞匯,則提示出錯(cuò),查詢過(guò)程終止;否則,在問(wèn)題庫(kù)和答案庫(kù)中進(jìn)行搜索匹配;然后把滿足條件的問(wèn)題按照一定的標(biāo)準(zhǔn)進(jìn)行排序,從而把最相關(guān)的若干個(gè)問(wèn)題返回給學(xué)生。如果學(xué)生對(duì)查詢結(jié)果滿意,則查詢過(guò)程結(jié)束;如果不滿意,可以把問(wèn)題提交到無(wú)解問(wèn)題庫(kù),等待教師或其他學(xué)生回答,也可以通過(guò)站內(nèi)信箱、異步討論區(qū)互相討論。問(wèn)題查詢的基本過(guò)程如下圖所示。圖1NLP查詢的基本過(guò)程1.1分詞分詞是一切自然語(yǔ)言處理的基礎(chǔ),也是本系統(tǒng)回答自然語(yǔ)言提問(wèn)的第一步。下面對(duì)分詞所依據(jù)的詞庫(kù)、預(yù)處理和具體實(shí)現(xiàn)進(jìn)行闡述。1.1.1詞庫(kù)設(shè)計(jì)詞庫(kù)是中文分詞的依據(jù),詞庫(kù)設(shè)計(jì)的適當(dāng)與否將直接影響分詞的準(zhǔn)確程度,從而影響搜索的效率。根據(jù)查詢過(guò)程中的各階段對(duì)不同種類(lèi)的詞的需要,本系統(tǒng)設(shè)計(jì)了如下幾個(gè)詞庫(kù)。1.停用詞庫(kù)在進(jìn)行搜索的時(shí)候把哪些經(jīng)常出現(xiàn),但是又和語(yǔ)義關(guān)系不大的詞統(tǒng)統(tǒng)都刪選掉,直接執(zhí)行忽略操作,這樣大大的簡(jiǎn)化搜索條件,提高速度。2.專業(yè)詞庫(kù)答疑學(xué)科當(dāng)中經(jīng)常會(huì)用到的一些專業(yè)詞語(yǔ),是和一般的詞典是不同的,它還包括了一些重要詞組的搭配問(wèn)題,這樣做能夠最大匹配分詞法時(shí)提高分詞的準(zhǔn)確度,同樣的是凸顯出詞匯的重要性。3.禁用詞匯這就包含一些不正常詞匯,比如說(shuō)“法輪功”、“笨蛋”等等之內(nèi)的,和政治、宗教以及色情相關(guān)的詞匯進(jìn)行篩選。1.1.2預(yù)處理預(yù)處理就是在分詞之前首先把輸入的問(wèn)題分割成若干子串(這些子串一般是比較短的),然后對(duì)這些子串進(jìn)行分詞。問(wèn)題分割的依據(jù)有兩個(gè):一是顯式的標(biāo)點(diǎn)、數(shù)字及其它非中文符號(hào)。這些符號(hào)在處理時(shí)也采用不同的規(guī)則,標(biāo)點(diǎn)和數(shù)字直接過(guò)濾掉,考慮到問(wèn)題中的英文單詞,我們把連續(xù)的英文字母當(dāng)作一個(gè)子串,如“OS”。二是停用詞表中的詞匯,主要是沒(méi)有意義的詞。比方說(shuō)輸入問(wèn)題“請(qǐng)問(wèn)JSP和ASP各自的優(yōu)缺點(diǎn)是什么?”經(jīng)過(guò)了分析,分割的依據(jù)就是英文和標(biāo)點(diǎn),問(wèn)題被分成了5個(gè)子串:請(qǐng)問(wèn)/JSP和/ASP/各自的優(yōu)缺點(diǎn)是什么這樣的話,就有一個(gè)非常完整的自然語(yǔ)言形式的問(wèn)題就慢慢的轉(zhuǎn)變成為5個(gè)短字符串,接下來(lái)就是選擇適當(dāng)?shù)姆衷~算法對(duì)字符串進(jìn)行分詞。1.1.3分詞算法的實(shí)現(xiàn)作為網(wǎng)絡(luò)教學(xué)平臺(tái)的一部分,答疑系統(tǒng)主要是針對(duì)某個(gè)具體領(lǐng)域或具體學(xué)科的,所涉及的內(nèi)容具有很強(qiáng)的專業(yè)性。學(xué)生所提問(wèn)題包含的詞匯也比較集中,重復(fù)率較高,并且在問(wèn)題中一般都包含了表明問(wèn)題性質(zhì)的詞、短語(yǔ)或語(yǔ)法結(jié)構(gòu)。因此,本系統(tǒng)采用雙向最大匹配法。只要詞庫(kù)設(shè)計(jì)得合理,分詞的準(zhǔn)確性能達(dá)到較高的水平。在雙向最大匹配法是采用了一些歧義排除方法,先是通過(guò)正向和逆向最大匹配的到兩組切分結(jié)果,然后是根據(jù)一些具體的情況來(lái)決定選擇哪一組作為最終的分詞結(jié)果。1.2問(wèn)題過(guò)濾問(wèn)題過(guò)濾是指對(duì)學(xué)生提出的問(wèn)題內(nèi)容進(jìn)行檢查,判斷問(wèn)題中是否含有非法詞匯并做出相應(yīng)處理。這一過(guò)程是判斷問(wèn)題中是否包含于禁用詞庫(kù)中的詞,如果包含,則系統(tǒng)認(rèn)為該問(wèn)題是非法的,給學(xué)生出錯(cuò)提示,搜索過(guò)程終止。如果系統(tǒng)認(rèn)為問(wèn)題合法,則進(jìn)行下一步的處理。1.3基于文本段的空間模型1.3.1文本段文本段是指文檔中一個(gè)具有獨(dú)立邏輯意義的文本部分。例如,一般文檔中的標(biāo)題、摘要、正文乃至參考文獻(xiàn)部分都可以看作是一個(gè)文本段。實(shí)際操作中,文本段可以根據(jù)文檔的表現(xiàn)形式予以確定。在本系統(tǒng)中,學(xué)生提出的新問(wèn)題是一個(gè)文本段,一個(gè)有解問(wèn)題及其所有答案一起看作為一個(gè)搜索文檔,是一個(gè)整體,而這個(gè)有解問(wèn)題及各個(gè)答案都作為此搜索文檔的文本段。1.3.2特征向量本系統(tǒng)要用到的特征項(xiàng)是文本段的特征項(xiàng),設(shè)文檔集為C,文檔D的第i個(gè)文本段記為Si,Si中第k個(gè)特征項(xiàng)記為T(mén)ik(k=1,2,…,n,n為特征項(xiàng)總數(shù))。文檔、文本段、特征項(xiàng)之間的關(guān)系如下圖所示。圖2文檔結(jié)構(gòu)圖特征項(xiàng)權(quán)重的計(jì)算是基于文本段的向量空間模型中最重要的步驟。設(shè)文檔集為C時(shí),Tik在Si中的權(quán)重記為),(iikCSTw,計(jì)算公式可以通過(guò)公式得到。其中,tf(Tik,Si)表示特征項(xiàng)Tik在文本段Si中出現(xiàn)的次數(shù);N表示文檔集C中的文檔總數(shù),ikTn為文檔集中包含Tik的文檔數(shù)。1.3.3相似度與閥值本系統(tǒng)中,新提問(wèn)題Q和搜索文檔D的相關(guān)性首先由局部相似度最大值來(lái)度量,當(dāng)最大值是超過(guò)了某一設(shè)定值的時(shí)候,就能夠認(rèn)為文檔D與Q的相關(guān)性較大,能夠滿足學(xué)生的提問(wèn)需求。當(dāng)有多大文檔符合的時(shí)候,就會(huì)按照Q和各文檔的局部相似度的最大值進(jìn)行降序排列,然后把問(wèn)題返回給學(xué)生。1.4用戶反饋用戶反饋是讓學(xué)生對(duì)檢索結(jié)果進(jìn)行判斷,這些問(wèn)題是否滿足查詢需求。如果滿足則直接查看即可;如果沒(méi)有查詢到相關(guān)問(wèn)題或?qū)W生對(duì)結(jié)果不滿意,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論