




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、北京語(yǔ)料庫(kù)檢索使用說明首頁(yè)一關(guān)于CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)二關(guān)于查詢表達(dá)式2.1特殊符號(hào)2.2基本項(xiàng)2.3簡(jiǎn)單項(xiàng)2.4復(fù)雜項(xiàng)2.5過濾項(xiàng)2.6子旬2.7查詢表達(dá)式三關(guān)于查詢結(jié)果四在結(jié)果中查找五舉例一關(guān)于CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)(1)CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)為純學(xué)術(shù)非盈利性的。不得將本系統(tǒng)及其產(chǎn)生的檢索結(jié)果用于任何商業(yè)目的。CC口承擔(dān)由此產(chǎn)生的一切后果。(1)本語(yǔ)料庫(kù)僅供語(yǔ)言研究參考之用。語(yǔ)料本身的正確性需要您自己加以核實(shí)(1)語(yǔ)料庫(kù)中所含語(yǔ)料的基本內(nèi)容信息可以在“高級(jí)搜索”頁(yè)面上, 點(diǎn)擊相應(yīng)的鏈接查看。比如:“作者列表”:列出語(yǔ)料庫(kù)中所包含的文件的作者“篇名列表”:列出語(yǔ)料庫(kù)中所包含的篇目名“類
2、型列表”:列出語(yǔ)料庫(kù)中文章的分類信息“路徑列表”:列出語(yǔ)料庫(kù)中各文件在計(jì)算機(jī)中存放的目錄“模式列表”:列出語(yǔ)料庫(kù)中可以查詢的模式(1)語(yǔ)料庫(kù)中的中文文本未經(jīng)分詞處理。(1)檢索系統(tǒng)以漢字為基本單位。(1)主要功能特色:支持復(fù)雜檢索表達(dá)式(比如不相鄰關(guān)鍵字查詢,指定距離查詢,等等);支持對(duì)標(biāo)點(diǎn)符號(hào)的查詢(比如查詢”可以檢索語(yǔ)料庫(kù)中所有疑問句);支持在“結(jié)果集”中繼續(xù)檢索;用戶可定制查詢結(jié)果的顯示方式(如左右長(zhǎng)度,排序等);用戶可從網(wǎng)頁(yè)上下載查詢結(jié)果(text文件);二關(guān)于查詢表達(dá)式本節(jié)對(duì)CCL語(yǔ)料庫(kù)檢索系統(tǒng)目前支持的查詢表達(dá)式加以說明。特殊符號(hào)查詢表達(dá)式中可以使用的特殊符號(hào)包括7個(gè):|$#+-!
3、這些符號(hào)分為三組:Operator1:|Operator2:$#+-Operaotr3:!符號(hào)的含義如下:(一)Operator1:Operator1是二元操作符,它的兩邊可以出現(xiàn)“基本項(xiàng)”(關(guān)于“基本項(xiàng)”的定義見2.2)|相當(dāng)于邏輯中的“或”關(guān)系。(二)Operator2:Operator2是二元操作符,它的兩邊可以出現(xiàn)“簡(jiǎn)單項(xiàng)”(關(guān)于“簡(jiǎn)單項(xiàng)”的定義見2.3)$表示它兩邊的“簡(jiǎn)單項(xiàng)”按照左邊在前、右邊在后的次序出現(xiàn)于同一句中。兩個(gè)“簡(jiǎn)單項(xiàng)”之間相隔字?jǐn)?shù)小于或等于Number#表示它兩邊的“簡(jiǎn)單項(xiàng)”出現(xiàn)于同一句中,不考慮前后次序。兩個(gè)“簡(jiǎn)單項(xiàng)”之間相隔字?jǐn)?shù)小于或等于Number+表示它兩邊的
4、“簡(jiǎn)單項(xiàng)”按照左邊在前、右邊在后的次序出現(xiàn)于同一句中。兩個(gè)“簡(jiǎn)單項(xiàng)”之間相隔字?jǐn)?shù)剛好等于Number-表示它左邊的“簡(jiǎn)單項(xiàng)”出現(xiàn)于句子中,并且,在右邊相隔Number個(gè)字的范圍內(nèi),-號(hào)右邊的“簡(jiǎn)單項(xiàng)”不出現(xiàn)。表示它左邊的“簡(jiǎn)單項(xiàng)”出現(xiàn)于句子中,并且,在左邊相隔Number個(gè)字的范圍內(nèi),號(hào)右邊的“簡(jiǎn)單項(xiàng)”不出現(xiàn)。(三)Operators:Operators是一元操作符。!表示它后面的“簡(jiǎn)單項(xiàng)”是本次查詢的主關(guān)鍵字符串,顯示查詢結(jié)果時(shí)以該“簡(jiǎn)單項(xiàng)”作為中心來進(jìn)行定位。注意:Operator2后面的Number是必須的,不能省略。Number=0表示相鄰,Number=1表示間隔1個(gè)單位,其余依此類
5、推?;卷?xiàng)指不包含特殊符號(hào)和空格的連續(xù)字符串簡(jiǎn)單項(xiàng)簡(jiǎn)單項(xiàng)可以由以下三種形式的序列組成基本項(xiàng)基本項(xiàng)1Operatori基本項(xiàng)2Operatori.(3)(基本項(xiàng)1Operator1基本項(xiàng)2Operator1.)注意:在實(shí)際表達(dá)式中,Operator1前后不能有空格復(fù)雜項(xiàng)復(fù)雜項(xiàng)可以由以下三種形式的序列組成簡(jiǎn)單項(xiàng)簡(jiǎn)單項(xiàng)1Operator2Number簡(jiǎn)單項(xiàng)2簡(jiǎn)單項(xiàng)1Operator2NumberOperators簡(jiǎn)單項(xiàng)2其中第二種形式,等價(jià)于Operators簡(jiǎn)單項(xiàng)1Operator2Number簡(jiǎn)單項(xiàng)2,換句話說,如果以第一個(gè)簡(jiǎn)單項(xiàng)作為查詢結(jié)果的顯示中心,!可以省略。注意:Number為0和正整數(shù)
6、。Operator2,Operators前后均不能有空格過濾項(xiàng)過濾項(xiàng)可以包含以下表達(dá)式:author:簡(jiǎn)單項(xiàng)name簡(jiǎn)單項(xiàng)path:簡(jiǎn)單項(xiàng)type:簡(jiǎn)單項(xiàng)pattern:簡(jiǎn)單項(xiàng)(author:簡(jiǎn)單項(xiàng)”的含義是指“author:后面跟的表達(dá)式是上面2.3”簡(jiǎn)單項(xiàng)”所定義的字符串,其余類推)注意:通過指定過濾項(xiàng)中author(作者),name(篇名),path(文件路徑),type(文章類型) ,用戶可以縮小查詢語(yǔ)料的范圍。其中過濾項(xiàng)pattern專門用于查詢漢語(yǔ)中的各種模式,比如“AABB這樣的重疊形式,“AB不AB這樣的反復(fù)問形式,等等。比如:想查詢“老舍”的語(yǔ)料,在查詢表達(dá)式中輸入“auth
7、or:老舍”即可;想查詢唐代語(yǔ)料,在查詢表達(dá)式中輸入“path:08唐”即可(唐代語(yǔ)料均放在包含“08唐”目錄下)。想查詢唐代語(yǔ)料中“給”的使用情況,可以在查詢表達(dá)式中輸入“path:唐給。(“path:唐”跟關(guān)鍵字“給”之間需有空格隔開)想查詢“老舍”先生的文章中“A來A去”的用法,在查詢表達(dá)式中輸入“author:老舍pattern:A來A去”即可。各過濾項(xiàng)的具體取值,用戶可以在“高級(jí)搜索”頁(yè)而中杳到(參見上文1.2)。下面是古代漢語(yǔ)語(yǔ)料一級(jí)目錄列表:01周02春秋03戰(zhàn)國(guó)04西漢05東漢06六朝07隋08唐09五代10北宋11南宋12元13明14清15民國(guó)全元曲全唐詩(shī)全宋詞大藏諸子百家子
8、旬子句可以是以下兩類表達(dá)式:復(fù)雜項(xiàng)過濾項(xiàng)查詢表達(dá)式查詢表達(dá)式可以是以下形式的序列:(1)子旬子旬1子旬2.(子旬和子句之間需要以空格隔開,表示邏輯“AND關(guān)系)三關(guān)于查詢結(jié)果1每次查詢,網(wǎng)頁(yè)上最多列出5000條結(jié)果(分頁(yè)列出,每頁(yè)50條)。2用戶可以將查詢所得結(jié)果保存到自己本地計(jì)算機(jī)的磁盤上。在查詢結(jié)果顯示網(wǎng)頁(yè)上,用戶可以根據(jù)需要指定下載結(jié)果的條數(shù)(缺省為500條),點(diǎn)擊“下載”按鈕,查詢結(jié)果即以txt文件形式保存到本地磁盤上。每句之后在【】?jī)?nèi)注明了該句的出處、作者、路徑等信息。(如果條數(shù)較多,文件會(huì)比較大,下載速度緩慢,請(qǐng)耐心等待,不要重復(fù)提交下載請(qǐng)求)。3查詢結(jié)果以“旬”為單位輸出顯示,
9、用戶可以指定查詢結(jié)果的顯示長(zhǎng)度 (左右n個(gè)字范圍) 。小提示:如果想顯示查詢關(guān)鍵字所在的整句,可以通過指定足夠大的顯示長(zhǎng)度(比如1000)來實(shí)現(xiàn)。當(dāng)用戶指定的顯示長(zhǎng)度超過句長(zhǎng)時(shí),以句長(zhǎng)為限顯示結(jié)果。4關(guān)于查詢結(jié)果的“標(biāo)亮”和“定位”顯示標(biāo)亮詞:在句子中以紅顏色標(biāo)出的詞,可以有多個(gè);中心詞:是一個(gè)特殊的標(biāo)亮詞,顯示查詢結(jié)果的每個(gè)句子時(shí),以“中心詞”為網(wǎng)頁(yè)中心位置對(duì)齊。小提示:查詢表達(dá)式中的“復(fù)雜項(xiàng)”和“過濾項(xiàng)”中的pattern項(xiàng)目都可以作為“標(biāo)亮詞”。這里“標(biāo)亮詞”是指跟“標(biāo)亮詞”匹配的句子片斷。默認(rèn)的中心詞是第一個(gè)“標(biāo)亮詞”,即在用戶沒有用Operator2指定“中心詞”的情況下,系統(tǒng)自動(dòng)把
10、第一個(gè)“標(biāo)亮詞”當(dāng)作“中心詞”。如果用戶用Operator2指定了“中心詞”,那么該詞為用戶指定的“中心詞”。5關(guān)于查詢結(jié)果的“排序”用戶可以指定按照“中心詞”左邊字符串排序,或按照“中心詞”右邊字符串排序。排序方式為字符內(nèi)碼(GB碼)降序。四在結(jié)果中查找對(duì)于復(fù)雜的查詢要求,可以嘗試通過多次查詢完成,即利用“在結(jié)果中查找”功能,逐次逼近檢索目標(biāo)。比如:您想查找“寧可,也”的例句,同時(shí)不希望“也”后面出現(xiàn)“不”這樣的否定詞。您可以先輸入查詢表達(dá)式“寧可$10也”,返回的結(jié)果是包含“寧可”和“也”,且二者相隔10字以內(nèi)的句子,然后您再輸入查詢表達(dá)式“也-4不”,這樣就可以把“也”后面4字范圍內(nèi)有“
11、不”的句子剔除掉了。五舉例查詢式例子1:計(jì)算機(jī)硬件意思是:查出所有包含“計(jì)算機(jī)硬件”的句子。查詢式例子2:把被意思是:查出所有包含“把”,同時(shí)也包含“被”的句子,即兩個(gè)關(guān)鍵字之間無次序限制,無距離限制,只需要在一句范圍內(nèi)。查詢式例子3:把|被意思是:查出含有“把”或“被”的句子,兩個(gè)關(guān)鍵字只需有一個(gè)在旬中出現(xiàn),就作為查詢結(jié)果輸出。查詢式例子4:把-4不意思是:查出含有“把”,但在“把”右邊4個(gè)字范圍內(nèi)不含“不”的句子。注意:-號(hào)屬于opertaor2,其后必須有數(shù)字,且不能有空格。查詢式例子5:給4把意思是:查出含有“給”,但在“給”左邊4個(gè)字范圍內(nèi)不含“把”的句子。注意:號(hào)屬于operato
12、r2,其后必須有數(shù)字,且不能有空格。查詢式例子6:與其$10不如意思是: 查出同時(shí)含有“與其”和“不如”的句子, 并且“與其”在先,“不如”在后出現(xiàn),間隔10字以內(nèi)。查詢式例子7:能力#3大意思是:查出同時(shí)含有“能力”和“大”的句子,且“能力”和“大”之間的問隔在3個(gè)字之內(nèi),二者的先后次序不受限制。查詢式例子8:吃+3虧意思是:查出同時(shí)含有“吃”和“虧”的句子,并且“吃”在先,“虧”在后出現(xiàn),二者之間剛好間隔3個(gè)字。查詢式例子9:被$10!給意思是:查出同時(shí)含有“被”和“給”的句子,并且“被”在先,“給”在后出現(xiàn),二者之間間隔10個(gè)字以內(nèi)。顯示查詢結(jié)果時(shí),以“給”為“中心詞”,即“給”居中對(duì)齊。查詢式例子10:(把|被)$10給意思是:查出同時(shí)含有“把”和“給”的句子,并且“把”在先,“給”在后出現(xiàn),二者之間間隔10個(gè)字以內(nèi)?;蛘?,查出同時(shí)含有“被”和“給”的句子,并且“被”在先,“給”在后出現(xiàn),二者之間間隔10個(gè)字以內(nèi)。查詢式例子11:(把|被)$10!給意思是:查出同時(shí)含有“把”和“給”的句子,并且“把”在先,“給”在后出現(xiàn),二者之間間隔10個(gè)字以內(nèi)。或者,查出同時(shí)含有“被”和“給”的句子,并且“被”
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 防水透氣屋頂涂料企業(yè)制定與實(shí)施新質(zhì)生產(chǎn)力戰(zhàn)略研究報(bào)告
- 班級(jí)自主管理總結(jié)模版
- 生物基可降解塑料生產(chǎn)行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 工業(yè)潤(rùn)滑劑環(huán)保化行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 網(wǎng)絡(luò)小說連載行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 環(huán)保型清潔用品生產(chǎn)與推廣企業(yè)制定與實(shí)施新質(zhì)生產(chǎn)力戰(zhàn)略研究報(bào)告
- 導(dǎo)電助劑創(chuàng)新行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 光伏微電網(wǎng)源荷預(yù)測(cè)及優(yōu)化調(diào)度研究
- 高純氧化鉭行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 基于祛邪生肌法運(yùn)用解毒生肌湯外洗干預(yù)糖尿病合并肛瘺術(shù)后愈合的臨床研究
- 光伏-施工安全培訓(xùn)
- 2023年初中學(xué)生綜合素質(zhì)自我評(píng)價(jià)標(biāo)準(zhǔn)版本
- 機(jī)器人制造與工藝
- 參保個(gè)人停保申請(qǐng)表
- 武漢光谷為明實(shí)驗(yàn)學(xué)校六年級(jí)小升初語(yǔ)文測(cè)試卷(8套試卷帶答案解析)
- 兒童環(huán)內(nèi)環(huán)內(nèi)置式包皮
- 永安道路貨物運(yùn)輸承運(yùn)人責(zé)任保險(xiǎn)附加司乘人員責(zé)任保險(xiǎn)(2020版)條款
- 汽車客運(yùn)站危險(xiǎn)源辨識(shí)和風(fēng)險(xiǎn)評(píng)價(jià)記錄表
- 刑事證據(jù)課件
- GB/T 24747-2023有機(jī)熱載體安全技術(shù)條件
- 滬教小學(xué)英語(yǔ)句型轉(zhuǎn)換專題
評(píng)論
0/150
提交評(píng)論