版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、.1Antconc使用20免費軟件下載網(wǎng)址:http:/www.antlab.sci.waseda.ac.jp/antconc_index.html 下載版本:antconc3.2.1w使用指南:http:/www.antlab.sci.waseda.ac.jp/software/README_antconc3.2.1.txt 鏈接時間:2008年4月13日.3 英語詞頻 日本人開發(fā),支持中文。 北大計算所98年1月份人民日報分詞語料為例 計算詞頻,生成詞頻表; 計算n元組的出現(xiàn)頻率; 保存結(jié)果 處理中文之間要做個語言設置,否則顯示亂碼.4Antconc包括以下工具: 索引
2、 Concordance 索引定位 Concordance Plot 文件查看 File View 詞叢Clusters N元模式(部分詞叢) N-grams 搭配Collocates 詞單Wordlist 關鍵詞單Keyword List .5索引工具使用步驟:選擇文件(一個或多個);輸入檢索詞;使用“Search Window size”(檢索窗口大?。┻x擇檢索詞兩邊顯示的字符數(shù);按“start”開始產(chǎn)生索引行的檢索結(jié)果,按stop隨時停止;使用“Kwic Sort”(上下文關鍵詞分類)選擇一個目標詞賴重排索引行,0是檢索詞,1L、2L是檢索詞左邊第一、第二個單詞;按sort鍵重新分類排序
3、;.6 將指針移到其中一行索引行突出的檢索詞上,指針變成手形工具,點擊檢索詞,可以看到檢索詞在原文出現(xiàn)的情況。 注意:索引行的總數(shù)在“concordance hits”下顯示,處理結(jié)束時,會“FINISHED”;如果沒有產(chǎn)生索引行,則“NO HITS”,并且索引行的窗口不會更新。.7 檢索詞可以通過“search term”上面的word選項設定為“詞(默認)”或“詞的片段”,也可以通過case來選擇不區(qū)分大小寫,也可選擇“Regex”使用完整的正則表達式。 /quickstart.html 按Advanced鍵,可以進行更為復雜的搜索。.
4、8 兩個高級搜索項: 定義一組檢索詞,可以一行一個的輸入,也可以直接載入文件中的檢索詞單,這個特征允許用戶使用一大組檢索詞,但不用每次重復輸入; 定義上下文詞(context words)和一個上下文的范圍,在這個范圍中必須出現(xiàn)檢索詞;.9索引定位(concordance plot) 進行索引定位的步驟與索引工具的使用方法一樣,索引定位工具提供了索引行另一個不同的視角。 每一個文件的所有索引條數(shù)都在一個條形碼上定位出來,表示文中有檢索詞的索引行的位置所在。 可以查看哪些文件包含目標檢索詞,也可以確定檢索詞在哪兒遇到詞叢。 索引條數(shù)、文件長度在條形碼右側(cè)顯示,.10文件查看 任何時候,目標文件都
5、可以使用該工具來查看原文。 選擇一個要查看的文件; “File View”按鈕,start,得到檢索詞在原文中出現(xiàn)的情況; 使用Hit Location,可以跳到上一個或下一個檢索詞上; 改變檢索詞,點擊開始鍵,查看其它檢索項.11詞叢(Clusters) 用來生成目標文件檢索詞周圍排列成序的詞叢列表的。 詞叢既可以按照頻率也可以按照詞頭或詞尾排序,也可以按照詞叢第一個單詞的出現(xiàn)概率排序。 用戶可以選擇每個詞叢的最大或最小長度,以及列出詞叢的最小頻率。 可以選擇檢索詞是否總出現(xiàn)詞叢左邊或右邊。.12 使用詞叢的操作: 選定主窗口上的clusters按鈕,選擇合適的排序選項; 按start鍵,任
6、何時候都可以stop; 點擊詞叢會產(chǎn)生一組上下文關鍵詞行或者索引行。.13N元模式(部分詞叢) 生成目標文件有序的N元組。 N元模式是單詞的N元,大的文件將會產(chǎn)生大量的N元。 排序和詞叢工具一樣,可以選擇N元的最大或最小尺寸,顯示N元的最小詞頻。.14 生成N元模式的操作: 選擇Clusters窗口模式下search term右邊的N-grams選項; 選擇合適的排列選項; 按開始鍵,任何時候都可以中止; 點擊詞匯束會產(chǎn)生一組上下文關鍵詞行。.15搭配(collocates)工具 用來生成目標文件的一組有序的搭配列表。 搭配可以按詞頻,也可以按檢索詞左邊或右邊的搭配頻率,或者詞頭或詞尾排序。也
7、可以按照檢索詞和搭配間的統(tǒng)計量來排列。 統(tǒng)計量的值測的是檢索詞和搭配之間的相關程度。 可以選擇檢索詞左右兩邊的單詞跨度,顯示搭配的最小頻率。.16要列一個搭配列表,需要進行的操作:選擇合適的排列選項,及相關設置;按開始鍵,任何時候都可以中止;點擊搭配會產(chǎn)生一組上下文關鍵詞行。.17詞表(word list) 生成目標文件的有序的詞表。 詞表既可以按詞頻也可以按詞頭或詞尾的順序排列。 選擇合適的排列選項; 按開始鍵,任何時候都可以中止; 點擊單詞會產(chǎn)生一組上下文關鍵詞行。.18關鍵詞單(Keyword List) 可以比較目標文件中的單詞和“參照語料庫”中的單詞生成Keyword List,Keyword List列出的往往是目標文件中頻率很高或頻率很低的詞。 為了列出Keyword list,需進行操作: 選擇一組目標文件; 到“Preferences”菜單中,選擇“Keyword Preferences”選項; 選擇一個統(tǒng)計量估計目標文件單詞的關鍵性;.19 選擇顯示的關鍵詞數(shù)極限值; 選擇是否顯示負關鍵詞(show negative keywords),即與參照語料庫相比目標語料庫中不同尋常的低頻詞; 選擇一個文本文件的參照語料庫; 參照語料庫的文件列表將在參照語料庫選項下的窗口中顯示出來; 點擊Apply,返回主窗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 宣傳片協(xié)議合同
- 2025域名收購合同范文
- 滅火器買賣合同
- 幼兒園聘用保育員合同模板
- 2025非專利項目技術轉(zhuǎn)讓合同
- 委托物業(yè)服務合同書
- 2025材料采購合同
- 2025電子元件配件采購合同模板
- 2025年電力金具項目規(guī)劃申請報告模板
- 2025年果醬項目提案報告范文
- 充電樁知識培訓課件
- 2025年七年級下冊道德與法治主要知識點
- 2025年交通運輸部長江口航道管理局招聘4人歷年高頻重點提升(共500題)附帶答案詳解
- 老年髖部骨折患者圍術期下肢深靜脈血栓基礎預防專家共識(2024版)解讀
- 偏癱足內(nèi)翻的治療
- 藥企質(zhì)量主管競聘
- 信息對抗與認知戰(zhàn)研究-洞察分析
- 手術室??谱o士工作總結(jié)匯報
- 2025屆高三聽力技巧指導-預讀、預測
- 蘇州市2025屆高三期初陽光調(diào)研(零模)政治試卷(含答案)
- 長期處方管理規(guī)范
評論
0/150
提交評論