版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、中國醫(yī)學語言體系整體進度目標和意義該研究第一階段的目標是建立一個基于計算機管理的“統(tǒng)一的中國醫(yī)學語言系統(tǒng)” , 該系統(tǒng)由中國醫(yī)學用語數(shù)據(jù)庫、中國醫(yī)學用語語義網(wǎng)絡(luò)系統(tǒng)、中國醫(yī)學用語與標引檢索語言對應(yīng)轉(zhuǎn)換系統(tǒng)3 個部分組成。該系統(tǒng)將為實現(xiàn)中文生物醫(yī)學文獻計算機標引和分類, 加快文獻處理速度提升文獻處理的準確性和一致性提供良好的支撐環(huán)境; 同時將最大限度地跨越語言表達的差異性和相關(guān)信息的分散性 , 為生物醫(yī)學信息一體化檢索提供有效的幫助。該系統(tǒng)的實現(xiàn)將使傳統(tǒng)的中文醫(yī)學文獻處理和檢索發(fā)生根本性的變革。國內(nèi)外研究現(xiàn)狀美國國立醫(yī)學圖書館自 1986 年開始研制統(tǒng)一的醫(yī)學語言系統(tǒng)(UnifiedMedica
2、lLanguageSystem,UMLS), 其目的在于克服計算機生物醫(yī)學信息檢索中相同的概念具有不同的表達方式, 有用的信息分散在不同的數(shù)據(jù)庫系統(tǒng)中。該系統(tǒng)由超級敘詞表、語義網(wǎng)絡(luò)、信息資源及專用詞典組成。其中超級敘詞表囊括了“ MedicalSubjectHeadings ” ( 醫(yī)學主題詞表) 在內(nèi)的詞表、分類表70 余種 , 涵蓋了生物醫(yī)學概念73 萬項, 相關(guān)名稱 15萬條。該系統(tǒng)在計算機輔助文獻標引、研制開發(fā)相關(guān)文獻的數(shù)據(jù)庫及具有輔助檢索功能的IGM和PubMed言息檢索系統(tǒng)方面發(fā)揮了巨大作用 , 提升了計算機自動處理的水準 , 極大地方便了用戶的查詢。國內(nèi)科技信息界自 20世紀 9
3、0年代后相繼進行了分類主題詞一體化詞表的研制工作, 如國家圖書館編制的中圖法漢語主題詞對照表,中國醫(yī)學科學院信息所與圖書館編制的中圖法與 MeSH中醫(yī)藥學主題詞對照表等。它們的最大特點是標引數(shù)據(jù)時, 可同時完成文獻的主題標引和分類標引 , 并提升了標引的速度和一致性。系統(tǒng)的構(gòu)成與功能中國醫(yī)學用語數(shù)據(jù)庫該數(shù)據(jù)庫來源于 10 余種生物醫(yī)學詞表、詞典及分類表 , 可分為以下幾種類型。敘詞表。如醫(yī)學主題詞表 , 中醫(yī)藥學主題詞表 , 統(tǒng)一 的醫(yī)學語言系統(tǒng)一超級敘詞表(UMLSMetathesaurus等。分類表。如中國圖書資料分類法 , 國際疾病分類法等。辭典。如中藥大詞典 , 漢英中醫(yī)藥分類辭典 ,
4、 英中醫(yī)學辭海 , 英漢醫(yī)學詞匯、英漢醫(yī)學縮略的詞典等。該詞庫的特點是:收詞量大, 覆蓋范圍廣, 包括醫(yī)學、藥學、牙科學、中醫(yī)藥學及其他相關(guān)學科的詞匯約 160 余萬條 ; 收詞類型豐富 , 包括主題詞、關(guān)鍵詞、化學物質(zhì)登記號、酶代碼、分類號、縮略的等 ; 兼容英文詞匯,譯名規(guī)范 ; 實時對詞庫進行添加、更新和維護的動態(tài)性。中國醫(yī)學用的的義網(wǎng)絡(luò)系統(tǒng)運用對比、分析和綜合研究方法 , 對醫(yī) 學用的數(shù)據(jù)庫的 160 多萬詞條進行概念規(guī)范、表達方式規(guī)范和的義規(guī)范 , 并建立反映相對應(yīng)關(guān)系的標準代碼, 以便于自動化處理。概念規(guī)范。概念或涵義作為該數(shù)據(jù)庫的基礎(chǔ)和核心, 在兩個方面進行規(guī)范:確認中文醫(yī)學領(lǐng)域
5、內(nèi)業(yè)已存有的確切概念和概念的規(guī)范化表達形式 ( 規(guī)范化用的 ) 。表達方式規(guī)范。對概念的不同表達方式進行同義規(guī)范。例如對某一疾病的縮略的、單復(fù)數(shù)、不同名稱、疾病代碼等表達方式的規(guī)范。的義規(guī)范。通過分析概念的內(nèi)涵和外延, 建立概念間的上位下位(分屬 )及相關(guān)關(guān)系 ,為智能化的信息檢索和知識分析提供強大的基 礎(chǔ)保證。中國醫(yī)學用的數(shù)據(jù)庫與標引檢索的言數(shù)據(jù)庫轉(zhuǎn)換系統(tǒng)通過建立“中國醫(yī)學用的醫(yī)學主題詞對應(yīng)數(shù)據(jù)庫”及“醫(yī)學主題詞分類號對應(yīng)數(shù)據(jù)庫” , 完成自然的言與規(guī)范化詞表的言間的 轉(zhuǎn)換 , 實現(xiàn)自然的言與主題、分類檢索的言的一體化。中國醫(yī)學用語醫(yī)學主題詞對應(yīng)數(shù)據(jù)庫。依據(jù)美國國立醫(yī)學圖書館2000年醫(yī)學主
6、題詞表MeSH文版及中醫(yī)藥學主題詞表( 第二版 ), 對醫(yī)學用語進行概念、詞匯與主題詞間對應(yīng)關(guān)系的標示 , 建立醫(yī)學用語醫(yī)學主題詞對應(yīng)數(shù)據(jù)庫、關(guān)鍵詞副主題詞對應(yīng)庫、關(guān)鍵詞特征詞對應(yīng)庫、禁用詞庫等多個數(shù)據(jù)庫。醫(yī)學主題詞分類號對應(yīng)數(shù)據(jù)庫。以“中國醫(yī)學用語與醫(yī)學主題詞對應(yīng)數(shù)據(jù)庫”和中國圖書館分類法 (第 4版)為基礎(chǔ) , 對主題詞進行與分類號間對應(yīng)關(guān)系的處理。系統(tǒng)研究進展情況建立“中國醫(yī)學用語醫(yī)學主題詞對應(yīng)數(shù)據(jù)庫”及“醫(yī)學主題詞分類號對應(yīng)數(shù)據(jù)庫”為適應(yīng)數(shù)據(jù)庫建設(shè)的需要 , 解決文獻標引量大、成本高、人員少的矛盾,1994年在研制CBMdisc的同時開始嘗試建立“中國生物醫(yī)學文獻計算機輔助標引系統(tǒng)”
7、, 而基礎(chǔ)詞表的建立是實現(xiàn)該系統(tǒng)的先決條件。首先利用人工方法從中國生物醫(yī)學期刊的文獻中抽取了近 20 萬個關(guān)鍵詞 , 借此建立了關(guān)鍵詞主題詞對照表( 現(xiàn)稱中國醫(yī)學用語醫(yī)學主題詞對應(yīng)數(shù)據(jù)庫), 并以中國圖書館分類法 (R 類) 、MeSH中醫(yī)藥學主題詞表為藍本,擴充了相對應(yīng)的類目,建立了含4萬余條記錄的主題詞分類號對照表( 現(xiàn)稱醫(yī)學主題詞分類號對應(yīng)數(shù)據(jù)庫 ), 由此形成了一套關(guān)鍵詞到主題詞、主題詞到分類號的自然語言與受控語言的對應(yīng)轉(zhuǎn)換系統(tǒng)。抽取關(guān)鍵詞的原則。關(guān)鍵詞應(yīng)詞義明確、專指 , 能反映文獻中論述的某一事物、對象、問題的主要概念; 關(guān)鍵詞應(yīng)符合概念邏輯、通用、實用 , 可以用單字、單詞或復(fù)合
8、詞 , 一般采用名詞 , 不用動詞、形容詞等詞類 ; 關(guān)鍵詞應(yīng)考慮副主題詞概念的組配。關(guān)鍵詞主題詞對應(yīng)原則。第一 , 一個關(guān)鍵詞至少對應(yīng)一個主題詞 , 應(yīng)選用最專指的主題詞 , 如關(guān)鍵詞“肝內(nèi)膽管”對應(yīng)成主題詞“膽管 , 肝內(nèi)”。第二, 一個關(guān)鍵詞如無相對應(yīng)專指主題詞對應(yīng) , 應(yīng)選用概念最接近的主題詞 , 或主題詞 / 副主題詞組配表達, 如關(guān)鍵詞“肝囊腫”對應(yīng)成主題詞“肝疾病; 囊腫” , 關(guān)鍵詞“肝損傷”對應(yīng)成主題詞 / 副主題詞“肝 / 損傷”。第三, 一個關(guān)鍵詞對應(yīng)兩個以上意義不同的主題詞時,應(yīng)在每個主題詞前做出材料識“ $”,如關(guān)鍵詞“ HP可以對應(yīng)成主題詞“螺旋菌 , 幽門” ,
9、也可對應(yīng)成主題詞“觸珠蛋白類”。第四 , 遇到概念模糊不清的關(guān)鍵詞 , 不予轉(zhuǎn)換成主題詞。主題詞一分類號又t應(yīng)原則。第一,一個主題詞至少有一個 R類( 醫(yī)藥衛(wèi)生 ) 相對應(yīng)類號對應(yīng) , 如主題詞“肝疾病”的對應(yīng)分類號為“R575。第二,必要時,一個主題詞可以對應(yīng)幾個類號,如藥物主題詞可根據(jù)不同的用途和藥理作用對應(yīng)幾個相對應(yīng)的類號。第三 , 社會科學、生物學等學科主題詞與中國圖書分類法R類的相對應(yīng)類目進行擴充或仿分對應(yīng)。第四, 采用直接、上位類、靠類、多號及組配等技術(shù)方法對主題語言與分類語言進行概念的對應(yīng)處理。第五 , 副主題詞與臨床醫(yī)學專用復(fù)分號對應(yīng), 地理主題詞與地理復(fù)分號對應(yīng)。中國生物醫(yī)學
10、文獻計算機輔助標引系統(tǒng)1996年在上述兩個數(shù)據(jù)庫初具規(guī)模的基礎(chǔ)上,采用C+畸言和 VisualFoxPro 開發(fā)成功了“中國生物醫(yī)學文獻計算機輔助標引系統(tǒng)”,該系統(tǒng)已成為我國第一個進入實用階段的計算機輔助標引系統(tǒng)。它使醫(yī)學文獻的標引深度由原來的每篇文獻3 個主題詞增至8-10 個 , 分類號由 1 個增至 3-5 個 , 文獻的處理速度由每年處理4 萬條數(shù)據(jù)增至20萬條左右 , 數(shù)據(jù)的更新速度大大加快, 文獻的加工處理費用大大降低。該系統(tǒng)包括主題標引系統(tǒng)和分類標引系統(tǒng)。主題標引規(guī)程。醫(yī)學文獻主題標引包括主題詞、副主題詞、主要概念主題詞 (加權(quán)主題詞 ) 及特征詞的標識。確定標引源:以科技文獻中
11、的標題、文摘、作者、關(guān)鍵詞作為標引源。確定切分規(guī)則:采用最大字串匹配法對文獻的標題、文摘、 作者、關(guān)鍵詞逐字進行掃描。確定轉(zhuǎn)換規(guī)則:對主題詞、副主題詞、特征詞分別進行轉(zhuǎn)換。確定主題詞數(shù)目:根據(jù)主題詞的出現(xiàn)頻率和出現(xiàn)位置計算每個主題詞、副主題詞、特征詞的得分, 選擇得分高的主題詞、副主題詞和特征詞作為標引詞。確定主要概念主題詞:根據(jù)主題詞分值的高低, 劃分主要概念主題詞 ( 加星號主題詞 ) 和非主要概念主題詞。確定高頻主題詞轉(zhuǎn)換規(guī)則:對主題詞表中的高頻詞不予轉(zhuǎn)換,如“研究”。標引人員的干預(yù):標引人員對機標后的主題詞進行審核。標引結(jié)果的合法性檢查:計算機對標引結(jié)果進行檢查,包括主題詞、副主題詞、
12、特征詞的規(guī)范水準, 主題詞 / 副主題詞組配是否準確 ,等。分類標引規(guī)程。根據(jù)每篇文獻標引的主題詞 , 依據(jù)“主題詞分類號對應(yīng)數(shù)據(jù)庫”及其一些特定規(guī)則進行分類號的轉(zhuǎn)換。主題詞分類號轉(zhuǎn)換規(guī)則:依據(jù)“主題詞分類號對應(yīng)數(shù)據(jù)庫”進行主題詞到分類號轉(zhuǎn)換。如:主題詞“肝腫瘤” , 轉(zhuǎn)為分類號 “ R735.7”。副主題詞專用復(fù)分號轉(zhuǎn)換規(guī)則:依據(jù)“副主題詞復(fù)分號對應(yīng)表”進行副主題詞到復(fù)分號的轉(zhuǎn)換, 并將復(fù)分號加到主類號后。如:副主題詞“ /診斷”轉(zhuǎn)為復(fù)分號“04” , 故主題詞“肝腫瘤/診斷” , 轉(zhuǎn)為分類號“R735.704”。兒科學類號轉(zhuǎn)換規(guī)則:依據(jù)“主題詞分類號對應(yīng)數(shù)據(jù)庫”及“特征詞”進行主題詞到分類
13、號的轉(zhuǎn)換。如一篇“兒童高血壓診斷標準探討”的文獻, 標引的主題詞為“高血壓/* 診斷 ; 參考值” , 特征詞為“兒童 ; 人類” , 如僅依據(jù)主題詞則分類號轉(zhuǎn)換為“ R544.104;R - 05”, 而依據(jù)主題詞和特征詞則分類號轉(zhuǎn)換為“ R725.441.04;R- 05”。外源性和內(nèi)源性物質(zhì)類號轉(zhuǎn)換規(guī)則:一個主題詞既為外源性物質(zhì)又為內(nèi)源性物質(zhì)時, 依據(jù)標引的副主題詞確定類號的轉(zhuǎn)換。如主題詞“C肽”既可轉(zhuǎn)為外源性物質(zhì)類號“ R977.6”又可轉(zhuǎn)為內(nèi)源性物質(zhì)類 號”R341.43”,如同時有副主題詞” /治療應(yīng)用”存有時,則主題詞“C 肽”僅轉(zhuǎn)為分類號“R977.6”。地理主題詞地理復(fù)分號轉(zhuǎn)換規(guī)則:依據(jù)“地理主題詞復(fù)分號對應(yīng)表”進行地理主題詞到地理復(fù)分號的轉(zhuǎn)換。為了適應(yīng)計算機檢索的需求, 不將地理復(fù)分號一一加到每個主類號后 , 而是將其設(shè)為單獨的類號,并以“RZ作為地理復(fù)分類號的標識,如地理主題詞“北京” 轉(zhuǎn)為分類號“RZ21”。實驗動物類號轉(zhuǎn)換規(guī)則:原則與地理主題詞地理復(fù)分號轉(zhuǎn)換規(guī)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版?zhèn)€人房產(chǎn)抵押貸款資產(chǎn)重組服務(wù)合同3篇
- 2025-2030年中國3D液晶顯示器(裸眼及非裸眼)規(guī)模分析及投資前景規(guī)劃研究報告
- 二零二五年新型建筑建材供銷合作協(xié)議書
- 2024年滬教版選擇性必修3生物下冊階段測試試卷
- 2025年華師大版必修1化學下冊階段測試試卷
- 2025年滬科新版九年級數(shù)學下冊月考試卷含答案
- 2025年度股權(quán)投資合同投資金額和股權(quán)分配3篇
- 人教版八年級數(shù)學下冊《19.2.3一次函數(shù)與方程、不等式》同步測試題含答案
- 2025年外研版三年級語文上冊階段測試試卷含答案
- 2024年盆栽購入合同模板
- 網(wǎng)絡(luò)安全日志關(guān)聯(lián)分析-洞察分析
- 醫(yī)療美容服務(wù)風險免責協(xié)議書
- 2025年度宏泰集團應(yīng)屆高校畢業(yè)生夏季招聘【6080人】高頻重點提升(共500題)附帶答案詳解
- 課題申報書:大中小學鑄牢中華民族共同體意識教育一體化研究
- 巖土工程勘察課件0巖土工程勘察
- 《腎上腺腫瘤》課件
- 2024-2030年中國典當行業(yè)發(fā)展前景預(yù)測及融資策略分析報告
- 《乘用車越野性能主觀評價方法》
- 幼師個人成長發(fā)展規(guī)劃
- 2024-2025學年北師大版高二上學期期末英語試題及解答參考
- 批發(fā)面包采購合同范本
評論
0/150
提交評論