




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
CCKS2021技術評測任務書通用百科知識圖譜實體類型推斷任務描述本評測任務圍繞通用百科知識圖譜構建中的實體類型推斷展開,評測從實體百科(包括百度百科、搜狗百科等來源)頁面出發(fā),從給定的數(shù)據(jù)中推斷相關實體的類型。實體類型推斷在知識庫中具有非常重要的價值,因此該任務也一直是研究的熱點。在CCKS2020新冠知識圖譜構建與問答任務中,其第一個子任務就屬于實體類型推斷任務,該任務主要圍繞著醫(yī)學領域,構建了7個實體類型的推斷任務。而這次,我們對實體類型推斷任務做了一定的拓展和改進,主要包括以下幾個方面:任務涉及的領域更加廣泛和通用,涉及到包括組織機構、人物、作品、位置等多個領域。實體類型更加豐富,不同領域下包括多個具體的實體類型,整體任務包括幾十個實體類型。實體類型之間具有層級關系,所有實體類型構成了一棵分類樹,并且具有subclassof關系。一個具體的實體需要盡可能的推斷到最細粒度的實體類型才算正確。各參賽隊伍可以考慮是否把這種層級關系加入到模型當中進行訓練。某些實體可能只屬于一個實體類型,某些實體可能屬于多個實體類型,因此更加增添了任務的難度。比如“劉德華”既屬于“歌手”類型,又屬于“演員”類型;“知識圖譜概念與技術”就只屬于“書籍”類型。實體類型該任務共包括組織機構、人物、作品、位置等幾個領域的實體類型。不同領域包括多個具體的實體類型,具體如下:組織機構:政府機構、公司、教育機構、樂隊位置:居住地、基礎建筑、自然景觀、旅游景點、天體人物:文藝工作者、運動員、商人、老師、醫(yī)生、政治人物、律師、記者、虛擬人物文藝工作者:作家、編劇、歌手、演員、舞蹈者、導演、攝影師、詩人、畫家運動員:足球運動員、籃球運動員、跳水運動員、田徑運動員、游泳運動員、體操運動員作品:影視作品、書面作品、軟件程序、音樂作品影視作品:電影、電視劇、動漫、電視節(jié)目書面作品:書籍、小說、詩歌、漫畫、歌戲劇、文章音樂作品:歌曲、專輯軟件程序:游戲對于某個實體,基于百度百科或者搜狗百科提供的頁面數(shù)據(jù),根據(jù)上面的實體類型定義,需要將實體盡可能預測到最細粒度的實體類型。比如:“林丹”應該預測為“運動員”、“武磊”應該預測為“足球運動員”、一名普通的學生應該預測為“人物”。如果實體屬于多個實體類型,預測結果需要包含所有的實體類型。比如“特朗普”,應該預測為“商人”和“政治人物”兩個類型。實體類型的層級關系如下圖所示:輸入輸出輸入:包括train.csv、valid.csv、test.csv和type.txttrain.csv:百度百科、搜狗百科等來源的實體頁面內容。實體頁面文件中包含類型推斷可能會用到的名稱、簡介等信息。選手可以通過分析該文件中的內容,采用各種機器學習方法構建模型,進行實體類型推理。train.csv包含的字段信息如下:valid.csv:valid.csv里面的數(shù)據(jù)格式與train.csv文件相同,包含了選手需要進行預測及提交結果的實體數(shù)據(jù),A榜的排名取決于這份數(shù)據(jù)的預測結果。該份數(shù)據(jù)會隨train.csv一起在5月中旬發(fā)布。test.csv:test.csv里面的數(shù)據(jù)格式與train.csv和valid.csv文件相同,包含了選手最終需要提交的實體推理數(shù)據(jù),B榜的排名取決于這份數(shù)據(jù)的預測結果。該份數(shù)據(jù)將在7月中旬發(fā)布。type.txt:包含所有實體類型,類型之間的層級關系如上所描述。輸出:entity_type.txtentity_type.txt:實體id、實體名及預測的實體類型,每行一個“實體id\t實體名\t類型”對。實體id、實體名、類型之間通過分隔符“\t”進行分割。注意不要包含類型不在給定的實體類型當中的實體。若一個實體屬于多個類型,則類型之間用英文逗號“,”分隔,表示為“實體id\t實體名\t類型1,類型2”對。類型1、類型2的書寫順序沒有影響。樣例:type.txt:組織機構,組織機構>政府機構,組織機構>公司,組織機構>教育機構,組織機構>樂隊,位置,位置>居住地,位置>基礎建筑,位置>自然景觀,位置>旅游景點,位置>天體,人物,人物>文藝工作者,人物>文藝工作者>作家,人物>文藝工作者>編劇,人物>文藝工作者>歌手,人物>文藝工作者>演員,人物>文藝工作者>舞蹈者,人物>文藝工作者>導演,人物>文藝工作者>攝影師,人物>文藝工作者>詩人,人物>文藝工作者>畫家,人物>運動員,人物>運動員>足球運動員,人物>運動員>籃球運動員,人物>運動員>跳水運動員,人物>運動員>田徑運動員,人物>運動員>游泳運動員,人物>運動員>體操運動員,人物>商人,人物>老師,人物>醫(yī)生,人物>政治人物,人物>律師,人物>記者,人物>虛擬人物,作品,作品>影視作品,作品>影視作品>電影,作品>影視作品>電視劇,作品>影視作品>動漫,作品>影視作品>電視節(jié)目,作品>書面作品,作品>書面作品>書籍,作品>書面作品>小說,作品>書面作品>詩歌,作品>書面作品>漫畫,作品>書面作品>歌戲劇,作品>書面作品>文章,作品>音樂作品,作品>音樂作品>歌曲,作品>音樂作品>專輯,作品>軟件程序,作品>軟件程序>游戲train.csv表格中一個具體的實體數(shù)據(jù)例子:其中,train.csv的contents字段為該實體的完整json描述內容,json解析完如下圖所示:輸出樣例 1131993 晶茂電影傳媒 組織機構>公司 22067022 清華大學 組織機構>教育機構 6072077 細胞的旅程 作品>軟件程序>游戲2110758 崔志成 人物>商人22469665 陳國緒 人物>老師20007006 梅爾·吉卜森 人物>文藝工作者>導演,人物>文藝工作者>演員說明假設實體“尿TH糖蛋白”在valid.csv中,但由于該實體的類型不是type.txt中所包含的實體類型,因此輸出結果中不包含該實體。評價指標本任務采用精確率(Precision,P)、召回率(Recall,R)、F1值(F1-measure,F1)來評估效果。設A為參賽隊伍輸出文件中的所有實體-類型對的集合,G為評測方標注文件中的所有實體-類型對的集合,相關計算公式如下:P=數(shù)據(jù)描述我們分別從收集的幾千萬百科類實體頁面中,抽取了部分實體頁面作為這次任務的數(shù)據(jù)來源。任務本身不限定方法類型,可以是無監(jiān)督、半監(jiān)督、有監(jiān)督方法,因此不提供任務相關的有標注結果的訓練集,參賽選手如有需要,可以自行對訓練數(shù)據(jù)進行標注。測試集是通過自動化實體類型推測和人工檢驗進行標注的。測試集上不允許參賽選手進行任何人工標注。任務提交本次任務將采取刷榜的方式,將會發(fā)布A榜和B榜兩個測試集,A榜測試集用于日常刷榜和模型迭代,不計入最終比賽成績,測試集A發(fā)布后,允許參賽隊伍每天至多提交一次結果,文件命名為“entity_type.txt”,格式與任務描述中的示例輸出相同。測試集B為最終評估比賽成績的有效評測集,待測試集B發(fā)布后,允許參賽隊伍每天至多提交一次。所有獲獎團隊需額外提交相關材料以供資格審查,要求如下:測試集B結果文件,用result.txt命名(UTF-8格式)相關代碼及說明方法描述文檔(非評測論文,評測論文撰寫要求見CCKS2021官網(wǎng))將以上三個文件在任務提交截止日期前發(fā)送至郵箱lihongyu1@。郵件的標題為:“CCKS2021-ETI-參賽隊名稱”,例如“CCKS2021-ETI-FindX隊”。代碼及其文檔需打包成一個文件(tar,zip,gzip,rar等均可),用“參賽隊名_code.xxx”命名,要求提交所有的程序代碼及相關的配置說明,程序應當可以運行且所得結果與result.txt相符。如果方法使用了額外資源,要求說明并提供資源文件或地址。本次評測將依托Biendata平臺,請有意向的參賽隊伍關注平臺上的比賽列表。評測規(guī)則參賽選手需要提交“參賽隊名,隊長信息(姓名,郵箱,聯(lián)系電話),參賽單位名稱”等信息,報名方式稍后在評測網(wǎng)站發(fā)布。報名截止到最終測試數(shù)據(jù)集B發(fā)布,在測試數(shù)據(jù)集發(fā)布之后,未報名的選手/隊伍不能再報名或提交。每支隊伍需指定一名隊長,隊伍名稱不超過15個字符,隊伍成員不超過4人。每名選手只能參加一支隊伍,一旦發(fā)現(xiàn)某選手以注冊多個賬號的方式參加多支隊伍,將取消所有相關隊伍的參賽資格。允許使用開源代碼或工具,但不允許使用任何未公開發(fā)布或需要授權的代碼或工具。允許使用外部數(shù)據(jù),但該數(shù)據(jù)必須是公開的,并在提交最終結果時一并提交(如數(shù)據(jù)過大,需提供下載地址)。參賽選手最終需要提交可運行的代碼和方法描述文檔,若在排行榜上的結果無法復現(xiàn),將取消參賽資格。歡迎國內外在校生及社會在職人士參加。比賽組織方成員不可參賽。關于比賽的所有解釋權歸比賽組織方所有。評測獎勵第一名:10000第二名:8000第三名:6000技術創(chuàng)新獎:6000組織者任務組織者:李洪宇(OPPO)莢濟民(OPPO)任務聯(lián)系人:李洪宇:lihongyu1@莢濟民:jiajimin@附錄:實體類型簡要說明表一級標簽二級標簽三級標簽簡要說明人物文藝工作者作家編劇歌手演員舞蹈者導演攝影師詩人畫家運動員足球運動員籃球運動員跳水運動員田徑運動員游泳運動員體操運動員商人老師學校教師、大學老師、教授、副教授等醫(yī)生政治人物歷史上真實存在的官員、國家政府重要官員、政治家、政協(xié)委員、人大代表等律師記者虛擬人物游戲、動漫、小說等等非現(xiàn)實中的人物或者角色等作品影視作品電影電視劇動漫動漫影視電視節(jié)目電視節(jié)目、網(wǎng)絡節(jié)目、綜藝節(jié)目等書面作品書籍小說詩歌詩詞、詩歌漫畫歌戲劇歌劇、戲劇等文章雜志、報紙或其他媒體發(fā)表的散文、雜文、評論、報告等等書面作品軟件程序游戲音樂作品歌曲專輯組織機構政府機構政府機關,行政部門、居委會、村委會、各類銀行等公司教育機構各類學校、高校、研究機構、教
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 健康險發(fā)展空間擴大路徑與對策
- 功能性碳纖維材料生產(chǎn)項目可行性研究報告(模板范文)
- 車間焊接安全施工方案
- 幼兒園多吃蔬菜不挑食衛(wèi)生教育
- 廣東省汕頭市2023-2024學年高三上學期12月期中考政治含解析
- 廣西中醫(yī)藥大學賽恩斯新醫(yī)藥學院《計算機輔助設計》2023-2024學年第二學期期末試卷
- 大連醫(yī)科大學《數(shù)據(jù)庫原理及應用課程設計》2023-2024學年第二學期期末試卷
- 武漢警官職業(yè)學院《藝術哲學與社會批判》2023-2024學年第二學期期末試卷
- 大連交通大學《民俗學》2023-2024學年第二學期期末試卷
- 南京醫(yī)科大學康達學院《化學反應工程(雙語)》2023-2024學年第二學期期末試卷
- 江蘇省蘇、錫、常、鎮(zhèn)2025年高考物理三模試卷含解析
- 2025年中考歷史專題復習講義(含練習題及答案)
- 歷史文化遺產(chǎn)類博物館文旅融合發(fā)展的路徑探索
- 2024年至2025年山東省泰安市公開招聘警務輔助人員輔警結構化面試必練經(jīng)典模擬題庫一含答案
- 社區(qū)居委會筆試題及答案
- 汽修廠三人合伙協(xié)議
- 統(tǒng)編版語文八年級下冊24 唐詩三首課件
- 金融法律知識培訓課件
- 山東省臨沂市普通高中學業(yè)水平等級考試模擬試題政治含答案
- 2025年個人家政服務合同標準
- 《外科感染》課件
評論
0/150
提交評論