基于K近鄰算法的人類lncRNA亞細胞定位預測_第1頁
基于K近鄰算法的人類lncRNA亞細胞定位預測_第2頁
基于K近鄰算法的人類lncRNA亞細胞定位預測_第3頁
基于K近鄰算法的人類lncRNA亞細胞定位預測_第4頁
基于K近鄰算法的人類lncRNA亞細胞定位預測_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

目錄TOC\o"1-3"\h\u71561引言 5267902緒論 5161422.1lncRNA亞細胞定位預測的選題依據(jù)及研究意義 5129402.2研究現(xiàn)狀 6121222.3研究工作和結(jié)構(gòu)安排 8165863數(shù)據(jù)集的建立 930403.1數(shù)據(jù)集的采集和預處理 9101423.1.1數(shù)據(jù)收集 9112173.1.2數(shù)據(jù)預處理 9280653.2數(shù)據(jù)集的處理 9324903.2.1特征提取 9166603.2.2亞細胞定位標記 10271254K近鄰算法實現(xiàn) 11278774.1K值的選擇 11185104.2距離度量 11252764.3模型訓練 13152474.4預測結(jié)果及分析 13219704.5模型改進方向 16122935結(jié)語 1784246致謝 178313參考文獻 17摘要:隨著數(shù)據(jù)量的急劇增長,利用傳統(tǒng)的生物實驗方法識別lncRNA亞細胞定位愈發(fā)耗時耗力。本文旨在基于K近鄰算法構(gòu)建一個用于預測人類lncRNA亞細胞定位的模型,以便快捷高效地找到一條未知的lncRNA序列在細胞中的位置。本研究從3個類型的亞細胞中抽取各50條lncRNA序列,并將其以四種特征進行量化,再與亞細胞定位標簽連接起來,形成數(shù)據(jù)集,隨機選用數(shù)據(jù)集中80%作為訓練集,其余的20%作為測試集,使用KNN算法對數(shù)據(jù)集中序列的亞細胞定位進行預測,最后分析所得結(jié)果,得出結(jié)論:當限取k=3,5,7,9時,第一、四類特征的正確率略高于其它兩種特征。當不限k的取值時,第二類特征可達到的最大正確率高于其他三種特征。論文所得到的結(jié)論和采用的方法為更好的識別lncRNA亞細胞定位提供了一定的理論依據(jù)。關(guān)鍵詞:長鏈非編碼RNA亞細胞定位K近鄰算法1引言長鏈非編碼RNA(longnoncodingRNA,lncRNA)是一類重要的RNA分子,與許多生物學過程密切相關(guān)。近年來,關(guān)于lncRNA的功能及其作用機制的研究呈現(xiàn)出顯著的增長趨勢,學術(shù)界對此領(lǐng)域的研究興趣日益濃厚。要想深入理解其功能和作用機制,必得先知其亞細胞定位,因此,準確預測lncRNA亞細胞定位對于其功能的研究具有重要意義。目前,基于機器學習算法的亞細胞定位預測方法已經(jīng)取得了一定的進展,而k近鄰算法作為一種廣為應用的機器學習算法,因其簡單性和高效性,常常被視為首選方法之一。因此,基于k近鄰算法的lncRNA亞細胞定位預測成為了當前研究的熱點之一。2緒論2.1lncRNA亞細胞定位預測的選題依據(jù)及研究意義隨著功能基因組學的迅猛進展,人們對非編碼RNA(non-codingRNA,ncRNA)轉(zhuǎn)錄產(chǎn)物的功能研究日益關(guān)注。在這些非編碼RNA中,長鏈非編碼RNA(longnon-codingRNA,lncRNA)因其占比顯著而備受矚目,成為了當前研究的熱點。當前,大量的實驗研究表明,lncRNA能夠定位在細胞內(nèi)的多種位置,且其在不同的亞細胞區(qū)域執(zhí)行的功能各異。因此,精確鑒定lncRNA的多樣亞細胞定位對于深化我們對其生物學功能的理解至關(guān)重要。已有的研究揭示,lncRNA的作用廣泛涵蓋生物體的生理和病理過程的各個方面。對lncRNA功能的深入探討,不僅有助于我們深入理解生物體的基因表達調(diào)控機制,還可能為疾病診斷與治療提供新的靶點和策略。例如,lncRNA可以通過與miRNA的相互作用來參與細胞活動,lncRNA可以通過抑制miRNA的成熟來抑制細胞增殖[[]TiechengL,DiW,ShuoY.AnalysisofthesubcellularlocationoflncRNASLC16A1-AS1anditsinteractionwithprematuremiR-5088-5pinoralsquamouscellcarcinoma.[J].Odontology,2023,111(1):41-48.],lncRNA還可以通過影響基因表達水平,對多種癌細胞的增殖、凋亡及侵襲特性產(chǎn)生顯著影響[[]趙海龍,李斌,鄭鳳長,等.LncRNANEAT1調(diào)節(jié)miR-128-3p/HNRNPL軸對非小細胞肺癌細胞增殖、凋亡及PD-1/PD-L1表達的影響[J].現(xiàn)代免疫學,2024,44(02):141-151.][[]郭宏鵬,etal.LncRNALUCAT1介導的miR-199b-5p/MAPKAPK3軸在甲狀腺乳頭狀癌發(fā)展中的調(diào)控作用及機制.解剖科學進展1-8.][[]王海明,and趙高峰.LncRNAMIAT靶向miR-206促進食管鱗狀細胞癌細胞的增殖、凋亡、遷移和侵襲的作用研究.成都醫(yī)學院學報1-9.][[[]TiechengL,DiW,ShuoY.AnalysisofthesubcellularlocationoflncRNASLC16A1-AS1anditsinteractionwithprematuremiR-5088-5pinoralsquamouscellcarcinoma.[J].Odontology,2023,111(1):41-48.[]趙海龍,李斌,鄭鳳長,等.LncRNANEAT1調(diào)節(jié)miR-128-3p/HNRNPL軸對非小細胞肺癌細胞增殖、凋亡及PD-1/PD-L1表達的影響[J].現(xiàn)代免疫學,2024,44(02):141-151.[]郭宏鵬,etal.LncRNALUCAT1介導的miR-199b-5p/MAPKAPK3軸在甲狀腺乳頭狀癌發(fā)展中的調(diào)控作用及機制.解剖科學進展1-8.[]王海明,and趙高峰.LncRNAMIAT靶向miR-206促進食管鱗狀細胞癌細胞的增殖、凋亡、遷移和侵襲的作用研究.成都醫(yī)學院學報1-9.[]劉潔,謝興明,鈕洪霞,等.LncRNAMYLK-AS1調(diào)節(jié)miR-141-3p/STMN1軸對胃癌細胞增殖、凋亡和侵襲的影響[J].重慶醫(yī)科大學學報,2024,49(03):276-282.然而,目前的研究依然面臨諸多未解之謎,諸如定位機理具體運作方式、定位狀態(tài)差異下的功能轉(zhuǎn)變等深層次問題尚待破解。即便如此,在近幾年中,諸如SubcellularRNA-Seq、LncLoc等先進算法與模型已在預測精準度及實踐應用上取得顯著成效。2.2研究現(xiàn)狀長鏈非編碼RNA(longnoncodingRNA,lncRNA)是長度超過200個核苷酸,且其本身不編碼蛋白質(zhì),而是以RNA的形式形成多層面調(diào)控基因的表達的RNA。與蛋白質(zhì)的亞細胞定位相比,lncRNA亞細胞定位的預測方法并不多,但仍然取得了一些進展?,F(xiàn)有的亞細胞定位識別方法分為傳統(tǒng)生化實驗和計算方法兩大類。熒光原位雜交等生化實驗在lncRNA的亞細胞定位方面能夠獲得令人信服的實驗結(jié)果。面對耗時、產(chǎn)量低、試劑昂貴的傳統(tǒng)生物實驗,人們也開始致力于開發(fā)出效率更高的計算方法來預測lncRNA的亞細胞定位。利用生物信息學工具,可以對生物數(shù)據(jù)進行快速高效的分析,降低分子生物學領(lǐng)域中生物學實驗的各項成本[[]歐陽錦.基于生物信息學分析識別肺癌預后相關(guān)生物標志物的研究[D].南昌大學,2022.[]歐陽錦.基于生物信息學分析識別肺癌預后相關(guān)生物標志物的研究[D].南昌大學,2022.目前,主要有以下這些預測lncRNA的亞細胞定位的計算方法:2018年,Cao等人提取原始k-mer頻次特征后疊加自編碼器生成高層次特征,基于集成學習方法,生成了一個預測lncRNA亞細胞位置的預測器,稱為lncLocator[[]ZhenC,XiaoyongP,YangY,etal.ThelncLocator:asubcellularlocalizationpredictorforlongnon-codingRNAsbasedonastackedensembleclassifier.[J].Bioinformatics(Oxford,England),2018,34(13):2185-2194.];隨后,Su等人開發(fā)了一個將八聯(lián)體核苷酸組分集成到PseKNC中,利用SVM模型來識別lncRNA的亞細胞位置的預測器,稱為iLoc-lncRNA[[]Zhen-DongS,YanH,Zhao-YueZ,etal.iLoc-lncRNA:predictthesubcellularlocationoflncRNAsbyincorporatingoctamercompositionintogeneralPseKNC.[J].Bioinformatics(Oxford,England),2018,34(24):4196-4204.];lncLocator模型使用了自編碼器產(chǎn)生的新特征,但在預測精度上并不理想。iLoc-lncRNA大大提高了整體精度,但對某些亞細胞,如細胞核、核糖體等位置的預測精度還需要進一步提高。之后的2020年,AhsanAhmad等人利用ngappedl-mer和l-mer特征,基于局部深度支持向量機算法,提出的lncRNA亞細胞定位預測器Locate-R,顯著提高了定位在核糖體和外泌體這兩個亞細胞位置的預測性能[[]AhmadA,LinH,ShatabdaS.Locate-R:Subcellularlocalizationoflongnon-codingRNAsusingnucleotidecompositions[J].Genomics,2020,112(3):2583-2589.]。與前三個預測器在小數(shù)據(jù)集且多個亞細胞位置上預測lncRNA的亞細胞位置不同,Gudenas等人開發(fā)了DeepLncRNA,它利用深度學習算法在大數(shù)據(jù)集上預測了[]ZhenC,XiaoyongP,YangY,etal.ThelncLocator:asubcellularlocalizationpredictorforlongnon-codingRNAsbasedonastackedensembleclassifier.[J].Bioinformatics(Oxford,England),2018,34(13):2185-2194.[]Zhen-DongS,YanH,Zhao-YueZ,etal.iLoc-lncRNA:predictthesubcellularlocationoflncRNAsbyincorporatingoctamercompositionintogeneralPseKNC.[J].Bioinformatics(Oxford,England),2018,34(24):4196-4204.[]AhmadA,LinH,ShatabdaS.Locate-R:Subcellularlocalizationoflongnon-codingRNAsusingnucleotidecompositions[J].Genomics,2020,112(3):2583-2589.[]GudenasBrianL,andWangLiangjiang.PredictionofLncRNASubcellularLocalizationwithDeepLearningfromSequenceFeatures..Scientificreports8.1(2018):16385.在國內(nèi)外,關(guān)于lncRNA亞細胞定位預測的研究已經(jīng)取得了一些進展,但仍然存在一些問題和挑戰(zhàn):1.數(shù)據(jù)不平衡和不完整性:目前公開的lncRNA亞細胞定位數(shù)據(jù)集存在著樣本數(shù)量不平衡和標注不完整等問題,這會影響預測模型的性能和泛化能力。2.特征提取和選擇:針對lncRNA序列的特征提取和選擇是定位預測中的關(guān)鍵步驟之一。目前,尚缺乏針對不同亞細胞定位的有效特征提取方法,以及如何選擇最具代表性的特征。隨著公開的亞細胞定位數(shù)據(jù)的增加,已經(jīng)開發(fā)了許多用于識別lncRNA亞細胞定位的計算方法。不幸的是,這些計算方法存在冗余特征或過采樣過擬合的低判別能力[[]YueZZ,JieZS,HeYY,etal.Towardsabetterpredictionofsubcellularlocationoflongnon-codingRNA[J].FrontiersofComputerScience,2022,16(5):165903-.[]YueZZ,JieZS,HeYY,etal.Towardsabetterpredictionofsubcellularlocationoflongnon-codingRNA[J].FrontiersofComputerScience,2022,16(5):165903-.3.算法的效率和準確性:現(xiàn)有的預測方法在準確性和計算效率之間存在一定的平衡。一些高效的方法可能犧牲了一定的預測準確性,而一些準確性較高的方法可能計算速度較慢,難以應用于大規(guī)模數(shù)據(jù)集。綜上所述,lncRNA亞細胞定位預測的研究具有重要的理論和應用意義,而生物信息學領(lǐng)域的機器學習方法為該領(lǐng)域的研究提供了有力的工具和方法支持。然而,當前仍存在一些挑戰(zhàn)需要進一步解決,以提高預測模型的準確性和泛化能力。2.3研究工作和結(jié)構(gòu)安排本文由引論、數(shù)據(jù)集建立和算法實現(xiàn)三部分組成。引論部分主要闡述目前國內(nèi)外lncRNA亞細胞定位預測的研究背景、意義和現(xiàn)狀,并重點介紹關(guān)于lncRNA定位預測的生物信息領(lǐng)域機器學習的方法;在數(shù)據(jù)集建立的部分中,本文計劃隨機挑選150條不同亞細胞中不同的lncRNA序列,根據(jù)不同的生物特征對序列進行量化,將量化后的序列轉(zhuǎn)變?yōu)榫仃嚕?shù)據(jù)集;在算法方面,本文將詳細介紹k近鄰算法的計算過程,應用機器學習算法對所選取的lncRNA序列進行定位預測,對預測結(jié)果進行分析。3數(shù)據(jù)集的建立3.1數(shù)據(jù)集的采集和預處理3.1.1數(shù)據(jù)收集本文數(shù)據(jù)均采自RNAlocate數(shù)據(jù)庫(/rnalocate/)。該數(shù)據(jù)庫致力于提供一個RNA亞細胞定位的高效處理、瀏覽和分析的資源庫。在當前版本中,RNALocate數(shù)據(jù)庫已經(jīng)收錄了超過21萬項與RNA相關(guān)的亞細胞定位條目以及相應的實驗和預測證據(jù),涵蓋了分布在104個不同物種的171種亞細胞定位中的超過11萬種RNA。3.1.2數(shù)據(jù)預處理在進行建模之前,我們需要對數(shù)據(jù)進行一些預處理操作,例如去除低質(zhì)量序列、去除重復序列、去除長度過短或過長的序列等。此外,還需要將序列進行歸一化處理,確保數(shù)據(jù)的一致性和可比性。經(jīng)查閱文獻,本文研究選取150條不同的人類lncRNA序列,定位于細胞質(zhì)、細胞核、細胞質(zhì)溶質(zhì)三個不同的亞細胞,以排除試驗的偶然性,如表1所示:表1:lncRNA數(shù)據(jù)集亞細胞定位LncRNA數(shù)量(個)細胞質(zhì)(Cytoplasm)50細胞核(Nucleus)50細胞質(zhì)溶質(zhì)(Cytosol)503.2數(shù)據(jù)集的處理3.2.1特征提取在應用算法進行預測前,需得對收集到的每條lncRNA序列進行量化,本文選用四種不同的特征提取方法對已收集到的150條人類lncRNA序列進行量化:1.將A,T,C,G四種堿基兩兩排列組合,共有16種不同的方式,分別為:AA,AG,AC,AG,AT,GA,GG,GC,GT,CA,CG,CC,CT,TA,TG,TC,TT,記錄不同的組合在序列中的分布情況,將序列量化為150個16維向量;2.將A,T,C,G四種堿基三三排列組合,共有64種不同的方式,分別為:AAA,AAG,AAC,AAT,GAA,GAG,GAC,GAT,CAA,CAG,CAC,CAT,TAA,TAG,TAC,TAT,AGA,AGG,AGC,AGT,GGA,GGG,GGC,GGT,CGA,CGG,CGC,CGT,TGA,TGG,TGC,TGT,ACA,ACG,ACC,ACT,GCA,GCG,GCC,GCT,CCA,CCG,CCC,CCT,TCA,TCG,TCC,TCT,ATA,ATG,ATC,ATT,GTA,GTG,GTC,GTT,CTA,CTG,CTC,CTT,TTA,TTG,TTC,TTT,記錄不同的組合在序列中的分布情況,將序列量化為150個64維向量。3.將前兩種已處理好的數(shù)據(jù)融合到一起,得到150個80維向量。4.對于一條長度為n的lncRNA序列,從其中抽取長度L=4的子序列,定義為L-元組,則所有可能的L-元組構(gòu)成集合W,易知集合W所含元素的個數(shù)C=44=256個,取一尺寸為4的滑動窗口,從該條序列的位置1滑動至位置n-3,可得到n-3個L-元組,計算集合W中各子序列在滑動得到的n-3個L-元組中出現(xiàn)個數(shù)的相對含量,對應生成一個256維向量[[]李玲,南旭瑩,姚玉華.生物序列比較的幾種數(shù)學方法及其應用[J].渤海大學學報(自然科學版),2013,34(01):1-7+70.[]李玲,南旭瑩,姚玉華.生物序列比較的幾種數(shù)學方法及其應用[J].渤海大學學報(自然科學版),2013,34(01):1-7+亞細胞定位標記將序列根據(jù)生物特征量化后,我們可以將每個lncRNA序列表示為一個特征向量,從而將長度各不同的lncRNA序列轉(zhuǎn)換為150個相同維度的向量。第一種特征得到一個150行,16列的矩陣,第二種特征得到一個150行,64列的矩陣,第三種特征得到一個150行,80列的矩陣,第四種特征得到一個150行,256列的矩陣。經(jīng)過特征提取得到量化后的矩陣需進一步處理,標記出其亞細胞定位,如對于第一種特征,定位在第一個亞細胞細胞質(zhì)(Cytoplasm)的序列標記為[1],定位在第二個亞細胞細胞核(Nucleus)的序列標記為[2],定位在第三個亞細胞細胞質(zhì)溶質(zhì)(Cytosol)的序列標記為[3],得到150行,17列的矩陣。第二、三、四種特征也如此標記,全部標記好后,方可作為機器學習模型的輸入數(shù)據(jù)。4K近鄰算法實現(xiàn)K近鄰(K-nearestneighbor,KNN)算法是一種簡單且有效的機器學習算法,它的基本思想是如果一個樣本在特征空間中的k個最鄰近的樣本中大多數(shù)都屬于一個類別,那么可認為該樣本也屬于這個類別。K近鄰算法實現(xiàn)時有兩個重要的數(shù)值,一個是參數(shù)k,即選擇樣本的多少個近鄰,另一個是待測樣本與近鄰之間的距離的度量,即選擇合適的距離公式。如何選擇合適的數(shù)值來現(xiàn)實算法是K近鄰算法的核心問題。4.1K值的選擇k值是K近鄰算法中的一個關(guān)鍵參數(shù),它決定了模型的復雜度和泛化能力。若k取了過大的值,則模型的近似誤差會變大,模型變得簡單;若k取了過小的值,則預測結(jié)果受近鄰影響極大,敏感性增強,穩(wěn)健性低,模型變得復雜,容易發(fā)生過擬合。選擇k值的常見方法是通過旁置法、留一法(也稱特殊的旁置法)來對模型的預測誤差進行估計,以找到表現(xiàn)最佳的k值。當k為偶數(shù)時,預測可能存在兩個不同的亞細胞定位類別都是最多近鄰的情況,因此,本文先分別選取k=3,5,7,9四個不同的奇數(shù)值對K近鄰算法預測結(jié)果進行分析比對,再根據(jù)初步結(jié)果選取不同的k值進行預測,使得四種不同特征的亞細胞定位正確率達到最高。4.2距離度量由于K近鄰法將樣本包含的n個觀測數(shù)據(jù)看成p維(p個輸入變量)特征空間中的點,所以可在特征空間中定義某種距離,作為測度與X0近鄰關(guān)系的依據(jù)。常用的距離有閔可夫斯基距離、歐氏距離、絕對距離、切比雪夫距離、夾角余弦距離等。對兩觀測點X和Y,若Xi是觀測點X的第i個變量值,Yi是觀測點Y的第i個變量值,兩觀測點X和Y之間的上述距離定義如下。1.閔可夫斯基距離兩觀測點X和Y間的閔可夫斯基(Minkowski)距離是兩觀測點p個變量值絕對差k次方總和的k次方根(k可以任意指定),數(shù)學定義為:MINKOWSKI(X,Y)=k2.歐氏距離兩觀測點X和Y間的歐氏距離(Euclideandistance)是兩觀測點p個變量值之差的平方和開平方,數(shù)學定義為:EUCLID(X,Y)=i=1p(歐氏距離是閔可夫斯基距離k=2時的特例。3.絕對距離兩觀測點X和Y間的絕對距離(也稱曼哈頓(Manhattan)距離)是兩觀測點p個變量值絕對差的總和,數(shù)學定義為:BLOCK(X,Y)=i=1p絕對距離是閔可夫斯基距離k=1時的特例。4.切比雪夫距離兩觀測點X和Y間的切比雪夫(Chebyshev)距離是兩觀測點p個變量值絕對差的最大值,數(shù)學定義為:CHEBYCHEV(X,Y)=|max(Xi?Y5.夾角余弦距離兩觀測點X和Y間的夾角余弦(cosine)距離的數(shù)學定義為:COSINE(X,Y)=i=1夾角余弦距離是用于測度兩個觀測變量整體結(jié)構(gòu)相似度的一種度量方法。通過計算兩變量之間的夾角余弦值,評估它們之間的相似程度,從而揭示它們整體結(jié)構(gòu)的關(guān)聯(lián)性。夾角余弦越大,關(guān)聯(lián)性越高[[]薛薇.R語言數(shù)據(jù)挖掘[M].北京:中國人民大學出版社,2023:120-122.][]薛薇.R語言數(shù)據(jù)挖掘[M].北京:中國人民大學出版社,2023:120-122.本文采用最常用的歐氏距離對觀測值與近鄰之間的距離進行度量。4.3模型訓練本文使用Rstudio軟件(2023.12.1版本),將已處理好的150條lncRNA序列特征矩陣及其亞細胞定位標簽數(shù)據(jù)中的80%作為訓練集,20%作為測試集,輸入到KNN算法中進行訓練。4.4預測結(jié)果及分析預測結(jié)果如表2所示:表2:KNN算法預測結(jié)果特征k細胞質(zhì)(Cytoplasm)細胞核(Nucleus)細胞質(zhì)溶質(zhì)(Cytosol)總正確率第一種特征k=358.33%25%30%40%k=558.33%75%30%53.33%k=758.33%75%40%56.67%k=966.67%50%30%50%第二種特征k=387.5%8.33%20%33.33%k=575%16.67%30%36.67%k=775%41.67%30%46.67%k=975%41.67%30%46.67%第三種特征k=387.5%8.33%40%40%k=587.5%41.67%20%46.67%k=787.5%33.33%10%40%k=987.5%41.67%20%46.67%第四種特征k=358.33%37.5%70%56.67%k=566.67%0%60%46.67%k=750%37.5%70%53.33%k=958.33%25%60%50%由表2知:當取k=3時,第一類特征的總體正確率為40%,各個亞細胞定位預測的正確率為58.33%,25%,30%;當取k=5時,第一類特征的總體正確率為53.33%,各個亞細胞定位預測的正確率為58.33%,75%,30%;當取k=7時,第一類特征的總體正確率為56.67%,各個亞細胞定位預測的正確率為58.33%,75%,40%;當取k=9時,第一類特征的總體正確率為50%,各個亞細胞定位預測的正確率為66.67%,50%,30%;當取k=3時,第二類特征的總體正確率為33.33%,各個亞細胞定位預測的正確率為87.5%,8.33%,20%;當取k=5時,第二類特征的總體正確率為36.67%,各個亞細胞定位預測的正確率為75%,16.67%,30%;當取k=7時,第二類特征的總體正確率為46.67%,各個亞細胞定位預測的正確率為75%,41.67%,30%;當取k=9時,第二類特征的總體正確率為46.67%,各個亞細胞定位預測的正確率為75%,41.67%,30%;當取k=3時,第三類特征的總體正確率為40%,各個亞細胞定位預測的正確率為87.5%,8.33%,40%;當取k=5時,第三類特征的總體正確率為46.67%,各個亞細胞定位預測的正確率為87.5%,41.67%,20%;當取k=7時,第三類特征的總體正確率為40%,各個亞細胞定位預測的正確率為87.5%,33.33%,10%;當取k=9時,第三類特征的總體正確率為46.67%,各個亞細胞定位預測的正確率為87.5%,41.67%,20%;當取k=3時,第四類特征的總體正確率為56.67%,各個亞細胞定位預測的正確率為58.33%,37.5%,70%;當取k=5時,第四類特征的總體正確率為46.67%,各個亞細胞定位預測的正確率為66.67%,0%,60%;當取k=7時,第四類特征的總體正確率為53.33%,各個亞細胞定位預測的正確率為50%,37.5%,70%;當取k=9時,第四類特征的總體正確率為50%,各個亞細胞定位預測的正確率為58.33%,25%,60%。不同特征下的預測正確率如圖1所示。圖1:不同特征下的預測正確率四種不同特征可得到的最佳結(jié)果如圖2所示。圖2:不同特征下的最佳預測結(jié)果由結(jié)果可以看出,當取k=3,5,7,9時,第一種特征的正確率在k=7時達到最大值56.67%,分別取k=6,8再次進行預測,正確率均

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論