基于R語(yǔ)言的前列腺癌樣本的關(guān)鍵基因數(shù)據(jù)挖掘_第1頁(yè)
基于R語(yǔ)言的前列腺癌樣本的關(guān)鍵基因數(shù)據(jù)挖掘_第2頁(yè)
基于R語(yǔ)言的前列腺癌樣本的關(guān)鍵基因數(shù)據(jù)挖掘_第3頁(yè)
基于R語(yǔ)言的前列腺癌樣本的關(guān)鍵基因數(shù)據(jù)挖掘_第4頁(yè)
基于R語(yǔ)言的前列腺癌樣本的關(guān)鍵基因數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 基于R語(yǔ)言的前列腺癌樣本的關(guān)鍵基因數(shù)據(jù)挖掘 孫澤坤 袁錢(qián)圖 胡建新摘 要:為尋找前列腺癌組織與正常前列腺組織的關(guān)鍵基因,從Gene Expression Omnibus(GEO)數(shù)據(jù)庫(kù)下載前列腺癌樣本基因表達(dá)譜數(shù)據(jù)集GSE69223。進(jìn)行芯片標(biāo)準(zhǔn)化處理后設(shè)置閾值|log2(FC)|2且pvalue2 and pvalue【Key words】 R language; data mining; Prostate Cancer; key genes0 引 言前列腺癌(Prostate Cancer,PCa)是男性常見(jiàn)惡性腫瘤之一,多發(fā)于老年男性,同時(shí)具有高轉(zhuǎn)移性,且早期沒(méi)有明顯癥狀,發(fā)現(xiàn)可能已經(jīng)

2、是晚期1。據(jù)美國(guó)癌癥協(xié)會(huì)估計(jì),2018年美國(guó)有大約164 690例新發(fā)PCa病例。同年大約有29 430例死于該病,這使其在世界致癌誘因統(tǒng)計(jì)榜單中已排至第二位2。與大多數(shù)其它癌癥一樣,PCa病情的發(fā)展取決于其擴(kuò)散,因此局部疾病患者的5年生存率幾乎為100%,癌癥轉(zhuǎn)移患者的生存率將下降至28%3。中國(guó)前列腺癌發(fā)病率雖遠(yuǎn)低于歐美國(guó)家,但隨著中國(guó)社會(huì)老齡化程度的逐漸提高、飲食結(jié)構(gòu)及生活習(xí)慣的不斷改變、診療水平及生產(chǎn)工藝的亟待改進(jìn)等因素,中國(guó)前列腺癌的發(fā)病率也有逐年上升的趨勢(shì)4。研究可知,R語(yǔ)言是由Ihaka和 Gentleman教授聯(lián)合開(kāi)發(fā)的一種計(jì)算機(jī)語(yǔ)言5,現(xiàn)已經(jīng)主要應(yīng)用于數(shù)據(jù)處理、統(tǒng)計(jì)計(jì)算、數(shù)學(xué)

3、建模、數(shù)據(jù)可視化等多個(gè)領(lǐng)域,是一款開(kāi)源、免費(fèi)、自由的面向?qū)ο蟮木幊誊浖?,并已擁有Linux、(Mac)OS X、Windows等多個(gè)版本。R語(yǔ)言使用的拓展包(packages)可根據(jù)用戶(hù)需要自由開(kāi)發(fā),同時(shí)還可供使用者免費(fèi)下載6。隨著計(jì)算機(jī)技術(shù)及高通量測(cè)序技術(shù)的發(fā)展,生物芯片已然成為臨床樣本分析的一種有效方法,為疾病預(yù)測(cè)、分子診斷、新藥開(kāi)發(fā)發(fā)揮著強(qiáng)有力的助益作用7-8。本研究采用了基于R語(yǔ)言的芯片分析方法來(lái)研究前列腺癌與正常前列腺組織之間的基因差異,從GEO數(shù)據(jù)(https:/geo/)下載基因表達(dá)譜數(shù)據(jù)集GSE69223后對(duì)樣本進(jìn)行質(zhì)量檢測(cè),數(shù)據(jù)清洗后設(shè)定閾值log2(FC)2, pvalue

4、1 材料與方法1.1 材料芯片數(shù)據(jù)集GSE69223及芯片平臺(tái)數(shù)據(jù)GPL570從GEO數(shù)據(jù)庫(kù)(https:/geo/)下載得到,R語(yǔ)言版本為R3.6。除內(nèi)置程序包外,其余拓展包下載自https:/及http:/packages。1.2 實(shí)驗(yàn)方法1.2.1 數(shù)據(jù)獲取及數(shù)據(jù)清洗GSE69223基因表達(dá)譜芯片數(shù)據(jù)由美國(guó)Affymetrix公司制作,使用芯片平臺(tái)為GPL570。數(shù)據(jù)集GSE69223包括15個(gè)正常前列腺組織樣本以及15個(gè)前列腺癌組織樣本。下載txt格式的原始數(shù)據(jù),使用R語(yǔ)言獲取表達(dá)矩陣、分組信息、表型數(shù)據(jù),過(guò)濾掉沒(méi)有基因名對(duì)應(yīng)的探針以及對(duì)應(yīng)某個(gè)基因名的多個(gè)探針。1.2.2 聚類(lèi)分析和P

5、CA分析使用R語(yǔ)言中的dist和hclust函數(shù)對(duì)30個(gè)樣品進(jìn)行聚類(lèi)分析,初步判斷15個(gè)正常樣本與15個(gè)前列腺癌樣本的差異,用以檢測(cè)該數(shù)據(jù)集是否具有數(shù)據(jù)挖掘的潛力。再對(duì)樣本進(jìn)行主成分分析(PCA),用以判斷是否有潛在因子影響兩者之間的差異性。1.2.3 獲得表達(dá)差異基因用T檢驗(yàn)獲得包含基因名、LogFC、pvalue等信息的數(shù)據(jù)框,以log2(FC)2,pvalue2為上調(diào),LogFC-2為下調(diào)。1.2.4 差異表達(dá)基因的KEGG分析和GO分析使用R語(yǔ)言中的clusterProfiler包對(duì)差異表達(dá)基因中的上調(diào)基因進(jìn)行KEGG分析和GO富集分析。找出該基因的功能和富集的KEGG信號(hào)通路等信息。

6、1.2.5 生存分析將經(jīng)KEGG分析和GO分析的上調(diào)差異基因上傳到UALACN(http:/),選擇prostate adenocarcinoma(前列腺腺癌)進(jìn)行生存分析,獲得差異基因與生存時(shí)間之間的關(guān)系。2 結(jié)果與分析2.1 數(shù)據(jù)獲取及數(shù)據(jù)清洗數(shù)據(jù)集包括15個(gè)正常前列腺樣本以及15個(gè)前列腺癌樣本的、共54 675個(gè)基因。通過(guò)數(shù)據(jù)清洗及標(biāo)準(zhǔn)化過(guò)程,可得與探針具有一一對(duì)應(yīng)關(guān)系的基因有23 521個(gè)。為檢驗(yàn)基因表達(dá)量的準(zhǔn)確性,研究繪制了管家基因(GAPDH)以及-actin的箱型圖(見(jiàn)圖1(a),發(fā)現(xiàn)兩者的表達(dá)量平均值都在0附近,這表明此數(shù)據(jù)集中的基因表達(dá)未出現(xiàn)異常,在誤差允許范圍內(nèi)可進(jìn)行后續(xù)分

7、析。將30個(gè)樣本納入分析范圍,圖1(b)展示了各樣本中基因的表達(dá)情況。2.2 聚類(lèi)分析和PCA分析為初步判斷30個(gè)樣本中的前列腺正常樣本(normal)與前列腺癌樣本的差異,研究對(duì)樣本進(jìn)行了聚類(lèi)分析和PCA分析。分析結(jié)果表明,樣本中的某些基因的差異表達(dá),可作為前列腺癌的診斷依據(jù)。在此次聚類(lèi)分析中,有10個(gè)正常樣本與前列腺癌樣本分開(kāi),準(zhǔn)確度達(dá)到66.7%,但此數(shù)據(jù)集中樣本總量為30個(gè),分組數(shù)據(jù)較少,用聚類(lèi)分析只能初步揭示正常樣品與前列腺癌樣品具有差異性(見(jiàn)圖1(c)。進(jìn)一步地,對(duì)樣品進(jìn)行PCA分析。結(jié)果表明,主成分1對(duì)樣本差異性的貢獻(xiàn)率為11.44%,主成分2對(duì)樣本差異性的貢獻(xiàn)率為9.87%,通

8、過(guò)主成分1(PC1)和主成分2(PC2)可以將前列腺正常樣本與前列腺癌樣本較好的進(jìn)行區(qū)分(見(jiàn)圖1(d)。2.3 獲得表達(dá)差異基因通過(guò)T檢驗(yàn),得到包含基因名、log2(FC)以及pvalue的數(shù)據(jù)框,設(shè)定閾值pvalue2以及l(fā)og2(FC)2的基因?yàn)樯险{(diào)基因,log2(FC)-2的基因?yàn)橄抡{(diào)基因,得到101個(gè)下調(diào)基因和41個(gè)上調(diào)基因(見(jiàn)圖2(a)。選擇前列腺癌較正常前列腺組織中的上調(diào)基因41個(gè),導(dǎo)出其基因名及pvalue詳見(jiàn)表1。2.4 KEGG和GO分析將得到的41個(gè)基因利用超幾何分布原理在KEGG和GO數(shù)據(jù)庫(kù)中進(jìn)行比對(duì),得到富集結(jié)果見(jiàn)表2、表3。GO分析結(jié)果表明,前列腺癌細(xì)胞較前列腺正常細(xì)

9、胞上調(diào)的差異基因主要富集的細(xì)胞活動(dòng)過(guò)程有:白細(xì)胞遷移、細(xì)胞趨化性、細(xì)胞粘附、外肽酶活性、細(xì)胞 - 細(xì)胞連接。FFAR2、THBS4、TRPM4、CLDN3、CLDN8以及HPN被富集到多條通路。FFAR2、HBS4和TRPM4三個(gè)基因與白細(xì)胞遷移與細(xì)胞趨化性有關(guān),白細(xì)胞遷移,可能導(dǎo)致前列腺癌組織中的白細(xì)胞增多,白細(xì)胞產(chǎn)生白介素,調(diào)控多種生理生化反應(yīng)。該樣本中前列腺癌樣本集中于T2、T3分期,該時(shí)期的前列腺癌存在轉(zhuǎn)移潛能,因此可能與細(xì)胞趨化性有關(guān)。CLDN3和CLDN8是Claudin家族基因,該基因編碼的蛋白由Shoichiro Tsukita及其同事在1998年發(fā)現(xiàn),是細(xì)胞緊密連接的重要分子

10、,已有報(bào)道稱(chēng)Claudin-1在結(jié)腸癌、Claudin-10在肝細(xì)胞癌、Claudin-18在胃癌中具有一定的臨床價(jià)值9-11。HPN基因又叫Hepsin基因,該基因編碼一種II型跨膜絲氨酸蛋白酶,該蛋白酶可能參與多種細(xì)胞功能,包括凝血和維持細(xì)胞形態(tài)。編碼蛋白的表達(dá)與癌癥,尤其是前列腺癌的生長(zhǎng)和發(fā)展有關(guān)12。KEGG富集分析結(jié)果表明,差異表達(dá)的基因主要集中在緊密連接信號(hào)通路、多種生物分子代謝信號(hào)通路(在此列舉一條-亞麻酸代謝信號(hào)通路)、細(xì)胞粘附分子(CAMs)信號(hào)通路、黏著力信號(hào)通路、維生素消化吸收信號(hào)通路。除GO分析結(jié)果涉及的基因外,KEGG分析中還出現(xiàn)了PLA2G2A、FOLH1兩個(gè)基因。

11、PLA2G2A基因編碼的蛋白是磷脂酶A2家族(PLA 2)的成員。該基因產(chǎn)物屬于類(lèi),含有分泌型PLA 2,這是一種低分子質(zhì)量的胞外酶,需要鈣離子進(jìn)行催化。也可催化磷酸甘油中sn-2脂肪酸?;ユI的水解,釋放游離脂肪酸和溶血磷脂,并參與生物膜磷脂代謝的調(diào)控13。同時(shí),通過(guò)富集的結(jié)果來(lái)看,該基因還參與其他生物大分子如亞油酸代謝、脂肪消化吸收、醚脂代謝、花生四烯酸代謝、甘油磷脂代謝。而脂肪酸的氧化代謝過(guò)程已被證實(shí)與前列腺癌的發(fā)生和發(fā)展有著密切聯(lián)系14。FOLH1基因編碼屬于M28肽酶家族的型跨膜糖蛋白。該蛋白以谷氨酸羧肽酶的形式存在于不同的替代底物上,包括營(yíng)養(yǎng)葉酸和神經(jīng)肽N-乙酰-1-天冬氨酰-1-

12、谷氨酸,在前列腺、中樞神經(jīng)、外周神經(jīng)系統(tǒng)和腎臟等多種組織中均有表達(dá)。在前列腺中,該基因編碼的蛋白質(zhì)(PSMA)在癌細(xì)胞中被上調(diào),并被用作前列腺癌的有效診斷和預(yù)后指標(biāo)15。2.5 生存分析在UALCAN得到的生存分析結(jié)果中,研究發(fā)現(xiàn),在候選的8個(gè)基因中,有5個(gè)基因的高表達(dá)組的生存可能較高,而FFAR2、FOLH1、HPN高表達(dá)組的生存可能性較低(見(jiàn)圖2(b)(d)。其中,已經(jīng)有文獻(xiàn)報(bào)道HPV編碼的蛋白與前列腺癌有關(guān)12,F(xiàn)OLH1基因編碼的蛋白已成為前列腺癌的腫瘤標(biāo)志物11,而在相同的數(shù)據(jù)庫(kù)相同樣本的情況下,F(xiàn)FAR2組的P值最小,差異最為顯著,因此研究推斷,F(xiàn)FAR2基因與前列腺癌有較大關(guān)聯(lián)性

13、。3 結(jié)束語(yǔ)R語(yǔ)言作為一種操作簡(jiǎn)單、免費(fèi)、開(kāi)源的編程語(yǔ)言,適用于多種操作系統(tǒng),為使用者提供了極大的方便。此次研究從GSE69223基因表達(dá)譜數(shù)據(jù)集中獲取了54 675個(gè)基因,設(shè)定閾值pvalue2,篩選出其中的41個(gè)上調(diào)基因,并對(duì)這些基因進(jìn)行了KEGG分析和GO分析,獲得8個(gè)關(guān)鍵基因FFAR2、THBS4、TRPM4、CLDN3、CLDN8、HPN、PLA2G2A以及FOLH1。其中,F(xiàn)FAR2、THBS4、TRPM4三個(gè)基因與細(xì)胞趨化性相關(guān),查看該數(shù)據(jù)集的表型數(shù)據(jù)發(fā)現(xiàn),腫瘤樣本全部處于T2、T3時(shí)期,此3個(gè)基因的上調(diào),印證了該分期的前列腺癌繼續(xù)發(fā)展可能轉(zhuǎn)移的事實(shí)。CLDN3和CLDN8屬于C

14、laudin家族基因,該基因編碼的蛋白是細(xì)胞緊密連接的重要分子,已有報(bào)道稱(chēng)Claudin-1在結(jié)腸癌、Claudin-10在肝細(xì)胞癌、Claudin-18在胃癌中具有一定的臨床價(jià)值,因此研究推測(cè)CLDN3和CLDN8兩個(gè)基因可能與前列腺癌有潛在聯(lián)系。PLA2G2A參與多種脂類(lèi)大分子代謝,而脂肪酸的氧化代謝過(guò)程已被證實(shí)與前列腺癌的發(fā)生發(fā)展有著密切聯(lián)系。HPN和FOLH1已被文獻(xiàn)報(bào)道與前列腺癌有著密切聯(lián)系,并且FOLH1編碼的蛋白(PSMA)還被用作前列腺癌的腫瘤標(biāo)志物,在前列腺癌的診斷和預(yù)后中起著不可替代的作用。通過(guò)生存分析,研究還發(fā)現(xiàn)這8個(gè)關(guān)鍵基因中,F(xiàn)FAR2、HPN以及FOLH1三個(gè)基因的

15、高表達(dá)會(huì)減低患者生存可能性,除文獻(xiàn)已經(jīng)報(bào)道的HPN核FOLH1基因外,本文再次經(jīng)過(guò)分析推測(cè)后指出,F(xiàn)FAR2基因與前列腺癌的發(fā)生及發(fā)展有著潛在的關(guān)聯(lián)性。但要明確其具體機(jī)制,卻還需展開(kāi)進(jìn)一步研究。Reference1SHI Wei, DONG Li, BAO Junsheng. Progress in the studies of prostate cancer related moleculesJ. National Journal of Andrology, 2015, 21(4):357-362.2America Cancer Society. Cancer Information, An

16、swers, and HopeEB/OL. https:/cancer/prostate-cancer/about/key statistics.html.3MILLER K D, SIEGEL R L, LIN C C, et al. Cancer treatment and survivorship statistics,2016J. CA Cancer J Clin. 2016,66(4):271-289.4萬(wàn)克松. 手術(shù)去勢(shì)間斷聯(lián)合抗雄激素藥物治療晚期前列腺癌臨床療效研究D. 廣州:南方醫(yī)科大學(xué), 2012.5IHAKA R, GENTLEMAN R. R: A language fo

17、r data analysis and graphicsJ.Journal of Computational and Graphical Statistics,1996, 5(3) :299-314.6韓俊偉, 智慧, 王宏, 等. R語(yǔ)言在生物信息實(shí)踐中的應(yīng)用J. 生物技術(shù)世界, 2015(2):180.7李喜瑩, 李珊珊. 生物芯片技術(shù)及其在臨床檢驗(yàn)醫(yī)學(xué)中的應(yīng)用進(jìn)展J. 分子診斷與治療雜志, 2011,3(1):62-67.8于穎彥. 生物芯片在胃癌藥物病理學(xué)研究中的先導(dǎo)作用J. 上海交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版), 2007,27(5):491-493.9李東升, 王巍, 李晴, 等. 結(jié)腸癌組

18、織中Her-2和Claudin-1的表達(dá)及意義J. 廣東醫(yī)學(xué), 2012, 33(2):237-239.10張正東. Claudin-1和Claudin-10在肝細(xì)胞癌中的表達(dá)及意義D. 合肥:安徽醫(yī)科大學(xué), 201111左忠林, 陳鵬, 陳小龍,等. Claudin-18在胃癌中的臨床表達(dá)關(guān)系與治療J. 中華臨床醫(yī)師雜志(電子版), 2018, 12(3):173-176.12KIM H J , HAN J H , CHANG I H , et al. Variants in the HEPSIN gene are associated with susceptibility to prostate cancerJ. Prostate Cancer and Prostatic Diseases, 2012, 15(4):353-358.13洪雙雙. PLAG1和PLA2G2A在肝

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論