Responsive image
博碩士論文 etd-0617118-121557 詳細資訊
Title page for etd-0617118-121557
論文名稱
Title
利用正規化之 Cox 模型與邏輯斯迴歸分析膀胱癌病人其基因表現量與突變之高維度資料
Analysis of high dimensional gene expression and mutation data in bladder cancer using Cox proportional hazards model and logistic regression via different penalizations
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
47
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2018-07-04
繳交日期
Date of Submission
2018-07-17
關鍵字
Keywords
癌症基因體圖譜計畫、基因表現量、高維度迴歸分析、突變基因、膀胱癌
high-dimensional analysis, Bladder cancer, gene expression, mutation gene, The Cancer Genome Atlas (TCGA)
統計
Statistics
本論文已被瀏覽 5705 次,被下載 0
The thesis/dissertation has been browsed 5705 times, has been downloaded 0 times.
中文摘要
膀胱癌為泌尿系統中常見的惡性疾病之一,其常見的症狀為血尿,可能可透過肉眼看見或經過尿液檢驗發現是否有顯微血尿。為了解膀胱癌病人其基因之突變與表現量對於病人存活 (及復發) 和癌細胞型態的影響,本研究資料來自美國癌症基因體圖譜計畫 TCGA (The Cancer Genome Atlas),經過史隆凱特林癌症研究中心 (Memorial-Sloan-Kettering Cancer Center, MSKCC) 計算生物學中心整理的癌症基因資料庫 (Cancer Genomics Data Server, CGDS) 下載,透過高維度迴歸分析之方法,利用如 Lasso、Ridge、Adaptive Lasso 及 Cox Model 處理變數篩選,並比較不同方法之預測結果,以及做風險預測。分析中找到的基因,和文獻中提到和膀胱癌相關的基因做印證,以了解這些基因和膀胱癌的關係。同時可以幫助實驗室後續的尿液試紙檢驗分析,希望可以早一步篩檢出癌症病人,以達到最好的治療成效。另外,本研究也利用 R 程式寫了如何取得和處理基因資料庫資料的函式,以供將來研究者使用。
Abstract
Bladder cancer is one of the malignant diseases in urinary system. Its common symptoms include hematuria which could be seen through eyes or urine analysis. In order to understand the effect of gene expression and mutation data on subtypes and recurrent event in patients with bladder cancer, we downloaded data from The Cancer Genome Atlas (TCGA) and applied high-dimensional analysis such as LASSO, Ridge, Adaptive Lasso and Cox model to screen gene variables, compare the performance of different models and predict the hazard of each patients. Among the selected gene candidates, we found TP53 and ERBB3 have been published in quite a few papers, which could verify our method. Not only the list of genes could help the lab to perform further analysis but also it could screen out the potential patients in advance. On the other hand, we also wrote some functions to access and deal with gene database in R language, which could be used by other researchers in the future.
目次 Table of Contents
論 文 審 定 書 i
論 文 公 開 授 權 書 ii
誌 謝 iii
摘 要 iv
Abstract v
1 研 究 動 機 與 目 的 1
2 資 料 描 述 2
2.1 資料取得 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 資料處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.3 變數介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3.1 臨床變數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3.2 基因資料之變數 . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.4 敘述統計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 研 究 方 法 5
3.1 錯誤發現率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 邏輯斯迴歸(Logistic regression) . . . . . . . . . . . . . . . . . . . . . . . 6
3.2.1 敏感度 (Sensitivity) 與特異度 (Specificity) . . . . . . . . . . . . . 6
3.2.2 ROC 曲線 (Receiver Operating Characteristic curve, ROC curve) 7
3.2.3 約登指數 (Youden’s index) . . . . . . . . . . . . . . . . . . . . . 7
3.3 存活曲線 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.4 Cox 比例風險模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.4.1 一致性指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.5 正規化之方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.5.1 正規化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.6 五折交叉驗證 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.7 覆蓋率計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.7.1 兩個基因之覆蓋率計算 . . . . . . . . . . . . . . . . . . . . . . . . 12
4 研 究 結 果 13
4.1 以癌症亞型為反應變數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 以復發為反應變數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3 覆蓋率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.1 基因表現量之覆蓋率 . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.2 基因表現量結合突變基因之覆蓋率 . . . . . . . . . . . . . . . . . . 26
4.3.3 基因表現量結合突變基因移動寬度之覆蓋率 . . . . . . . . . . . . . 29
5 結 論 與 建 議 31
參 考 文 獻 32
A 附 錄 34
參考文獻 References
[1] Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a
practical and powerful approach to multiple testing. Journal of the royal statistical
society. Series B (Methodological), 289-300.
[2] Cancer Genome Atlas Research Network. (2014). Comprehensive molecular characterization of urothelial bladder carcinoma. Nature, 507(7492), 315.
[3] Cerami, E., Gao, J., Dogrusoz, U., Gross, B. E., Sumer, S. O., Aksoy, B. A., ...& Antipin, Y. (2012). The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data.
[4] Friedman, J., Hastie, T., & Tibshirani, R. (2010). Regularization paths for generalized linear models via coordinate descent. Journal of statistical software, 33(1),1.
[5] Gao, J., Aksoy, B. A., Dogrusoz, U., Dresdner, G., Gross, B., Sumer, S. O., ...& Cerami, E. (2013). Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal. Sci. Signal., 6(269), pl1-pl1.
[6] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). New York: springer.
[7] Le Cessie, S., & Van Houwelingen, J. C. (1992). Ridge estimators in logistic regression. Applied statistics, 191-201.
[8] Simon, N., Friedman, J., Hastie, T., & Tibshirani, R. (2011). Regularization paths for Cox’s proportional hazards model via coordinate descent. Journal of statistical software, 39(5), 1.
[9] Storey, J. D., & Tibshirani, R. (2003). Statistical significance for genomewide studies. Proceedings of the National Academy of Sciences, 100(16), 9440-9445.
[10] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B (Methodological), 267-288.
[11] Tibshirani, R. (1997). The lasso method for variable selection in the Cox model. Statistics in medicine, 16(4), 385-395.
[12] Zhang, H. H., & Lu, W. (2007). Adaptive Lasso for Cox’s proportional hazards model. Biometrika, 94(3), 691-703.
[13] Zou, H. (2006). The adaptive lasso and its oracle properties. Journal of the American statistical association, 101(476), 1418-1429.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus:永不公開 not available
校外 Off-campus:永不公開 not available

您的 IP(校外) 位址是 3.135.195.249
論文開放下載的時間是 校外不公開

Your IP address is 3.135.195.249
This thesis will be available to you on Indicate off-campus access is not available.

紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 永不公開 not available

QR Code