Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học
Trong những năm gần đây, nhiều phát hiện mang tính đột phá về mối liên
quan giữa bộ gen của con người với các căn bệnh và cơ sở phân tử của chúng đã
góp phần làm sáng tỏ nguyên nhân phát sinh của các căn bệnh. Việc khám phá cơ
sở phân tử cơ bản của các căn bệnh rất có giá trị trong vấn đề phòng ngừa, chẩn
đoán và điều trị bệnh.
Xác định các gen có liên quan đến bệnh là bài toán quan trọng trong lĩnh vực
y sinh học và sinh học phân tử. Trước đây, việc xác định các gen liên quan đến bệnh
được thực hiện chủ yếu bằng các thực nghiệm sinh học, phương pháp này cho kết
quả tin cậy nhưng đòi hỏi nhiều thời gian và chi phí cao.
Trong lĩnh vực tin sinh học những năm gần đây, các dữ liệu sinh học ngày
càng phong phú, được công bố rộng rãi và phần lớn là miễn phí. Với các dữ liệu đó,
các hệ thống thông tin dựa trên phương pháp tính toán và xử lý dữ liệu sinh học đã
được phát triển, cho phép tiết kiệm thời gian, chi phí và giúp các nhà nghiên cứu y
sinh học tìm ra các gen mới liên quan đến bệnh cho một số căn bệnh cụ thể.
Mặc dù đạt được nhiều thành tựu đáng kể trong lĩnh vực phát hiện gen liên
quan đến bệnh, tuy nhiên vẫn còn một số lượng lớn các bệnh chưa biết cơ sở phân
tử (khoảng hơn 1700 được liệt kê trong cơ sở dữ liệu OMIM - Online Mendelian
Inheritance in Man) [5]. Thậm chí, ngay cả với những bệnh đã biết được một phần
thông tin về cơ sở phân tử nhưng một tỷ lệ lớn các gen có liên quan tới bệnh vẫn
chưa được phát hiện
Tóm tắt nội dung tài liệu: Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học
i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả nghiên cứu được viết chung với các tác giả khác đều được sự đồng ý của họ trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác. Tác giả Đặng Vũ Tùng ii LỜI CẢM ƠN Luận án tiến sỹ này là kết quả của quá trình nghiên cứu lý thuyết và tiến hành các thực nghiệm đầy thách thức và khó khăn; đòi hỏi sự kiên trì và tập trung cao độ. Tôi thực sự hạnh phúc với kết quả đạt được trong đề tài nghiên cứu của mình. Kết quả đạt được không chỉ là những nỗ lực cá nhân, mà còn có sự hỗ trợ và giúp đỡ của tập thể người hướng dẫn, cơ sở đào tạo, cơ quan chủ quản, đồng nghiệp và gia đình. Tôi xin bày tỏ tình cảm của mình đến với họ. Trước tiên, tôi xin bày tỏ sự biết ơn sâu sắc đến PGS.TS. Từ Minh Phương và PGS.TS Lê Đức Hậu. Được làm việc với hai thầy là một cơ hội lớn cho tôi học hỏi phương pháp nghiên cứu, tính kiên trì và phương pháp làm việc nghiêm túc, khoa học. Tôi xin trân trọng cảm ơn Khoa Quốc tế và sau đại học, Khoa Công nghệ thông tin, Ban Giám đốc Học viện Công nghệ Bưu chính Viễn thông đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án. Tôi xin cảm ơn Ban Giám đốc Học viện Thanh thiếu niên Việt Nam và các bạn bè, đồng nghiệp đã cổ vũ, động viên và tạo các điều kiện thuận lợi nhất cho tôi trong quá trình học tập, nghiên cứu. Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình tôi, nơi khơi dậy truyền thống và luôn bên cạnh ủng hộ, giúp đỡ, chia sẻ với tôi những lúc khó khăn. Xin chân thành cảm ơn! iii MỤC LỤC LỜI CAM ĐOAN ....................................................................................................... i LỜI CẢM ƠN ............................................................................................................ ii MỤC LỤC ................................................................................................................. iii DANH MỤC CÁC CHỮ VIẾT TẮT ...................................................................... vii DANH MỤC CÁC HÌNH ......................................................................................... ix DANH MỤC CÁC BẢNG ........................................................................................ xi PHẦN MỞ ĐẦU ......................................................................................................... 1 1. Tính cấp thiết của luận án .................................................................................... 1 2. Mục tiêu của luận án ............................................................................................ 3 3. Các đóng góp của luận án .................................................................................... 3 4. Bố cục của luận án ............................................................................................... 5 Chương 1 - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH ................................................................................................................. 7 1.1. CƠ SỞ VỀ SINH HỌC PHÂN TỬ .................................................................. 7 1.1.1. Tế bào ......................................................................................................... 7 1.1.2. DNA ........................................................................................................... 7 1.1.3. Gen ............................................................................................................. 8 1.1.4. Quá trình điều khiển tổng hợp protein từ gen ............................................ 9 1.2. PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT ............. 11 1.2.1. Bài toán phân hạng gen ............................................................................ 11 1.2.2. Các hướng tiếp cận giải quyết bài toán phân hạng gen ............................ 12 iv 1.3. CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC .......................................... 16 1.3.1. Các cơ sở dữ liệu sinh học........................................................................ 16 1.3.2. Các mạng sinh học ................................................................................... 20 1.3.3. Mạng tương tác gen/protein ..................................................................... 22 1.4. CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC ..................................................... 23 1.4.1. Phương pháp dựa trên mức độ gần nhau của các gen/protein .................. 23 1.4.2. Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn ................ 25 1.4.3. Phương pháp dựa trên tích hợp thông tin kiểu hình ................................. 27 1.4.4. Phương pháp xây dựng các mô đun bệnh ................................................ 28 1.5. PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG ........... 33 1.5.1. Phương pháp kiểm tra chéo ...................................................................... 33 1.5.2. Xác định hiệu quả của các phương pháp phân hạng ................................ 35 1.6. KẾT LUẬN CHƯƠNG 1 ............................................................................... 38 Chương 2 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN ........................................................ 41 2.1. ĐẶT VẤN ĐỀ ................................................................................................ 41 2.1.1. Bài toán phân hạng nút trên đồ thị ........................................................... 43 2.1.2. Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm................. 43 2.1.3. Thuật toán phân hạng bằng học tăng cường ............................................. 45 2.1.4. Thuật toán bước ngẫu nhiên có quay lui .................................................. 46 2.2. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT HỢP VỚI XÁC SUẤT TIÊN NGHIỆM ............................................................... 48 2.2.1. Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm 48 v 2.2.2. Dữ liệu thực nghiệm ................................................................................. 51 2.2.3. Thực nghiệm và kết quả ........................................................................... 53 2.3. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN .............................. 61 2.3.1. Thuật toán dựa trên xác suất liên kết ........................................................ 61 2.3.2. Dữ liệu thực nghiệm ................................................................................. 67 2.3.3. Thực nghiệm và kết quả ........................................................................... 67 2.4. SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT ............. 74 2.4.1. Về nguyên tắc thực hiện, ưu nhược điểm và phạm vi áp dụng ................ 74 2.4.2. Về thực nghiệm ........................................................................................ 75 2.5. KẾT LUẬN CHƯƠNG 2 ............................................................................... 76 Chương 3 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN GÂY BỆNH DỰA TRÊN MẠNG KHÔNG ĐỒNG NHẤT ............................................................................................ 78 3.1. ĐẶT VẤN ĐỀ ................................................................................................ 78 3.2. MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN ............................................ 82 3.2.1. Tổng quan về phương pháp xây dựng mạng không đồng nhất ................ 82 3.2.2. Các mạng gen/protein ............................................................................... 82 3.2.3. Các mạng bệnh tương đồng ...................................................................... 86 3.2.4. Mạng lưỡng phân ..................................................................................... 87 3.3. THUẬT TOÁN BƯỚC NGẪU NHIÊN CÓ QUAY LUI TRÊN MẠNG KHÔNG ĐỒNG NHẤT ........................................................................................ 87 3.4. CÁC THỰC NGHIỆM VÀ KẾT QUẢ .......................................................... 92 3.4.1. So sánh hiệu quả với các phương pháp cùng lớp ..................................... 92 3.4.2. Dự đoán các gen liên quan đến bệnh Alzheimer ...................................... 94 vi 3.5. KẾT LUẬN CHƯƠNG 3 ............................................................................... 95 KẾT LUẬN ............................................................................................................... 97 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ............................................... 100 TÀI LIỆU THAM KHẢO ....................................................................................... 101 vii DANH MỤC CÁC CHỮ VIẾT TẮT KÝ HIỆU DIỄN GIẢI TIẾNG ANH TIẾNG VIỆT AUC Area Under ROC Curve Diện tích phía dưới đường cong ROC BIND Biomolecular Interaction Network Database Cơ sở dữ liệu mạng tương tác sinh học phân tử BioGRID Biological General Repository for Interaction data sets Cơ sở dữ liệu sinh học công khai bao gồm nhiều bộ dữ liệu tương tác CANDID A flexible method for prioritizing candidate genes for complex human traits Một phương pháp phân hạng gen được giới thiệu bởi Hutz và cộng sự CIPHER Correlating protein Interaction network and PHEnotype network to pRedict disease genes Một phương pháp phân hạng gen được giới thiệu bởi Wu và cộng sự DNA DeoxyriboNucleic Acid A-xít deoxyribonucleic DO Disease Ontology Bản thể bệnh EST Expressed Sequence Tag Thẻ biểu diễn trình tự eVOC A controlled vocabulary for unifying gene expression data Một từ vựng được kiểm soát để hợp nhất dữ liệu biểu hiện gen FN False Negative Âm tính giả (mẫu mang nhãn dương bị phân lớp sai vào lớp âm) FP False Positive Dương tính giả (mẫu mang nhãn âm bị phân lớp sai vào lớp dương) GO Gene Ontology Bản thể gen GWAS Genome - Wide Association Studies Nghiên cứu các liên kết bộ gen mở rộng (nghiên cứu tương quan toàn bộ nhiễm sắc thể) HITS Hypertext Induced Topic Search Thuật toán tìm kiếm trên Web HPO Human Phenotype Ontology Bản thể kiểu hình của con người HPRD Human Protein Reference Database Cơ sở dữ liệu tương tác protein của con người KEGG Kyoto Encyclopedia of Genes and Bách khoa toàn thư Kyoto về gen viii Genomes và bộ gen LOOCV Leave one out cross validation Kiểm tra chéo bỏ ra một MeSH Medical Subject Heading Cơ sở dữ liệu các chủ đề về y học MINT Molecular Interaction Database Cơ sở dữ liệu về tương tác phân tử MPO Mammalian Phenotype Ontology Bản thể kiểu hình động vật có vú. NCBI National Center for Biotechnology Information Trung tâm Thông tin Công nghệ Sinh học Quốc gia OMIM Online Mendelian Inheritance in Man Cơ sở dữ liệu trực tuyến di truyền Mendel ở người PRINCE PRIoritizatioN and Complex Elucidation Một phương pháp phân hạng gen được giới thiệu bởi Vanunu và cộng sự ROC Receiver Operating Characteristic/ Receiver Operating Curve Đường cong đặc trưng hoạt động của bộ thu nhận - để xác định là có tín hiệu hay chỉ là do nhiễu RWR Random Walk with Restart Thuật toán bước ngẫu nhiên có quay lui RWRH Random Walk with Restart on Heterogeneous network Thuật toán bước ngẫu nhiên có quay lui trên mạng không đồng nhất STRING Search Tool for the Retrieval of Interacting Genes/Proteins Công cụ tìm kiếm các tương tác gen/protein TN True Negative Âm tính thật (mẫu mang nhãn âm được phân lớp đúng vào lớp âm) TP True Positive Dương tính thật (mẫu mang nhãn dương được phân lớp đúng vào lớp dương) UMLS Unified Medical Language System Hệ thống ngôn ngữ y học thống nhất Y2H Yeast Two-Hybrid System Hệ thống lai kép nấm men (một phương pháp được sử dụng để xác định các tương tác protein) ix DANH MỤC CÁC HÌNH Hình 1. 1. Cấu trúc DNA .................................................................................................... 8 Hình 1. 2. Sơ đồ tổng hợp protein từ gen ....................................................................... 10 Hình 1. 3. Thay thế các exon trong các sơ đồ kết nối cho phép tế bào tạo ra các protein khác nhau từ một gen đơn lẻ. .............................................................................. 11 Hình 1. 4. Sơ đồ tổng quan về phân hạng gen ............................................................... 12 Hình 1. 5. Sơ đồ dự đoán gen liên quan đến bệnh dựa trên mô hình học máy [59] .. 14 Hình 1. 6. Sơ đồ phương pháp phân hạng gen dựa trên mạng ..................................... 15 Hình 1. 7. Mô phỏng sự rối loạn trong các mạng sinh học là nguyên nhân gây ra các căn bệnh của con người. ................................................................................................... 21 Hình 1. 8. Phương pháp đánh giá các thuật toán phân hạng gen ................................. 34 Hình 1. 9. Phương pháp vẽ đường cong ROC ............................................................... 36 Hình 2. 1. Thuật toán RL_Rank with priors .................................................................. 50 Hình 2. 2. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 0.8 và γ tăng từ 0.1 đến 0.9 ........................................................................................... 53 Hình 2. 3. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 0.7 và γ tăng từ 0.1 đến 0.9 ........................................................................................... 54 Hình 2. 4. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số γ = 0.5 và β tăng từ 0.1 đến 0.9 ........................................................................................... 55 Hình 2. 5. Đường cong ROC biểu diễn kết quả RL_Rank with priors với các tham số γ = 0.5, β = 0.7 và PageRank with priors với tham số β = 0.7 ................................ 56 Hình 2. 6. Ví dụ về tính toán xác suất đường đi trên đồ thị ......................................... 64 Hình 2. 7. Thủ tục SigPathSum tính toán độ liên quan mỗi nút với một nút truy vấn ............................................................................................................................................. 65 x Hình 2. 8. Thuật toán phân hạng gen dựa trên xác suất liên kết .................................. 66 Hình 2. 9. Đường biểu diễn các giá trị AUC trung bình khi thay đổi giá trị f ........... 67 Hình 2. 10. Biểu diễn đường cong ROC của SigPathSum và RWR ........................... 69 Hình 2. 11. Biểu diễn đường cong ROC của RL_Rank with Priors, SigPathSum và RWR ... s., vol. 16, pp. 345-351. [50] Kelso J., Visagie J., Theiler G., Christoffels A., Bardien S., Smedley D., et al., (2003), eVOC: a controlled vocabulary for unifying gene expression data, Genome Res, vol. 13, pp. 1222-1230. [51] Kerrien S., Alam-Faruque Y., and Aranda B., (2007), IntAct–open source resource for molecular interaction data, Nucleic Acids Res, vol. 35, pp. D561-D566. [52] Khodadadian E., Ghasemzadeh M., Derhami V., and Mirsoleimani S. A., (2012), A Novel Ranking Algorithm Based on Reinforcement Learning, Artificial Intelligence and Signal Processing (AISP), 2012 16th CSI International Symposium on, pp. 546-551. [53] Kohler S., Bauer S., Horn D., and Robinson P. N., (2008), Walking the Interactome for Prioritization of Candidate Disease Genes, The American Journal of Human Genetics, vol. 82, pp. 949-958. [54] Kohler S., Doelken S. C., Mungall C. J., Bauer S., Firth H. V., Forestier I. B., et al., (2014), The Human Phenotype Ontology project: linking molecular biology and disease through phenotype data, Nucleic Acids Research, vol. 42, pp. D966–D974. [55] Krauthammer M., Kaufmann C., and Gilliam T., (2004), Molecular triangulation: bridging linkage and molecular network information for identifying candidate genes in Alzheimer’s disease, Proc Natl Acad Sci USA, vol. 101, pp. 15148-15153. [56] Lage K., Karlberg E. O., Storling Z. M., Olason P. I., Pedersen A. G., Rigina O., et al., (2007), A human phenome-interactome network of protein 107 complexes implicated in genetic disorders, Nat Biotechnology, vol. 25, pp. 309-316. [57] Le D.-H., (2015), Network-based ranking methods for prediction of novel disease associated microRNAs, Computational Biology and Chemistry, vol. 58, pp. 139-148. [58] Le D.-H., (2015), A novel method for identifying disease associated protein complexes based on functional similarity protein complex networks, Algorithms for Molecular Biology, vol. 10. [59] Le D.-H., Hoai N. X., and Kwon Y.-K., (2015), A Comparative study of classification-based machine learning methods for novel disease gene prediction, Knowledge and Systems Engineering, vol. 326, pp. 577-588. [60] Le D.-H. and Kwon Y.-K., (2012), GPEC: A Cytoscape plug-in for random walk-based gene prioritization and biomedical evidence collection, Computational Biology and Chemistry, vol. 37, pp. 17-23. [61] Le D.-H. and Kwon Y.-K., (2013), Neighbor-favoring weight reinforcement to improve random walk-based disease gene prioritization, Computational Biology and Chemistry, vol. 44, pp. 1-8. [62] Le D.-H. and Nguyen M.-H., (2015), Towards more realistic machine learning techniques for prediction of disease-associated genes, In: Proceedings of the sixth international symposium on information and communication technology, Hue City, 2833269, ACM, pp. 116-120. [63] Le D. H., (2015), Disease phenotype similarity improves the prediction of novel disease-associated microRNAs, In: 2015 2nd National Foundation for Science and Technology Development conference on information and computer science (NICS), pp. 76-81. [64] Lee D., Park J., Kay K., Christakis N., Oltvai Z., and Barabasi A., (2008), The implications of human metabolic network topology for disease comorbidity, Proc Natl Acad Sci, vol. 105, pp. 9880-9885. 108 [65] Li J., Gong B., Chen X., Liu T., Wu C., Zhang F., et al., (2011), DOSim: an R package for similarity between diseases based on disease ontology, BMC Bioinformatics, vol. 12. [66] Li Y. and Patra J., (2010), Genome-wide inferring gene-phenotype relationship by walking on the heterogeneous network, Bioinformatics, vol. 26, pp. 1219-1224. [67] Linghu B., Snitkin E. S., Hu Z., Xia Y., and DeLisi C., (2009), Genome-wide prioritization of disease genes and identification of disease-disease associations from an integrated human functional linkage network, Genome Biology, vol. 10. [68] Liu M., Liberzon A., and Kong S., (2007), Network-based analysis of affected biological processes in type 2 diabetes models, PLoS Genet; 3:e96. [69] López-Bigas N. and Ouzounis C., (2004), Genome-wide identification of genes likely to be involved in human genetic disease, Nucleic acids research, vol. 32, pp. 3108-3114. [70] Lovász L., (1996), Random walks on graphs: A survey, Combinatorics, Paul Erdos is Eighty, vol. 2, pp. 353-398. [71] Lu M., Zhang Q., Deng M., Miao J., Guo Y., Gao W., et al., (2008), An analysis of human microRNA and disease associations, PLoS ONE, vol. 3. [72] Lubovac Z., Gamalielsson J., and Olsson B., (2006), Combining functional and topological properties to identify core modules in protein interaction networks, Proteins, vol. 64, pp. 948-959. [73] Maglott D., Ostell J., Pruitt K. D., and Tatusova T., (2011), Entrez gene: genecentered information at NCBI, Nucleic Acids Res, vol. 39(suppl 1), pp. D52–D57. [74] Markou M. and Singh S., (2003), Novelty detection: a review—part 2: neural network based approaches, Signal Process, vol. 8, pp. 2499-2521. 109 [75] Masoudi-Nejad A. and Meshkin A., "RETRACTED CHAPTER 2 Gene Prioritization Resources and the Evaluation Method," in Gene Prioritization: Rationale, Methodologies and Algorithms, ed Cham: Springer International Publishing, 2014, pp. 9-23. [76] Myers S. A., Nield A., and Myers M., (2012), Zinc Transporters, Mechanisms of Action and Therapeutic Utility: Implications for Type 2 Diabetes Mellitus, Journal of Nutrition and Metabolism, vol. 2012, p. 13. [77] Nabieva E., Jim K., Agarwal A., B B. C., and Singh M., (2005), Whole- proteome prediction of protein function via graph-theoretic analysis of interaction maps, Bioinformatics, vol. 21, pp. 302-310. [78] Navlakha S. and Kingsford C., (2010), The power of protein interaction networks for associating genes with diseases, Bioinformatics vol. 26, pp. 1057-1063. [79] Neduva V., Linding R., Su-Angrand I., Stark A., Masi F. d., Gibson T., et al., (2005), Systematic discovery of new recognition peptides mediating protein interaction network, PLoS Biol, vol. 3, p. e405. [80] Obayashi T. and Kinoshita K., (2011), COXPRESdb: a database to compare gene coexpression in seven model animals, Nucleic Acids Res, vol. 39, pp. D1016–D1022. [81] Obayashi T., Kinoshita K., Nakai K., Shibaoka M., Hayashi S., Saeki M., et al., (2006), ATTED-II: a database of co-expressed genes and cis elements for identifying co-regulated gene groups in Arabidopsis, Nucleic Acids Res, vol. 35, pp. D863-D869 [82] Osborne J. D., Flatow J., Holko M., Lin S. M., Kibbe W. A., Zhu L. J., et al., (2009), Annotating the human genome with Disease Ontology, BMC Genomics, vol. 10: S6. [83] Oti M. and Brunner H., (2007), The modular nature of genetic diseases, Clin Genet vol. 71, pp. 1-11. 110 [84] Oti M., Snel B., Huynen M. A., and Brunner H. G., (2006), Predicting disease genes using protein-protein interactions, J Med Genet, vol. 43, pp. 691-699. [85] Perez-Iratxeta C., Bork P., and Andrade M. A., (2002), Association of genes to genetically inherited diseases using data mining, Nature Genetics, vol. 31, pp. 316 - 319. [86] Peri S., Navarro J., Amanchy R., and Kristiansen T., (2003), Development of human protein reference database as an initial platform for approaching systems biology in humans, Genome Res, vol. 13, pp. 2363-2371. [87] Pers T., Hansen N., Lage K., Koefoed P., Dworzynski P., Miller M., et al., (2011), Meta-analysis of heterogeneous data sources for genome-scale identification of risk genes in complex phenotypes, Genetic Epidemiology, vol. 35, pp. 318-332. [88] Pesquita C., Faria D., Falcão A. O., Lord P., and Couto F. M., (2009), Semantic Similarity in Biomedical Ontologies, PLoS Comput Biol 5(7): e1000443. [89] Piro R., Molineris I., Ala U., P P. P., and Cunto F. D., (2010), Candidate gene prioritization based on spatially mapped gene expression: an application to XLMR, Bioinformatics, vol. 26, pp. 618-624. [90] Piro R. M. and Cunto F. D., (2012), Computational approaches to disease- gene prediction: rationale, classification and successes, FEBS, vol. 279, pp. 678-696. [91] Poretsky L., 2010, Principles of Diabetes Mellitus, 2 ed.: Springer New York Dordrecht Heidelberg London. [92] Prasad T. K., Goel R., Kandasamy K., Keerthikumar S., Kumar S., Mathivanan S., et al., (2009), Human Protein Reference Database – 2009 update, Nucleic Acids Res, vol. 37, pp. D767-D772. 111 [93] Quackenbush J., (2001), Computational analysis of microarray data, Nat Rev Genet, vol. 2, pp. 418–427. [94] Radivojac P., Peng K., Clark W. T., Peters B. J., Mohan A., Boyle S. M., et al., (2008), An integrated approach to inferring gene-disease associations in humans, Proteins Struct. Funct. Bioinform., vol. 72, pp. 1039-1037. [95] Rende D., Baysal N., and Kirdar B., (2013), Complex Disease Interventions from a Network Model for Type 2 Diabetes, PLoS One, vol. 8. [96] Resnik P., (1995), Using information content to evaluate semantic similarity in a taxonomy, Paper presented at the 14th international joint conference on artificial intelligence, vol. 1, Montreal. [97] Richard I. H., Cockram C. S., Flyvbjerg A., and Goldstein B. J., 2010, Textbook of Diabetes, 4 ed.: Wiley-Blackwell. [98] Rual J., Venkatesan K., and Hao T., (2005), Towards a proteomescale map of the human protein-protein interaction network, Nature Genetics, vol. 437, pp. 1173-1178. [99] Ruffner H., Bauer A., and Bouwmeester T., (2007), Human protein-protein interaction networks and the value for drug discovery, Drug Discov Today, vol. 12, pp. 709-716. [100] Rzhetsky A. and Gomez S., (2011), Birth of scale-free molecular networks and the number of distinct DNA and protein domains per genome, Bioinformatics, vol. 17, pp. 988-996. [101] Rzhetsky A., Wajngurt D., Park N., and Zheng T., (2007), Probing genetic overlap among complex human phenotypes, Proc Natl Acad Sci USA, vol. 104, pp. 11694-11699. [102] Sam L., Liu Y., Li J., Friedman C., and Lussier Y., (2007), Discovery of protein interaction networks shared by diseases, Pac Symp Biocomput, pp. 76-87. 112 [103] Schlicker A., (2010), Ontology-based Similarity Measures and their Application in Bioinformatics, Universität des Saarlandes, p. 166. [104] Seebacher J. and Gavin A., (2011), SnapShot: Protein-protein interaction networks, Cell 2011, vol. 144:1000. [105] Seelow D., Schwarz J., and Schuelke M., (2008), Genedistiller - distilling candidate genes from linkage intervals, PLoS ONE, vol. 3:e:3874. [106] Sharan R. and Ideke T., (2006), Modeling cellular machinery through biological network comparison, Nat Biotechnol, vol. 24, pp. 427-433. [107] Smalter A., Lei S. F., and Chen X.-w., (2007), Human Disease-Gene Classification with Integrative Sequence-Based and Topological Features of Protein-Protein Interaction Networks, In: IEEE International Conference on Bioinformatics and Biomedicine (BIBM), pp. 209-216. [108] Smith C. L., Goldsmith C.-A. W., and Eppig J. T., (2004), The Mammalian Phenotype Ontology as a tool for annotating, analyzing and comparing phenotypic information, Genome Biol, vol. 6: R7. [109] Stark C., Breitkreutz B., Reguly T., Boucher L., Breitkreutz A., and Tyers M., (2006), BioGRID: a general repository for interaction datasets, Nucleic Acids Res, vol. 34, pp. 535-539. [110] Stelzl U., Worm U., Lalowski M., Haenig C., Brembeck F., Goehler H., et al., (2005), A human proteinprotein interaction network: a resource for annotating the proteome, Cell, vol. 122, pp. 957-968. [111] Sun J., Patra J. C., and Li Y., (2009), Functional link artificial neural network-based disease gene prediction, In: International joint conference on neural networks (IJCNN), 14–19 June 2009. [112] Taylor I., Linding R., and Warde-Farley D., (2009), Dynamic modularity in protein interaction networks predicts breast cancer outcome, Nat Biotechnol, vol. 27, pp. 199-204. 113 [113] Taylor R., (2012), Insulin Resistance and Type 2 Diabetes, Diabetes, vol. 61, pp. 778-779. [114] Tiffin, N., Kelso, F. J., Powell, R. A., et al., (2005), Integration of text- and data-mining using ontologies successfully selects disease gene candidates, Nucleic acids research, vol. 33, pp. 1544-1552. [115] Tranchevent L. C., Barriot R., Yu S., Vooren S. V., Loo P. V., Coessens B., et al., (2008), Endeavour update: a web resource for gene prioritization in multiple species, Nucleic acids research, vol. 36, pp. W377-W384. [116] Vanunu O., Magger O., Ruppin E., Shlomi T., and Sharan R., (2010), Associating genes and protein complexes with disease via network propagation, PLoS Comput Biol, vol. 6(1):e1000641. [117] Vidal M., (2009), A unifying view of 21st century systems biology, FEBS Lett vol. 538, pp. 3891-3894. [118] Vidal M., Cusick M., and Barabasi A., (2011), Interactome networks and human disease, Cell 2011, vol. 144, pp. 986-998. [119] Wagner A. and Fell D., (2001), The small world inside large metabolic networks, Proc Biol Sci, vol. 268, pp. 1803-1810. [120] Wang H., Chang C. K., Yang H.-I., and Chen Y., (2013), Estimating the Relative Importance of Nodes in Social Networks, Journal of Information Processing Society of Japan, vol. 21(3), pp. 414-422. [121] Wang X., Gulbahce N., and HaiyuanYu, (2011), Network-based methods for human disease gene prediction, Briefings in Functional Genomics, vol. 10, pp. 280-293. [122] Watts D. J. and Strogatz S. H., (1998), Collective dynamics of small-world networks, Nature vol. 393(1), pp. 440-442. 114 [123] Wong S., Zhang L., Tong A., Li Z., Goldberg D., King O., et al., (2004), Combining biological networks to predict genetic interactions, Proc Natl Acad Sci USA, vol. 101, pp. 15682-15687. [124] Wu X., Jiang R., Zhang M. Q., and Li S., (2008), Network-based global inference of human disease genes, Mol Syst Biol, vol. 4. [125] Wu X., Liu Q., and Jiang R., (2009), Align human interactome with phenome to identify causative genes and networks underlying disease families, Bioinformatics, vol. 25, pp. 98-104. [126] Yu H., Tardivo L., and Tam S., (2011), Next-generation sequencing to generate interactome datasets, Nat Methods, vol. 8, pp. 478-480. [127] Zhang W., Sun F., and Jiang R., (2011), Integrating multiple protein-protein interaction networks to prioritize disease genes: a Bayesian regression approach, The Ninth Asia Pacific Bioinformatics Conference. [128] Zhou M., Wang X., Li J., Hao D., Wang Z., Shi H., et al., (2015), Prioritizing candidate disease-related long non-coding RNAs by walking on the heterogeneous lncRNA and disease network, Mol Biosyst vol. 11, pp. 760-769 [129] Zhu M. and Zhao S., (2007), Candidate gene identification approach: progress and challenges, IntJ Biol Sci, vol. 3, pp. 420-427.
File đính kèm:
- luan_an_phan_hang_va_du_doan_gen_lien_quan_den_benh_bang_cac.pdf
- Tom tat LA NCS TungDV.pdf
- Trang Thong tin LA (TA) NCS TungDV.pdf
- Trang Thong tin LA (TV) NCS TungDV.pdf