Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học

Trong những năm gần đây, nhiều phát hiện mang tính đột phá về mối liên

quan giữa bộ gen của con người với các căn bệnh và cơ sở phân tử của chúng đã

góp phần làm sáng tỏ nguyên nhân phát sinh của các căn bệnh. Việc khám phá cơ

sở phân tử cơ bản của các căn bệnh rất có giá trị trong vấn đề phòng ngừa, chẩn

đoán và điều trị bệnh.

Xác định các gen có liên quan đến bệnh là bài toán quan trọng trong lĩnh vực

y sinh học và sinh học phân tử. Trước đây, việc xác định các gen liên quan đến bệnh

được thực hiện chủ yếu bằng các thực nghiệm sinh học, phương pháp này cho kết

quả tin cậy nhưng đòi hỏi nhiều thời gian và chi phí cao.

Trong lĩnh vực tin sinh học những năm gần đây, các dữ liệu sinh học ngày

càng phong phú, được công bố rộng rãi và phần lớn là miễn phí. Với các dữ liệu đó,

các hệ thống thông tin dựa trên phương pháp tính toán và xử lý dữ liệu sinh học đã

được phát triển, cho phép tiết kiệm thời gian, chi phí và giúp các nhà nghiên cứu y

sinh học tìm ra các gen mới liên quan đến bệnh cho một số căn bệnh cụ thể.

Mặc dù đạt được nhiều thành tựu đáng kể trong lĩnh vực phát hiện gen liên

quan đến bệnh, tuy nhiên vẫn còn một số lượng lớn các bệnh chưa biết cơ sở phân

tử (khoảng hơn 1700 được liệt kê trong cơ sở dữ liệu OMIM - Online Mendelian

Inheritance in Man) [5]. Thậm chí, ngay cả với những bệnh đã biết được một phần

thông tin về cơ sở phân tử nhưng một tỷ lệ lớn các gen có liên quan tới bệnh vẫn

chưa được phát hiện

pdf 126 trang dienloan 4740
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học
i 
LỜI CAM ĐOAN 
 Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết 
quả nghiên cứu được viết chung với các tác giả khác đều được sự đồng ý của 
họ trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và 
chưa từng được công bố trong các công trình nào khác. 
Tác giả 
Đặng Vũ Tùng 
ii 
LỜI CẢM ƠN 
 Luận án tiến sỹ này là kết quả của quá trình nghiên cứu lý thuyết và 
tiến hành các thực nghiệm đầy thách thức và khó khăn; đòi hỏi sự kiên trì và 
tập trung cao độ. Tôi thực sự hạnh phúc với kết quả đạt được trong đề tài 
nghiên cứu của mình. 
Kết quả đạt được không chỉ là những nỗ lực cá nhân, mà còn có sự hỗ 
trợ và giúp đỡ của tập thể người hướng dẫn, cơ sở đào tạo, cơ quan chủ quản, 
đồng nghiệp và gia đình. Tôi xin bày tỏ tình cảm của mình đến với họ. 
Trước tiên, tôi xin bày tỏ sự biết ơn sâu sắc đến PGS.TS. Từ Minh 
Phương và PGS.TS Lê Đức Hậu. Được làm việc với hai thầy là một cơ hội 
lớn cho tôi học hỏi phương pháp nghiên cứu, tính kiên trì và phương pháp làm 
việc nghiêm túc, khoa học. 
Tôi xin trân trọng cảm ơn Khoa Quốc tế và sau đại học, Khoa Công 
nghệ thông tin, Ban Giám đốc Học viện Công nghệ Bưu chính Viễn thông đã 
tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án. 
Tôi xin cảm ơn Ban Giám đốc Học viện Thanh thiếu niên Việt Nam và 
các bạn bè, đồng nghiệp đã cổ vũ, động viên và tạo các điều kiện thuận lợi 
nhất cho tôi trong quá trình học tập, nghiên cứu. 
Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình tôi, nơi khơi dậy 
truyền thống và luôn bên cạnh ủng hộ, giúp đỡ, chia sẻ với tôi những lúc khó 
khăn. 
Xin chân thành cảm ơn! 
iii 
MỤC LỤC 
LỜI CAM ĐOAN ....................................................................................................... i 
LỜI CẢM ƠN ............................................................................................................ ii 
MỤC LỤC ................................................................................................................. iii 
DANH MỤC CÁC CHỮ VIẾT TẮT ...................................................................... vii 
DANH MỤC CÁC HÌNH ......................................................................................... ix 
DANH MỤC CÁC BẢNG ........................................................................................ xi 
PHẦN MỞ ĐẦU ......................................................................................................... 1 
1. Tính cấp thiết của luận án .................................................................................... 1 
2. Mục tiêu của luận án ............................................................................................ 3 
3. Các đóng góp của luận án .................................................................................... 3 
4. Bố cục của luận án ............................................................................................... 5 
Chương 1 - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN 
ĐẾN BỆNH ................................................................................................................. 7 
1.1. CƠ SỞ VỀ SINH HỌC PHÂN TỬ .................................................................. 7 
1.1.1. Tế bào ......................................................................................................... 7 
1.1.2. DNA ........................................................................................................... 7 
1.1.3. Gen ............................................................................................................. 8 
1.1.4. Quá trình điều khiển tổng hợp protein từ gen ............................................ 9 
1.2. PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT ............. 11 
1.2.1. Bài toán phân hạng gen ............................................................................ 11 
1.2.2. Các hướng tiếp cận giải quyết bài toán phân hạng gen ............................ 12 
iv 
1.3. CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC .......................................... 16 
1.3.1. Các cơ sở dữ liệu sinh học........................................................................ 16 
1.3.2. Các mạng sinh học ................................................................................... 20 
1.3.3. Mạng tương tác gen/protein ..................................................................... 22 
1.4. CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN 
ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC ..................................................... 23 
1.4.1. Phương pháp dựa trên mức độ gần nhau của các gen/protein .................. 23 
1.4.2. Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn ................ 25 
1.4.3. Phương pháp dựa trên tích hợp thông tin kiểu hình ................................. 27 
1.4.4. Phương pháp xây dựng các mô đun bệnh ................................................ 28 
1.5. PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG ........... 33 
1.5.1. Phương pháp kiểm tra chéo ...................................................................... 33 
1.5.2. Xác định hiệu quả của các phương pháp phân hạng ................................ 35 
1.6. KẾT LUẬN CHƯƠNG 1 ............................................................................... 38 
Chương 2 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA 
TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN ........................................................ 41 
2.1. ĐẶT VẤN ĐỀ ................................................................................................ 41 
2.1.1. Bài toán phân hạng nút trên đồ thị ........................................................... 43 
2.1.2. Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm................. 43 
2.1.3. Thuật toán phân hạng bằng học tăng cường ............................................. 45 
2.1.4. Thuật toán bước ngẫu nhiên có quay lui .................................................. 46 
2.2. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT 
HỢP VỚI XÁC SUẤT TIÊN NGHIỆM ............................................................... 48 
2.2.1. Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm 48 
v 
2.2.2. Dữ liệu thực nghiệm ................................................................................. 51 
2.2.3. Thực nghiệm và kết quả ........................................................................... 53 
2.3. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT 
LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN .............................. 61 
2.3.1. Thuật toán dựa trên xác suất liên kết ........................................................ 61 
2.3.2. Dữ liệu thực nghiệm ................................................................................. 67 
2.3.3. Thực nghiệm và kết quả ........................................................................... 67 
2.4. SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT ............. 74 
2.4.1. Về nguyên tắc thực hiện, ưu nhược điểm và phạm vi áp dụng ................ 74 
2.4.2. Về thực nghiệm ........................................................................................ 75 
2.5. KẾT LUẬN CHƯƠNG 2 ............................................................................... 76 
Chương 3 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN GÂY BỆNH DỰA TRÊN MẠNG 
KHÔNG ĐỒNG NHẤT ............................................................................................ 78 
3.1. ĐẶT VẤN ĐỀ ................................................................................................ 78 
3.2. MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN ............................................ 82 
3.2.1. Tổng quan về phương pháp xây dựng mạng không đồng nhất ................ 82 
3.2.2. Các mạng gen/protein ............................................................................... 82 
3.2.3. Các mạng bệnh tương đồng ...................................................................... 86 
3.2.4. Mạng lưỡng phân ..................................................................................... 87 
3.3. THUẬT TOÁN BƯỚC NGẪU NHIÊN CÓ QUAY LUI TRÊN MẠNG 
KHÔNG ĐỒNG NHẤT ........................................................................................ 87 
3.4. CÁC THỰC NGHIỆM VÀ KẾT QUẢ .......................................................... 92 
3.4.1. So sánh hiệu quả với các phương pháp cùng lớp ..................................... 92 
3.4.2. Dự đoán các gen liên quan đến bệnh Alzheimer ...................................... 94 
vi 
3.5. KẾT LUẬN CHƯƠNG 3 ............................................................................... 95 
KẾT LUẬN ............................................................................................................... 97 
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ............................................... 100 
TÀI LIỆU THAM KHẢO ....................................................................................... 101 
vii 
DANH MỤC CÁC CHỮ VIẾT TẮT 
KÝ HIỆU 
DIỄN GIẢI 
TIẾNG ANH TIẾNG VIỆT 
AUC Area Under ROC Curve 
Diện tích phía dưới đường cong 
ROC 
BIND 
Biomolecular Interaction Network 
Database 
Cơ sở dữ liệu mạng tương tác sinh 
học phân tử 
BioGRID 
Biological General Repository for 
Interaction data sets 
Cơ sở dữ liệu sinh học công khai 
bao gồm nhiều bộ dữ liệu tương tác 
CANDID 
A flexible method for prioritizing 
candidate genes for complex human 
traits 
Một phương pháp phân hạng gen 
được giới thiệu bởi Hutz và cộng sự 
CIPHER 
Correlating protein Interaction 
network and PHEnotype network to 
pRedict disease genes 
Một phương pháp phân hạng gen 
được giới thiệu bởi Wu và cộng sự 
DNA DeoxyriboNucleic Acid A-xít deoxyribonucleic 
DO Disease Ontology Bản thể bệnh 
EST Expressed Sequence Tag Thẻ biểu diễn trình tự 
eVOC 
A controlled vocabulary for unifying 
gene expression data 
Một từ vựng được kiểm soát để hợp 
nhất dữ liệu biểu hiện gen 
FN False Negative 
Âm tính giả (mẫu mang nhãn 
dương bị phân lớp sai vào lớp âm) 
FP False Positive 
Dương tính giả (mẫu mang nhãn âm 
bị phân lớp sai vào lớp dương) 
GO Gene Ontology Bản thể gen 
GWAS Genome - Wide Association Studies 
Nghiên cứu các liên kết bộ gen mở 
rộng (nghiên cứu tương quan toàn 
bộ nhiễm sắc thể) 
HITS Hypertext Induced Topic Search Thuật toán tìm kiếm trên Web 
HPO Human Phenotype Ontology Bản thể kiểu hình của con người 
HPRD Human Protein Reference Database 
Cơ sở dữ liệu tương tác protein của 
con người 
KEGG Kyoto Encyclopedia of Genes and Bách khoa toàn thư Kyoto về gen 
viii 
Genomes và bộ gen 
LOOCV Leave one out cross validation Kiểm tra chéo bỏ ra một 
MeSH Medical Subject Heading Cơ sở dữ liệu các chủ đề về y học 
MINT Molecular Interaction Database Cơ sở dữ liệu về tương tác phân tử 
MPO Mammalian Phenotype Ontology Bản thể kiểu hình động vật có vú. 
NCBI 
National Center for Biotechnology 
Information 
Trung tâm Thông tin Công nghệ 
Sinh học Quốc gia 
OMIM 
Online Mendelian Inheritance in 
Man 
Cơ sở dữ liệu trực tuyến di 
truyền Mendel ở người 
PRINCE 
PRIoritizatioN and Complex 
Elucidation 
Một phương pháp phân hạng gen 
được giới thiệu bởi Vanunu và cộng 
sự 
ROC 
Receiver Operating Characteristic/ 
Receiver Operating Curve 
Đường cong đặc trưng hoạt động 
của bộ thu nhận - để xác định là có 
tín hiệu hay chỉ là do nhiễu 
RWR Random Walk with Restart 
Thuật toán bước ngẫu nhiên có 
quay lui 
RWRH 
Random Walk with Restart on 
Heterogeneous network 
Thuật toán bước ngẫu nhiên có 
quay lui trên mạng không đồng nhất 
STRING 
Search Tool for the Retrieval of 
Interacting Genes/Proteins 
Công cụ tìm kiếm các tương tác 
gen/protein 
TN True Negative 
Âm tính thật (mẫu mang nhãn âm 
được phân lớp đúng vào lớp âm) 
TP True Positive 
Dương tính thật (mẫu mang nhãn 
dương được phân lớp đúng vào lớp 
dương) 
UMLS Unified Medical Language System 
Hệ thống ngôn ngữ y học thống 
nhất 
Y2H Yeast Two-Hybrid System 
Hệ thống lai kép nấm men (một 
phương pháp được sử dụng để xác 
định các tương tác protein) 
ix 
DANH MỤC CÁC HÌNH 
Hình 1. 1. Cấu trúc DNA .................................................................................................... 8 
Hình 1. 2. Sơ đồ tổng hợp protein từ gen ....................................................................... 10 
Hình 1. 3. Thay thế các exon trong các sơ đồ kết nối cho phép tế bào tạo ra các 
protein khác nhau từ một gen đơn lẻ. .............................................................................. 11 
Hình 1. 4. Sơ đồ tổng quan về phân hạng gen ............................................................... 12 
Hình 1. 5. Sơ đồ dự đoán gen liên quan đến bệnh dựa trên mô hình học máy [59] .. 14 
Hình 1. 6. Sơ đồ phương pháp phân hạng gen dựa trên mạng ..................................... 15 
Hình 1. 7. Mô phỏng sự rối loạn trong các mạng sinh học là nguyên nhân gây ra các 
căn bệnh của con người. ................................................................................................... 21 
Hình 1. 8. Phương pháp đánh giá các thuật toán phân hạng gen ................................. 34 
Hình 1. 9. Phương pháp vẽ đường cong ROC ............................................................... 36 
Hình 2. 1. Thuật toán RL_Rank with priors .................................................................. 50 
Hình 2. 2. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β 
= 0.8 và γ tăng từ 0.1 đến 0.9 ........................................................................................... 53 
Hình 2. 3. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β 
= 0.7 và γ tăng từ 0.1 đến 0.9 ........................................................................................... 54 
Hình 2. 4. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số γ 
= 0.5 và β tăng từ 0.1 đến 0.9 ........................................................................................... 55 
Hình 2. 5. Đường cong ROC biểu diễn kết quả RL_Rank with priors với các tham 
số γ = 0.5, β = 0.7 và PageRank with priors với tham số β = 0.7 ................................ 56 
Hình 2. 6. Ví dụ về tính toán xác suất đường đi trên đồ thị ......................................... 64 
Hình 2. 7. Thủ tục SigPathSum tính toán độ liên quan mỗi nút với một nút truy vấn
 ............................................................................................................................................. 65 
x 
Hình 2. 8. Thuật toán phân hạng gen dựa trên xác suất liên kết .................................. 66 
Hình 2. 9. Đường biểu diễn các giá trị AUC trung bình khi thay đổi giá trị f ........... 67 
Hình 2. 10. Biểu diễn đường cong ROC của SigPathSum và RWR ........................... 69 
Hình 2. 11. Biểu diễn đường cong ROC của RL_Rank with Priors, SigPathSum và 
RWR  ... s., vol. 16, pp. 345-351. 
[50] Kelso J., Visagie J., Theiler G., Christoffels A., Bardien S., Smedley D., et 
al., (2003), eVOC: a controlled vocabulary for unifying gene expression 
data, Genome Res, vol. 13, pp. 1222-1230. 
[51] Kerrien S., Alam-Faruque Y., and Aranda B., (2007), IntAct–open source 
resource for molecular interaction data, Nucleic Acids Res, vol. 35, pp. 
D561-D566. 
[52] Khodadadian E., Ghasemzadeh M., Derhami V., and Mirsoleimani S. A., 
(2012), A Novel Ranking Algorithm Based on Reinforcement Learning, 
Artificial Intelligence and Signal Processing (AISP), 2012 16th CSI 
International Symposium on, pp. 546-551. 
[53] Kohler S., Bauer S., Horn D., and Robinson P. N., (2008), Walking the 
Interactome for Prioritization of Candidate Disease Genes, The American 
Journal of Human Genetics, vol. 82, pp. 949-958. 
[54] Kohler S., Doelken S. C., Mungall C. J., Bauer S., Firth H. V., Forestier I. B., 
et al., (2014), The Human Phenotype Ontology project: linking molecular 
biology and disease through phenotype data, Nucleic Acids Research, vol. 
42, pp. D966–D974. 
[55] Krauthammer M., Kaufmann C., and Gilliam T., (2004), Molecular 
triangulation: bridging linkage and molecular network information for 
identifying candidate genes in Alzheimer’s disease, Proc Natl Acad Sci USA, 
vol. 101, pp. 15148-15153. 
[56] Lage K., Karlberg E. O., Storling Z. M., Olason P. I., Pedersen A. G., Rigina 
O., et al., (2007), A human phenome-interactome network of protein 
107 
complexes implicated in genetic disorders, Nat Biotechnology, vol. 25, pp. 
309-316. 
[57] Le D.-H., (2015), Network-based ranking methods for prediction of novel 
disease associated microRNAs, Computational Biology and Chemistry, vol. 
58, pp. 139-148. 
[58] Le D.-H., (2015), A novel method for identifying disease associated protein 
complexes based on functional similarity protein complex networks, 
Algorithms for Molecular Biology, vol. 10. 
[59] Le D.-H., Hoai N. X., and Kwon Y.-K., (2015), A Comparative study of 
classification-based machine learning methods for novel disease gene 
prediction, Knowledge and Systems Engineering, vol. 326, pp. 577-588. 
[60] Le D.-H. and Kwon Y.-K., (2012), GPEC: A Cytoscape plug-in for random 
walk-based gene prioritization and biomedical evidence collection, 
Computational Biology and Chemistry, vol. 37, pp. 17-23. 
[61] Le D.-H. and Kwon Y.-K., (2013), Neighbor-favoring weight reinforcement 
to improve random walk-based disease gene prioritization, Computational 
Biology and Chemistry, vol. 44, pp. 1-8. 
[62] Le D.-H. and Nguyen M.-H., (2015), Towards more realistic machine 
learning techniques for prediction of disease-associated genes, In: 
Proceedings of the sixth international symposium on information and 
communication technology, Hue City, 2833269, ACM, pp. 116-120. 
[63] Le D. H., (2015), Disease phenotype similarity improves the prediction of 
novel disease-associated microRNAs, In: 2015 2nd National Foundation for 
Science and Technology Development conference on information and 
computer science (NICS), pp. 76-81. 
[64] Lee D., Park J., Kay K., Christakis N., Oltvai Z., and Barabasi A., (2008), 
The implications of human metabolic network topology for disease 
comorbidity, Proc Natl Acad Sci, vol. 105, pp. 9880-9885. 
108 
[65] Li J., Gong B., Chen X., Liu T., Wu C., Zhang F., et al., (2011), DOSim: an 
R package for similarity between diseases based on disease ontology, BMC 
Bioinformatics, vol. 12. 
[66] Li Y. and Patra J., (2010), Genome-wide inferring gene-phenotype 
relationship by walking on the heterogeneous network, Bioinformatics, vol. 
26, pp. 1219-1224. 
[67] Linghu B., Snitkin E. S., Hu Z., Xia Y., and DeLisi C., (2009), Genome-wide 
prioritization of disease genes and identification of disease-disease 
associations from an integrated human functional linkage network, Genome 
Biology, vol. 10. 
[68] Liu M., Liberzon A., and Kong S., (2007), Network-based analysis of 
affected biological processes in type 2 diabetes models, PLoS Genet; 3:e96. 
[69] López-Bigas N. and Ouzounis C., (2004), Genome-wide identification of 
genes likely to be involved in human genetic disease, Nucleic acids research, 
vol. 32, pp. 3108-3114. 
[70] Lovász L., (1996), Random walks on graphs: A survey, Combinatorics, Paul 
Erdos is Eighty, vol. 2, pp. 353-398. 
[71] Lu M., Zhang Q., Deng M., Miao J., Guo Y., Gao W., et al., (2008), An 
analysis of human microRNA and disease associations, PLoS ONE, vol. 3. 
[72] Lubovac Z., Gamalielsson J., and Olsson B., (2006), Combining functional 
and topological properties to identify core modules in protein interaction 
networks, Proteins, vol. 64, pp. 948-959. 
[73] Maglott D., Ostell J., Pruitt K. D., and Tatusova T., (2011), Entrez gene: 
genecentered information at NCBI, Nucleic Acids Res, vol. 39(suppl 1), pp. 
D52–D57. 
[74] Markou M. and Singh S., (2003), Novelty detection: a review—part 2: neural 
network based approaches, Signal Process, vol. 8, pp. 2499-2521. 
109 
[75] Masoudi-Nejad A. and Meshkin A., "RETRACTED CHAPTER 2 Gene 
Prioritization Resources and the Evaluation Method," in Gene Prioritization: 
Rationale, Methodologies and Algorithms, ed Cham: Springer International 
Publishing, 2014, pp. 9-23. 
[76] Myers S. A., Nield A., and Myers M., (2012), Zinc Transporters, 
Mechanisms of Action and Therapeutic Utility: Implications for Type 2 
Diabetes Mellitus, Journal of Nutrition and Metabolism, vol. 2012, p. 13. 
[77] Nabieva E., Jim K., Agarwal A., B B. C., and Singh M., (2005), Whole-
proteome prediction of protein function via graph-theoretic analysis of 
interaction maps, Bioinformatics, vol. 21, pp. 302-310. 
[78] Navlakha S. and Kingsford C., (2010), The power of protein interaction 
networks for associating genes with diseases, Bioinformatics vol. 26, pp. 
1057-1063. 
[79] Neduva V., Linding R., Su-Angrand I., Stark A., Masi F. d., Gibson T., et al., 
(2005), Systematic discovery of new recognition peptides mediating protein 
interaction network, PLoS Biol, vol. 3, p. e405. 
[80] Obayashi T. and Kinoshita K., (2011), COXPRESdb: a database to compare 
gene coexpression in seven model animals, Nucleic Acids Res, vol. 39, pp. 
D1016–D1022. 
[81] Obayashi T., Kinoshita K., Nakai K., Shibaoka M., Hayashi S., Saeki M., et 
al., (2006), ATTED-II: a database of co-expressed genes and cis elements for 
identifying co-regulated gene groups in Arabidopsis, Nucleic Acids Res, vol. 
35, pp. D863-D869 
[82] Osborne J. D., Flatow J., Holko M., Lin S. M., Kibbe W. A., Zhu L. J., et al., 
(2009), Annotating the human genome with Disease Ontology, BMC 
Genomics, vol. 10: S6. 
[83] Oti M. and Brunner H., (2007), The modular nature of genetic diseases, Clin 
Genet vol. 71, pp. 1-11. 
110 
[84] Oti M., Snel B., Huynen M. A., and Brunner H. G., (2006), Predicting 
disease genes using protein-protein interactions, J Med Genet, vol. 43, pp. 
691-699. 
[85] Perez-Iratxeta C., Bork P., and Andrade M. A., (2002), Association of genes 
to genetically inherited diseases using data mining, Nature Genetics, vol. 31, 
pp. 316 - 319. 
[86] Peri S., Navarro J., Amanchy R., and Kristiansen T., (2003), Development of 
human protein reference database as an initial platform for approaching 
systems biology in humans, Genome Res, vol. 13, pp. 2363-2371. 
[87] Pers T., Hansen N., Lage K., Koefoed P., Dworzynski P., Miller M., et al., 
(2011), Meta-analysis of heterogeneous data sources for genome-scale 
identification of risk genes in complex phenotypes, Genetic Epidemiology, 
vol. 35, pp. 318-332. 
[88] Pesquita C., Faria D., Falcão A. O., Lord P., and Couto F. M., (2009), 
Semantic Similarity in Biomedical Ontologies, PLoS Comput Biol 5(7): 
e1000443. 
[89] Piro R., Molineris I., Ala U., P P. P., and Cunto F. D., (2010), Candidate 
gene prioritization based on spatially mapped gene expression: an application 
to XLMR, Bioinformatics, vol. 26, pp. 618-624. 
[90] Piro R. M. and Cunto F. D., (2012), Computational approaches to disease-
gene prediction: rationale, classification and successes, FEBS, vol. 279, pp. 
678-696. 
[91] Poretsky L., 2010, Principles of Diabetes Mellitus, 2 ed.: Springer New York 
Dordrecht Heidelberg London. 
[92] Prasad T. K., Goel R., Kandasamy K., Keerthikumar S., Kumar S., 
Mathivanan S., et al., (2009), Human Protein Reference Database – 2009 
update, Nucleic Acids Res, vol. 37, pp. D767-D772. 
111 
[93] Quackenbush J., (2001), Computational analysis of microarray data, Nat Rev 
Genet, vol. 2, pp. 418–427. 
[94] Radivojac P., Peng K., Clark W. T., Peters B. J., Mohan A., Boyle S. M., et 
al., (2008), An integrated approach to inferring gene-disease associations in 
humans, Proteins Struct. Funct. Bioinform., vol. 72, pp. 1039-1037. 
[95] Rende D., Baysal N., and Kirdar B., (2013), Complex Disease Interventions 
from a Network Model for Type 2 Diabetes, PLoS One, vol. 8. 
[96] Resnik P., (1995), Using information content to evaluate semantic similarity 
in a taxonomy, Paper presented at the 14th international joint conference on 
artificial intelligence, vol. 1, Montreal. 
[97] Richard I. H., Cockram C. S., Flyvbjerg A., and Goldstein B. J., 2010, 
Textbook of Diabetes, 4 ed.: Wiley-Blackwell. 
[98] Rual J., Venkatesan K., and Hao T., (2005), Towards a proteomescale map 
of the human protein-protein interaction network, Nature Genetics, vol. 437, 
pp. 1173-1178. 
[99] Ruffner H., Bauer A., and Bouwmeester T., (2007), Human protein-protein 
interaction networks and the value for drug discovery, Drug Discov Today, 
vol. 12, pp. 709-716. 
[100] Rzhetsky A. and Gomez S., (2011), Birth of scale-free molecular networks 
and the number of distinct DNA and protein domains per genome, 
Bioinformatics, vol. 17, pp. 988-996. 
[101] Rzhetsky A., Wajngurt D., Park N., and Zheng T., (2007), Probing genetic 
overlap among complex human phenotypes, Proc Natl Acad Sci USA, vol. 
104, pp. 11694-11699. 
[102] Sam L., Liu Y., Li J., Friedman C., and Lussier Y., (2007), Discovery of 
protein interaction networks shared by diseases, Pac Symp Biocomput, pp. 
76-87. 
112 
[103] Schlicker A., (2010), Ontology-based Similarity Measures and their 
Application in Bioinformatics, Universität des Saarlandes, p. 166. 
[104] Seebacher J. and Gavin A., (2011), SnapShot: Protein-protein interaction 
networks, Cell 2011, vol. 144:1000. 
[105] Seelow D., Schwarz J., and Schuelke M., (2008), Genedistiller - distilling 
candidate genes from linkage intervals, PLoS ONE, vol. 3:e:3874. 
[106] Sharan R. and Ideke T., (2006), Modeling cellular machinery through 
biological network comparison, Nat Biotechnol, vol. 24, pp. 427-433. 
[107] Smalter A., Lei S. F., and Chen X.-w., (2007), Human Disease-Gene 
Classification with Integrative Sequence-Based and Topological Features of 
Protein-Protein Interaction Networks, In: IEEE International Conference on 
Bioinformatics and Biomedicine (BIBM), pp. 209-216. 
[108] Smith C. L., Goldsmith C.-A. W., and Eppig J. T., (2004), The Mammalian 
Phenotype Ontology as a tool for annotating, analyzing and comparing 
phenotypic information, Genome Biol, vol. 6: R7. 
[109] Stark C., Breitkreutz B., Reguly T., Boucher L., Breitkreutz A., and Tyers 
M., (2006), BioGRID: a general repository for interaction datasets, Nucleic 
Acids Res, vol. 34, pp. 535-539. 
[110] Stelzl U., Worm U., Lalowski M., Haenig C., Brembeck F., Goehler H., et 
al., (2005), A human proteinprotein interaction network: a resource for 
annotating the proteome, Cell, vol. 122, pp. 957-968. 
[111] Sun J., Patra J. C., and Li Y., (2009), Functional link artificial neural 
network-based disease gene prediction, In: International joint conference on 
neural networks (IJCNN), 14–19 June 2009. 
[112] Taylor I., Linding R., and Warde-Farley D., (2009), Dynamic modularity in 
protein interaction networks predicts breast cancer outcome, Nat Biotechnol, 
vol. 27, pp. 199-204. 
113 
[113] Taylor R., (2012), Insulin Resistance and Type 2 Diabetes, Diabetes, vol. 61, 
pp. 778-779. 
[114] Tiffin, N., Kelso, F. J., Powell, R. A., et al., (2005), Integration of text- and 
data-mining using ontologies successfully selects disease gene candidates, 
Nucleic acids research, vol. 33, pp. 1544-1552. 
[115] Tranchevent L. C., Barriot R., Yu S., Vooren S. V., Loo P. V., Coessens B., 
et al., (2008), Endeavour update: a web resource for gene prioritization in 
multiple species, Nucleic acids research, vol. 36, pp. W377-W384. 
[116] Vanunu O., Magger O., Ruppin E., Shlomi T., and Sharan R., (2010), 
Associating genes and protein complexes with disease via network 
propagation, PLoS Comput Biol, vol. 6(1):e1000641. 
[117] Vidal M., (2009), A unifying view of 21st century systems biology, FEBS 
Lett vol. 538, pp. 3891-3894. 
[118] Vidal M., Cusick M., and Barabasi A., (2011), Interactome networks and 
human disease, Cell 2011, vol. 144, pp. 986-998. 
[119] Wagner A. and Fell D., (2001), The small world inside large metabolic 
networks, Proc Biol Sci, vol. 268, pp. 1803-1810. 
[120] Wang H., Chang C. K., Yang H.-I., and Chen Y., (2013), Estimating the 
Relative Importance of Nodes in Social Networks, Journal of Information 
Processing Society of Japan, vol. 21(3), pp. 414-422. 
[121] Wang X., Gulbahce N., and HaiyuanYu, (2011), Network-based methods for 
human disease gene prediction, Briefings in Functional Genomics, vol. 10, 
pp. 280-293. 
[122] Watts D. J. and Strogatz S. H., (1998), Collective dynamics of small-world 
networks, Nature vol. 393(1), pp. 440-442. 
114 
[123] Wong S., Zhang L., Tong A., Li Z., Goldberg D., King O., et al., (2004), 
Combining biological networks to predict genetic interactions, Proc Natl 
Acad Sci USA, vol. 101, pp. 15682-15687. 
[124] Wu X., Jiang R., Zhang M. Q., and Li S., (2008), Network-based global 
inference of human disease genes, Mol Syst Biol, vol. 4. 
[125] Wu X., Liu Q., and Jiang R., (2009), Align human interactome with 
phenome to identify causative genes and networks underlying disease 
families, Bioinformatics, vol. 25, pp. 98-104. 
[126] Yu H., Tardivo L., and Tam S., (2011), Next-generation sequencing to 
generate interactome datasets, Nat Methods, vol. 8, pp. 478-480. 
[127] Zhang W., Sun F., and Jiang R., (2011), Integrating multiple protein-protein 
interaction networks to prioritize disease genes: a Bayesian regression 
approach, The Ninth Asia Pacific Bioinformatics Conference. 
[128] Zhou M., Wang X., Li J., Hao D., Wang Z., Shi H., et al., (2015), 
Prioritizing candidate disease-related long non-coding RNAs by walking on 
the heterogeneous lncRNA and disease network, Mol Biosyst vol. 11, pp. 
760-769 
[129] Zhu M. and Zhao S., (2007), Candidate gene identification approach: 
progress and challenges, IntJ Biol Sci, vol. 3, pp. 420-427. 

File đính kèm:

  • pdfluan_an_phan_hang_va_du_doan_gen_lien_quan_den_benh_bang_cac.pdf
  • pdfTom tat LA NCS TungDV.pdf
  • pdfTrang Thong tin LA (TA) NCS TungDV.pdf
  • pdfTrang Thong tin LA (TV) NCS TungDV.pdf