Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ
Hơn hai mươi năm qua, chúng ta chứng kiến sự phát triển và lớn mạnh vượt
bậc của Internet và World Wide Web. Đến cuối năm 2015, chỉ riêng Google đã
đánh chỉ mục được khoảng 47 tỷ trang web1. Bên cạnh kích thước khổng lồ, sự tăng
trưởng của World Wide Web còn thể hiện ở tính đa dạng của các ngôn ngữ được sử
dụng trong các trang web. Đến thời điểm này, tiếng Anh tiếp tục là ngôn ngữ phổ
biến nhất, được sử dụng tại 54% trong tổng số các website, tiếp theo là tiếng Nga và
tiếng Đức, tương ứng là 6,1% và 5,7%. Riêng tiếng Việt được sử dụng tại khoảng
0,6% tổng số các website2.
Cùng với sự đa dạng về ngôn ngữ, việc tìm kiếm thông tin không còn giới
hạn ở tiếng mẹ đẻ của người dùng mà đã được mở rộng ra các ngôn ngữ khác. Bài
toán tìm kiếm web xuyên ngữ (Cross-Language Web Search) đặt ra nhiệm vụ từ
nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (gọi là ngôn ngữ
nguồn), thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn
ngữ khác (gọi là ngôn ngữ đích). Việc giải quyết bài toán có ý nghĩa thực tế, cho
phép người sử dụng truy cập các nguồn tài nguyên thông tin ở các ngôn ngữ khác
nhau [134]
Tóm tắt nội dung tài liệu: Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Lâm Tùng Giang MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ Chuyên ngành : Khoa học máy tính Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG - 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Lâm Tùng Giang MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ Chuyên ngành : Khoa học máy tính Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS.TS. Võ Trung Hùng 2. PGS.TS. Huỳnh Công Pháp ĐÀ NẴNG - 2017 - i - LỜI CAM ĐOAN Tôi xin cam đoan: Luận án này là công trình nghiên cứu thực sự của cá nhân tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng dẫn khoa học của PGS.TS. Võ Trung Hùng và PGS.TS. Huỳnh Công Pháp. Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này là trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác. Tôi xin chịu trách nhiệm về những lời cam đoan của tôi. Tác giả, Lâm Tùng Giang - ii - MỤC LỤC MỞ ĐẦU .................................................................................................................... 1 1. ĐẶT VẤN ĐỀ ....................................................................................................... 1 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................... 5 2.1. Mục tiêu ............................................................................................................ 5 2.2. Đối tượng .......................................................................................................... 5 2.3. Phạm vi ............................................................................................................. 5 3. ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................... 6 4. BỐ CỤC CỦA LUẬN ÁN ..................................................................................... 8 CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU .................................... 9 1.1. TRUY VẤN THÔNG TIN .................................................................................. 9 1.1.1. Khái niệm ....................................................................................................... 9 1.1.2. Định nghĩa hình thức .................................................................................... 10 1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin .................................................. 10 1.1.4. Các mô hình truy vấn thông tin truyền thống ................................................ 12 1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản ..................................... 16 1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN ....................................... 19 1.2.1. Khái niệm ..................................................................................................... 19 1.2.2. Các độ đo ..................................................................................................... 20 1.2.3. Môi trường thực nghiệm ............................................................................... 22 1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ ........................................................ 24 1.3.1. Khái niệm ..................................................................................................... 24 1.3.2. Các hướng tiếp cận ....................................................................................... 24 1.3.3. Các kỹ thuật dịch tự động ............................................................................. 25 1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI ................................................................. 25 - iii - 1.4.1. Xếp hạng và xếp hạng lại ............................................................................. 25 1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn ......................................... 26 1.4.3. Học xếp hạng ............................................................................................... 28 1.4.4. Khai thác thông tin người sử dụng ................................................................ 30 1.5. XẾP HẠNG TRANG WEB .............................................................................. 31 1.5.1. Đặc thù của tìm kiếm web ............................................................................ 31 1.5.2. Các phương pháp xếp hạng trang Web ......................................................... 32 1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ ........................................... 36 1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU .............................................. 37 1.6.1. Hạn chế ........................................................................................................ 37 1.6.2. Đề xuất nghiên cứu ....................................................................................... 37 1.7. TIỂU KẾT CHƯƠNG....................................................................................... 41 CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ ................ 42 2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG......................................................... 42 2.1.1. Sử dụng máy dịch ......................................................................................... 42 2.1.2. Sử dụng kho ngữ liệu ................................................................................... 43 2.1.3. Sử dụng từ điển ............................................................................................ 44 2.1.4. Sử dụng ngôn ngữ trung gian ........................................................................ 44 2.1.5. Sử dụng không gian ngữ nghĩa ..................................................................... 45 2.1.6. Đánh giá chung ............................................................................................ 45 2.2. KHỬ NHẬP NHẰNG....................................................................................... 46 2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY ............................................................ 47 2.3.1. Xây dựng dữ liệu từ điển .............................................................................. 48 2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ ....................... 49 2.3.3. Các biến thể của công thức MI ..................................................................... 49 2.3.4. Thuật toán chọn bản dịch tốt nhất ................................................................. 51 - iv - 2.3.5. Xây dựng câu truy vấn.................................................................................. 58 2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI ............................................. 62 2.4.1. Môi trường thực nghiệm ............................................................................... 62 2.4.2. Kết quả thực nghiệm .................................................................................... 64 2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC ......... 65 2.5.1. Môi trường thực nghiệm ............................................................................... 65 2.5.2. Cấu hình thực nghiệm .................................................................................. 65 2.5.3. Kết quả thực nghiệm .................................................................................... 66 2.6. TIỂU KẾT CHƯƠNG....................................................................................... 67 CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN .................................................... 69 3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN ..................................... 69 3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn ................................................... 69 3.1.2. Mở rộng câu truy vấn ................................................................................... 70 3.1.3. Thu hẹp câu truy vấn .................................................................................... 71 3.1.4. Xử lý thuật ngữ không có trong từ điển ........................................................ 72 3.2. PHÂN ĐOẠN CÂU TRUY VẤN ..................................................................... 73 3.2.1. Sử dụng công cụ vnTagger ........................................................................... 73 3.2.2. Thuật toán WLQS ........................................................................................ 73 3.2.3. Kết hợp WLQS và công cụ vnTagger ........................................................... 75 3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH ................................. 78 3.3.1. Phản hồi ẩn ................................................................................................... 79 3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ .......................................................... 81 3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích.................................... 82 3.4. THỰC NGHIỆM .............................................................................................. 86 3.4.1. Cấu hình thực nghiệm .................................................................................. 86 3.4.2. Kết quả ......................................................................................................... 87 - v - 3.5. TIỂU KẾT CHƯƠNG....................................................................................... 89 CHƯƠNG 4: XẾP HẠNG LẠI ................................................................................. 91 4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN .............................. 91 4.1.1. Mô hình ứng dụng lập trình di truyền ........................................................... 93 4.1.2. Xây dựng công cụ và kết quả thực nghiệm ................................................... 94 4.1.3. Đánh giá ....................................................................................................... 96 4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN ............................................................ 97 4.2.1. Mô hình CL-Büttcher ................................................................................... 98 4.2.2. Mô hình xếp hạng CL-Rasolofo ................................................................... 99 4.2.3. Mô hình xếp hạng CL-HighDensity ............................................................ 100 4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ ............................ 101 4.3. HỌC XẾP HẠNG TRANG WEB ................................................................... 103 4.3.1. Các mô hình học xếp hạng .......................................................................... 103 4.3.2. Môi trường thực nghiệm ............................................................................. 106 4.3.3. Cấu hình thực nghiệm ................................................................................ 109 4.3.4. Kết quả thực nghiệm .................................................................................. 109 4.4. TIỂU KẾT CHƯƠNG..................................................................................... 110 CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH ........... 111 5.1. THIẾT KẾ HỆ THỐNG .................................................................................. 111 5.1.1. Các thành phần hệ thống & sơ đồ thuật toán ............................................... 111 5.1.2. Dữ liệu từ điển ........................................................................................... 114 5.1.3. Dữ liệu đánh chỉ mục ................................................................................. 114 5.2. PHƯƠNG PHÁP THỰC NGHIỆM ................................................................ 115 5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN ....................... 116 5.3.1. Cấu hình thực nghiệm ................................................................................ 116 5.3.2. Kết quả thực nghiệm .................................................................................. 117 - vi - 5.3.3. Đánh giá ..................................................................................................... 119 5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN ....................................... 119 5.4.1. Cấu hình thực nghiệm ................................................................................ 119 5.4.2. Kết quả thực nghiệm .................................................................................. 120 5.4.3. Đánh giá ..................................................................................................... 121 5.5. THỰC NGHIỆM XẾP HẠNG LẠI................................................................. 121 5.5.1. Cấu hình thực nghiệm ................................................................................ 122 5.5.2. Kết quả thực nghiệm .................................................................................. 123 5.5.3. Đánh giá ..................................................................................................... 125 5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT .................................. 125 5.7. TIỂU KẾT CHƯƠNG..................................................................................... 128 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................. 129 1. KẾT LUẬN ....................................................................................................... 129 1.1. Tóm tắt nội dung luận án ............................................................................... 129 1.2. Các kết quả đạt được ..................................................................................... 129 2. HƯỚNG PHÁT TRIỂN ..................................................................................... 132 TÀI LIỆU THAM KHẢO ..................................................................................... 133 - vii - DANH MỤC HÌNH VẼ Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin .......................... 11 Hình 1.2: Biểu đồ trung bình 11 điểm ......................................................... 22 Hình 1.3: Mô hình xếp hạng tìm kiếm Web đa ngữ ..................................... 38 Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn ..................................................... 39 Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn .............................. 71 Hình 3.2: Phản hồi của người dùng ............................................................. 79 Hình 3.3: Phản hồi ẩn về độ phù hợp của kết quả tìm kiếm ban đầu ............ 79 Hình 3.4: Đồ thị trung bình 11 điểm ........................................................... 88 Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh .................... ... rieval using Wikipedia". In: 9th Twente Student Conference on IT. - 141 - [111] Nguyen Dong, Overwijk Arnold, Hauff Claudia, Trieschnigg Dolf R.B., Hiemstra Djoerd, De Jong Franciska (2009), "WikiTranslate: query translation for cross-lingual information retrieval using only Wikipedia". Evaluating Systems for Multilingual and Multimodal Information Access, vol. 5706, pp. 58–65. [112] Nguyen Van Be Hai, Wilkinson Ross, Zobel Justin (1997), "Cross-language Retrieval In English and Vietnamese". AAAI Technical Report, pp. 143–145. [113] Nie Jian-Yun (2010), "Cross-Language Information Retrieval". Morgan & Claypool Publishers. [114] Nie Jian-Yun, Simard Michel, Isabelle Pierre, Durand Richard (1999), "Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the Web". Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’99, ACM Press, pp. 74–81. [115] Oard Douglas W., Wang Jianqiang (2001), "Comparing Pirkola’s Structured Queries and Balanced Translation". In: Proceedings of the 2nd NTCIR Workshop on Research in Chinese & Japanese, Text Retrieval and Text Summarization. [116] Page Lawrence, Brin Sergey, Motwani Rajeev, Winograd Terry (1998), "The PageRank Citation Ranking: Bringing Order to the Web" [Internet]. [117] Pham Dang Duc, Tran Giang Binh, Pham Son Bao (2009), "A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags difficulties and challenges segmentation :". In: The 1st International Conference on Knowledge and Systems Engineering, pp. 154–161. [118] Pirkola Ari (1998), "The effects of query structure and dictionary setups in dictionary-based cross-language information retrieval". In: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 55–63. [119] Pirkola Ari, Hedlund Turid, Keskustalo Heikki, Järvelin Kalervo (2001), "Dictionary-Based Cross-Language Information Retrieval: Problems, Methods, and Research Findings". Information Retrieval, vol. 4, no. 3, pp. 209–230. [120] Ponte Jay, Croft Bruce (1998), "A Language Modeling Approach To Information Retrieval". Proceedings of the 21st annual international ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 275–281. [121] Pretschner Alexander, Universit Technische, Gauch Susan, Hall Snow (1999), "Ontology Based Personalized Search The University of Kansas". , no. 97, pp. 391–398. [122] Qin Tao, Liu Tie-Yan, Xu Jun, Li Hang (2010), "LETOR: A benchmark collection for research on learning to rank for information retrieval". Information Retrieval, vol. 13, no. 4, pp. 346–374. [123] Qin Tao, Liu Tie Yan, Xu Jun, Li Hang (2010), "LETOR: A benchmark collection for research on learning to rank for information retrieval". Information Retrieval, vol. 13, no. 4, pp. 346–374. - 142 - [124] Rahman Shihab, Chapa Dolon, Kabir Shaily (2014), "A New Weighted Keyword Based Similarity Measure for Clustering Webpages". International Journal of Computer and Information Technology, vol. 3, no. 5, pp. 929–933. [125] Rasolofo Yves, Savoy Jacques (2003), "Term Proximity Scoring for Keyword-Based Retrieval Systems". Lecture Notes in Computer Science, Springer, pp. 207–218. [126] Renda M. Elena, Straccia Umberto (2003), "Web Metasearch: Rank vs. Score Based Rank Aggregation Methods". Proceedings of the 2003 ACM symposium on Applied computing - SAC ’03, pp. 841–846. [127] Resnik Philip, Smith Noah A. (2003), "The Web as a Parallel Corpus". Computational Linguistics, vol. 29, pp. 349–380. [128] Rieh Hae-young, Rieh Soo Young (2005), "Web searching across languages: Preference and behavior of bilingual academic users in Korea". Library & Information Science Research, vol. 27, no. 2, pp. 249–263. [129] Robertson S. (2008), "On the history of evaluation in IR". Journal of Information Science, vol. 34, no. 4, pp. 439–456. [130] Robertson Stephen E., Jones Karen Sparck (1988), "Relevance weighting of search terms". Document retrieval systems, pp. 143–160. [131] Robertson Stephen E., Walker Stephen, Hancock-Beaulieu Micheline, Gull Aarron, Lau Marianna (1994), "Okapi at TREC-3". In: Proceedings of 3rd Text REtrieval Conference, pp. 109–126. [132] Rocchio J.J. (1971), "Relevance Feedback in Information Retrieval". In: SMART Retrieval System Experimens in Automatic Document Processing, pp. 313–323. [133] Sadat Fatiha (2010), "Research on Query Disambiguation and Expansion for Cross-Language Information Retrieval". Communications of the IBIMA. [134] Salton Gerard (1970), "Automatic processing of foreign language documents". Journal of the American Society for Information Science, vol. 21, no. 3, pp. 187–194. [135] Salton Gerard, Buckley Chris (1990), "Improving retrieval performance by relevance feedback". Journal of the American Society for Information Science, vol. 41, no. 4, pp. 288–297. [136] Salton G., Wong A., Yang C.S. (1975), "A vector space model for automatic indexing". Communications of the ACM., pp. 613–620. [137] Sanderson M., Clough P. (2004), "Measuring pseudo relevance feedback & CLIR". In: 27th ACM-SIGIR, pp. 484–485. [138] Sarmah Jumi, Kumar Shikhar (2016), "Survey on Word Sense Disambiguation : An Initiative towards an Indo-Aryan Language". International Journal of Engineering and Manufacturing, vol. 3, pp. 37–52. [139] Savoy Jacques, Le Calvé Anne, Vrajitoru Dana (1997), "Report on the TREC-S Experiment: Data Fusion and Collection Fusion". In: Proceedings of the TREC’5, pp. 489–502. [140] Schenkel Ralf, Broschart Andreas, Hwang Seungwon, Theobald Martin, Weikum Gerhard (2007), "Efficient Text Proximity Search". String Processing and Information Retrieval, pp. 287–299. - 143 - [141] Shao Yingxia, Cui Bin, Chen Lei, Liu Mingming, Xie Xing (2015), "An efficient similarity search framework for SimRank over large dynamic graphs". Proceedings of the VLDB Endowment, vol. 8, no. 8, pp. 838–849. [142] Sharma Vijay Kumar, Mittal Namita (2016), "Cross Lingual Information Retrieval (CLIR): Review of Tools, Challenges and Translation Approaches". Advances in Intelligent Systems and Computing, vol. 433, pp. 699–708. [143] Sharma Vijay Kumar, Mittal Namita (2016), "Exploiting Parallel Sentences and Cosine Similarity for Identifying Target Language Translation". Procedia Computer Science, The Author(s), vol. 89, pp. 428–433. [144] Shaw Joseph A., Fox Edward A., Tech Virginia (1994), "Combination of Multiple Searches". In: The Second Text REtrieval Conference (TREC-2), pp. 243–252. [145] Singh Manjit, Singh Dheerendra, Singh Surender (2015), "Use of HTML Tags in Web Search". IJITKM, vol. 8, no. 2, pp. 8–14. [146] Smiley David, Pugh Eric (2009), "Solr 1.4 Enterprise Search Server". Search., 336 p. [147] Spark Jones, Rijsbergen C.J. Van (1976), "Information retrieval test collections". Journal of Documentation, vol. 32, no. 1, pp. 59–75. [148] Spink Amanda, Zimmer Michael (2008), "Web Search : Multidisciplinary perspectives". Journal of Chemical Information and Modeling., Springer, 160 p. [149] Sun Jt, Zeng Hj, Liu Huan, Lu Yuchang (2005), "CubeSVD: a novel approach to personalized Web search". Proceedings of the 14th international conference on World Wide Web, pp. 382–390. [150] Svore K.M., Kanani P.H., Khan N. (2010), "How Good is a Span of Terms? Exploiting Proximity to Improve Web Retrieval". In: Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, pp. 154–161. [151] Taghizadeh Nasrin (2016), "Automatic Wordnet Development for Low- Resource Languages using Cross-Lingual WSD". Journal of Artificial Intelligence Research, vol. 56, pp. 61–87. [152] Tan Bin, Shen Xuehua, Zhai Chengxiang (2006), "Mining Long-Term Search History to Improve Search Accuracy". Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 718–723. [153] Tao Wenbo, Li Guoliang (2014), "Efficient top-K SimRank-based similarity join". Proceedings of the 2014 ACM SIGMOD international conference on Management of data - SIGMOD ’14, pp. 1603–1604. [154] Tao Tao, Zhai ChengXiang (2007), "An Exploration of Proximity Measures in Information Retrieval". In: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, SIGIR 07, pp. 295–302. [155] Teufel Simone (2007), "An overview of evaluation methods in TREC ad hoc information retrieval and TREC question answering". In: Evaluation of Text and Speech systems, pp. 163–186. [156] Tsai Ming-Feng, Liu Tie-Yan, Qin Tao, Chen Hsin-Hsi, Ma Wei-Ying - 144 - (2007), "FRank: A Ranking Method with Fidelity Loss". In: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’07, pp. 383. [157] Ture Ferhan, Lin Jimmy, Oard Douglas W. (2012), "Combining Statistical Translation Techniques for Cross-Language Information Retrieval". Coling- 2012, vol. 3, pp. 2685–2702. [158] Wang Jue, Li Z., Yao Jinyi, Sun Zengqi, Li Mingjing, Ma Wei-ying (2006), "Adaptive user profile model and collaborative filtering for personalized news". Frontiers of WWW Research and Development-APWeb 2006, pp. 474–485. [159] Wu Shengli, Bi Yaxin, Zeng Xiaoqin (2011), "The linear combination data fusion method in information retrieval". In: 22nd International Conference Database and Expert Systems Applications, pp. 219–233. [160] Xu-wen Wang, Xiao-jie Wang, Jun-lian L.I. (2015), "Cross-lingual Pseudo Relevance Feedback Based on Weak Relevant Topic Alignment". In: 29th Pacific Asia Conference on Language, Information and Computation, pp. 529–534. [161] Xu Jinxi, Croft W. Bruce (1996), "Query expansion using local and global document analysis". Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’96, ACM Press, pp. 4–11. [162] Xu Jun, Li Hang (2007), "AdaRank: a boosting algorithm for information retrieval". In: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 391–398. [163] Xu Jinxi, Weischedel Ralph (2005), "Empirical studies on the impact of lexical resources on CLIR performance". Information Processing and Management, vol. 41, no. 3, pp. 475–487. [164] Yahya Zulaini, Abdullah Muhamad Taufik, Azman Azreen, Kadir Rabiah Abdul (2013), "Query Translation Using Concepts Similarity Based on Quran Ontology for Cross-Language Information Retrieval". Journal of Computer Science, vol. 9, no. 7, pp. 889–897. [165] Ye Zheng, He Ben, Huang Xiangji, Lin Hongfei (2010), "Revisiting Rocchio’s relevance feedback algorithm for probabilistic models". Lecture Notes in Computer Science, vol. 6458 LNCS, pp. 151–161. [166] Yeh Jen-yuan, Lin Jung-yi, Ke Hao-Ren, Yang Wei-Pang (2007), "Learning to Rank for Information Retrieval Using Genetic Programming". In: SIGIR 2007 workshop: Learning to Rank for Information Retrieval. [167] Yu Weiren, Lin Xuemin, Zhang Wenjie, Chang Lijun, Pei Jian (2013), "More is Simpler: Effectively and Efficiently Assessing Node-Pair Similarities Based on Hyperlinks". Proceedings of the VLDB , vol. 7, no. 1, pp. 13–24. [168] Zhai Chengxiang, Lafferty John (2001), "A study of smoothing methods for language models applied to Ad Hoc information retrieval". In: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’01, pp. 334–342. [169] Zhai ChengXiang, Lafferty John D. (2001), "Model-based Feedback In The Language Modeling Approach To Information Retrieval". Cikm, pp. 403–410. - 145 - [170] Zhang Ying, Huang Fei, Vogel Stephan (2005), "Mining translations of OOV terms from the web through cross-lingual query expansion". In: Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, ACM Press, pp. 669–670. [171] Zhou Dong, Truran Mark, Brailsford Tim, Ashman Helen (2008), "A Hybrid Technique for English-Chinese Cross Language Information Retrieval". ACM Trans Asian Lang Info Process, vol. 7, no. 2, pp. 1–35. [172] Zhou Dong, Truran Mark, Brailsford Tim, Wade Vincent, Ashman Helen (2012), "Translation techniques in cross-language information retrieval". ACM Computing Surveys, vol. 45, pp. 1–44. [173] Zukerman Ingrid, Road Blackburn (2003), "Query Expansion and Query Reduction in Document Retrieval". In: Tools with Artificial Intelligence, 2003 Proceedings 15th IEEE International Conference, pp. 552–559. - 146 - DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [1] Giang L.T., Hùng V.T. (2012), "Các phương pháp xếp hạng lại trong trộn kết quả tìm kiếm". Tạp chí Khoa học và Công nghệ các trường Đại học Kỹ thuật, vol. 91, pp. 59–64. [2] Lâm Tùng Giang, Võ Trung Hùng (2013), "Đánh giá thực nghiệm mô hình truy vấn thông tin đa ngữ". In: Hội nghị quốc gia lần thứ VI Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, pp. 103–107. [3] Lâm Tùng Giang, Võ Trung Hùng (2013), "Ứng dụng lập trình di truyền trong học xếp hạng". Tạp chí Khoa học và Công nghệ các trường Đại học Kỹ thuật, vol. 92, pp. 58–63. [4] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Building Evaluation Dataset in Vietnamese Information Retrieval". Journal of Science and Technology Danang University, vol. 12, no. 1, pp. 37–41. [5] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Experiments with query translation and re-ranking methods in Vietnamese-English bilingual information retrieval". In: Proceedings of the Fourth Symposium on Information and Communication Technology - SoICT ’13, ACM Press, pp. 118–122. [6] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building Structured Query in Target Language for Vietnamese – English Cross Language Information Retrieval Systems". International Journal of Engineering Research & Technology (IJERT), vol. 4, no. 04, pp. 146–151. [7] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Improve Cross Language Information Retrieval with Pseudo-Relevance Feedback". In: FAIR 2015, pp. 315–320. [8] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building proximity models for Cross Language Information Retrieval". Issue on Information and Communication Technology- University of Danang, vol. 1, no. 1, pp. 8–12. [9] Lâm Tùng Giang, Võ Trung Hùng, Huỳnh Công Pháp (2016), "Áp dụng học máy dựa trên lập trình di truyền trong tìm kiếm Web xuyên ngữ". Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, vol. 1, no. 98, pp. 93–97.
File đính kèm:
- luan_an_mot_so_phuong_phap_phuc_vu_xep_hang_cac_trang_web_tr.pdf
- English - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
- English - Lam Tung Giang - Trich Yeu Luan An.pdf
- English - Tom Tat Lam Tung Giang - Thesis.pdf
- Vietnamese - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
- Vietnamese - Lam Tung Giang - Trich Yeu Luan An.pdf
- Vietnamese - Tom Tat Lam Tung Giang - Thesis.pdf