Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ

Hơn hai mươi năm qua, chúng ta chứng kiến sự phát triển và lớn mạnh vượt

bậc của Internet và World Wide Web. Đến cuối năm 2015, chỉ riêng Google đã

đánh chỉ mục được khoảng 47 tỷ trang web1. Bên cạnh kích thước khổng lồ, sự tăng

trưởng của World Wide Web còn thể hiện ở tính đa dạng của các ngôn ngữ được sử

dụng trong các trang web. Đến thời điểm này, tiếng Anh tiếp tục là ngôn ngữ phổ

biến nhất, được sử dụng tại 54% trong tổng số các website, tiếp theo là tiếng Nga và

tiếng Đức, tương ứng là 6,1% và 5,7%. Riêng tiếng Việt được sử dụng tại khoảng

0,6% tổng số các website2.

Cùng với sự đa dạng về ngôn ngữ, việc tìm kiếm thông tin không còn giới

hạn ở tiếng mẹ đẻ của người dùng mà đã được mở rộng ra các ngôn ngữ khác. Bài

toán tìm kiếm web xuyên ngữ (Cross-Language Web Search) đặt ra nhiệm vụ từ

nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (gọi là ngôn ngữ

nguồn), thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn

ngữ khác (gọi là ngôn ngữ đích). Việc giải quyết bài toán có ý nghĩa thực tế, cho

phép người sử dụng truy cập các nguồn tài nguyên thông tin ở các ngôn ngữ khác

nhau [134]

pdf 159 trang dienloan 17780
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ

Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 


Lâm Tùng Giang 
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG 
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ 
Chuyên ngành : Khoa học máy tính 
Mã số : 62 48 01 01 
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH 
ĐÀ NẴNG - 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 

Lâm Tùng Giang 
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG 
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ 
Chuyên ngành : Khoa học máy tính 
Mã số : 62 48 01 01 
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH 
NGƯỜI HƯỚNG DẪN KHOA HỌC 
 1. PGS.TS. Võ Trung Hùng 
 2. PGS.TS. Huỳnh Công Pháp 
ĐÀ NẴNG - 2017 
- i - 
LỜI CAM ĐOAN 
Tôi xin cam đoan: Luận án này là công trình nghiên cứu thực sự của cá nhân 
tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng 
dẫn khoa học của PGS.TS. Võ Trung Hùng và PGS.TS. Huỳnh Công Pháp. 
Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này là 
trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác. 
Tôi xin chịu trách nhiệm về những lời cam đoan của tôi. 
Tác giả, 
Lâm Tùng Giang 
- ii - 
MỤC LỤC 
MỞ ĐẦU .................................................................................................................... 1 
1. ĐẶT VẤN ĐỀ ....................................................................................................... 1 
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................... 5 
2.1. Mục tiêu ............................................................................................................ 5 
2.2. Đối tượng .......................................................................................................... 5 
2.3. Phạm vi ............................................................................................................. 5 
3. ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................... 6 
4. BỐ CỤC CỦA LUẬN ÁN ..................................................................................... 8 
CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU .................................... 9 
1.1. TRUY VẤN THÔNG TIN .................................................................................. 9 
1.1.1. Khái niệm ....................................................................................................... 9 
1.1.2. Định nghĩa hình thức .................................................................................... 10 
1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin .................................................. 10 
1.1.4. Các mô hình truy vấn thông tin truyền thống ................................................ 12 
1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản ..................................... 16 
1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN ....................................... 19 
1.2.1. Khái niệm ..................................................................................................... 19 
1.2.2. Các độ đo ..................................................................................................... 20 
1.2.3. Môi trường thực nghiệm ............................................................................... 22 
1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ ........................................................ 24 
1.3.1. Khái niệm ..................................................................................................... 24 
1.3.2. Các hướng tiếp cận ....................................................................................... 24 
1.3.3. Các kỹ thuật dịch tự động ............................................................................. 25 
1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI ................................................................. 25 
- iii - 
1.4.1. Xếp hạng và xếp hạng lại ............................................................................. 25 
1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn ......................................... 26 
1.4.3. Học xếp hạng ............................................................................................... 28 
1.4.4. Khai thác thông tin người sử dụng ................................................................ 30 
1.5. XẾP HẠNG TRANG WEB .............................................................................. 31 
1.5.1. Đặc thù của tìm kiếm web ............................................................................ 31 
1.5.2. Các phương pháp xếp hạng trang Web ......................................................... 32 
1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ ........................................... 36 
1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU .............................................. 37 
1.6.1. Hạn chế ........................................................................................................ 37 
1.6.2. Đề xuất nghiên cứu ....................................................................................... 37 
1.7. TIỂU KẾT CHƯƠNG....................................................................................... 41 
CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ ................ 42 
2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG......................................................... 42 
2.1.1. Sử dụng máy dịch ......................................................................................... 42 
2.1.2. Sử dụng kho ngữ liệu ................................................................................... 43 
2.1.3. Sử dụng từ điển ............................................................................................ 44 
2.1.4. Sử dụng ngôn ngữ trung gian ........................................................................ 44 
2.1.5. Sử dụng không gian ngữ nghĩa ..................................................................... 45 
2.1.6. Đánh giá chung ............................................................................................ 45 
2.2. KHỬ NHẬP NHẰNG....................................................................................... 46 
2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY ............................................................ 47 
2.3.1. Xây dựng dữ liệu từ điển .............................................................................. 48 
2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ ....................... 49 
2.3.3. Các biến thể của công thức MI ..................................................................... 49 
2.3.4. Thuật toán chọn bản dịch tốt nhất ................................................................. 51 
- iv - 
2.3.5. Xây dựng câu truy vấn.................................................................................. 58 
2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI ............................................. 62 
2.4.1. Môi trường thực nghiệm ............................................................................... 62 
2.4.2. Kết quả thực nghiệm .................................................................................... 64 
2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC ......... 65 
2.5.1. Môi trường thực nghiệm ............................................................................... 65 
2.5.2. Cấu hình thực nghiệm .................................................................................. 65 
2.5.3. Kết quả thực nghiệm .................................................................................... 66 
2.6. TIỂU KẾT CHƯƠNG....................................................................................... 67 
CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN .................................................... 69 
3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN ..................................... 69 
3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn ................................................... 69 
3.1.2. Mở rộng câu truy vấn ................................................................................... 70 
3.1.3. Thu hẹp câu truy vấn .................................................................................... 71 
3.1.4. Xử lý thuật ngữ không có trong từ điển ........................................................ 72 
3.2. PHÂN ĐOẠN CÂU TRUY VẤN ..................................................................... 73 
3.2.1. Sử dụng công cụ vnTagger ........................................................................... 73 
3.2.2. Thuật toán WLQS ........................................................................................ 73 
3.2.3. Kết hợp WLQS và công cụ vnTagger ........................................................... 75 
3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH ................................. 78 
3.3.1. Phản hồi ẩn ................................................................................................... 79 
3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ .......................................................... 81 
3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích.................................... 82 
3.4. THỰC NGHIỆM .............................................................................................. 86 
3.4.1. Cấu hình thực nghiệm .................................................................................. 86 
3.4.2. Kết quả ......................................................................................................... 87 
- v - 
3.5. TIỂU KẾT CHƯƠNG....................................................................................... 89 
CHƯƠNG 4: XẾP HẠNG LẠI ................................................................................. 91 
4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN .............................. 91 
4.1.1. Mô hình ứng dụng lập trình di truyền ........................................................... 93 
4.1.2. Xây dựng công cụ và kết quả thực nghiệm ................................................... 94 
4.1.3. Đánh giá ....................................................................................................... 96 
4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN ............................................................ 97 
4.2.1. Mô hình CL-Büttcher ................................................................................... 98 
4.2.2. Mô hình xếp hạng CL-Rasolofo ................................................................... 99 
4.2.3. Mô hình xếp hạng CL-HighDensity ............................................................ 100 
4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ ............................ 101 
4.3. HỌC XẾP HẠNG TRANG WEB ................................................................... 103 
4.3.1. Các mô hình học xếp hạng .......................................................................... 103 
4.3.2. Môi trường thực nghiệm ............................................................................. 106 
4.3.3. Cấu hình thực nghiệm ................................................................................ 109 
4.3.4. Kết quả thực nghiệm .................................................................................. 109 
4.4. TIỂU KẾT CHƯƠNG..................................................................................... 110 
CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH ........... 111 
5.1. THIẾT KẾ HỆ THỐNG .................................................................................. 111 
5.1.1. Các thành phần hệ thống & sơ đồ thuật toán ............................................... 111 
5.1.2. Dữ liệu từ điển ........................................................................................... 114 
5.1.3. Dữ liệu đánh chỉ mục ................................................................................. 114 
5.2. PHƯƠNG PHÁP THỰC NGHIỆM ................................................................ 115 
5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN ....................... 116 
5.3.1. Cấu hình thực nghiệm ................................................................................ 116 
5.3.2. Kết quả thực nghiệm .................................................................................. 117 
- vi - 
5.3.3. Đánh giá ..................................................................................................... 119 
5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN ....................................... 119 
5.4.1. Cấu hình thực nghiệm ................................................................................ 119 
5.4.2. Kết quả thực nghiệm .................................................................................. 120 
5.4.3. Đánh giá ..................................................................................................... 121 
5.5. THỰC NGHIỆM XẾP HẠNG LẠI................................................................. 121 
5.5.1. Cấu hình thực nghiệm ................................................................................ 122 
5.5.2. Kết quả thực nghiệm .................................................................................. 123 
5.5.3. Đánh giá ..................................................................................................... 125 
5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT .................................. 125 
5.7. TIỂU KẾT CHƯƠNG..................................................................................... 128 
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................. 129 
1. KẾT LUẬN ....................................................................................................... 129 
1.1. Tóm tắt nội dung luận án ............................................................................... 129 
1.2. Các kết quả đạt được ..................................................................................... 129 
2. HƯỚNG PHÁT TRIỂN ..................................................................................... 132 
TÀI LIỆU THAM KHẢO ..................................................................................... 133 
- vii - 
DANH MỤC HÌNH VẼ 
Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin .......................... 11 
Hình 1.2: Biểu đồ trung bình 11 điểm ......................................................... 22 
Hình 1.3: Mô hình xếp hạng tìm kiếm Web đa ngữ ..................................... 38 
Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn ..................................................... 39 
Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn .............................. 71 
Hình 3.2: Phản hồi của người dùng ............................................................. 79 
Hình 3.3: Phản hồi ẩn về độ phù hợp của kết quả tìm kiếm ban đầu ............ 79 
Hình 3.4: Đồ thị trung bình 11 điểm ........................................................... 88 
Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh .................... ... rieval using Wikipedia". In: 9th Twente Student Conference on IT. 
- 141 - 
[111] Nguyen Dong, Overwijk Arnold, Hauff Claudia, Trieschnigg Dolf R.B., 
Hiemstra Djoerd, De Jong Franciska (2009), "WikiTranslate: query 
translation for cross-lingual information retrieval using only Wikipedia". 
Evaluating Systems for Multilingual and Multimodal Information Access, vol. 
5706, pp. 58–65. 
[112] Nguyen Van Be Hai, Wilkinson Ross, Zobel Justin (1997), "Cross-language 
Retrieval In English and Vietnamese". AAAI Technical Report, pp. 143–145. 
[113] Nie Jian-Yun (2010), "Cross-Language Information Retrieval". Morgan & 
Claypool Publishers. 
[114] Nie Jian-Yun, Simard Michel, Isabelle Pierre, Durand Richard (1999), 
"Cross-language information retrieval based on parallel texts and automatic 
mining of parallel texts from the Web". Proceedings of the 22nd annual 
international ACM SIGIR conference on Research and development in 
information retrieval - SIGIR ’99, ACM Press, pp. 74–81. 
[115] Oard Douglas W., Wang Jianqiang (2001), "Comparing Pirkola’s Structured 
Queries and Balanced Translation". In: Proceedings of the 2nd NTCIR 
Workshop on Research in Chinese & Japanese, Text Retrieval and Text 
Summarization. 
[116] Page Lawrence, Brin Sergey, Motwani Rajeev, Winograd Terry (1998), "The 
PageRank Citation Ranking: Bringing Order to the Web" [Internet]. 
[117] Pham Dang Duc, Tran Giang Binh, Pham Son Bao (2009), "A Hybrid 
Approach to Vietnamese Word Segmentation using Part of Speech tags 
difficulties and challenges segmentation :". In: The 1st International 
Conference on Knowledge and Systems Engineering, pp. 154–161. 
[118] Pirkola Ari (1998), "The effects of query structure and dictionary setups in 
dictionary-based cross-language information retrieval". In: Proceedings of the 
21st Annual International ACM SIGIR Conference on Research and 
Development in Information Retrieval, pp. 55–63. 
[119] Pirkola Ari, Hedlund Turid, Keskustalo Heikki, Järvelin Kalervo (2001), 
"Dictionary-Based Cross-Language Information Retrieval: Problems, 
Methods, and Research Findings". Information Retrieval, vol. 4, no. 3, pp. 
209–230. 
[120] Ponte Jay, Croft Bruce (1998), "A Language Modeling Approach To Information 
Retrieval". Proceedings of the 21st annual international ACM SIGIR Conference 
on Research and Development in Information Retrieval, pp. 275–281. 
[121] Pretschner Alexander, Universit Technische, Gauch Susan, Hall Snow (1999), 
"Ontology Based Personalized Search The University of Kansas". , no. 97, pp. 
391–398. 
[122] Qin Tao, Liu Tie-Yan, Xu Jun, Li Hang (2010), "LETOR: A benchmark 
collection for research on learning to rank for information retrieval". 
Information Retrieval, vol. 13, no. 4, pp. 346–374. 
[123] Qin Tao, Liu Tie Yan, Xu Jun, Li Hang (2010), "LETOR: A benchmark 
collection for research on learning to rank for information retrieval". 
Information Retrieval, vol. 13, no. 4, pp. 346–374. 
- 142 - 
[124] Rahman Shihab, Chapa Dolon, Kabir Shaily (2014), "A New Weighted 
Keyword Based Similarity Measure for Clustering Webpages". International 
Journal of Computer and Information Technology, vol. 3, no. 5, pp. 929–933. 
[125] Rasolofo Yves, Savoy Jacques (2003), "Term Proximity Scoring for 
Keyword-Based Retrieval Systems". Lecture Notes in Computer Science, 
Springer, pp. 207–218. 
[126] Renda M. Elena, Straccia Umberto (2003), "Web Metasearch: Rank vs. Score 
Based Rank Aggregation Methods". Proceedings of the 2003 ACM 
symposium on Applied computing - SAC ’03, pp. 841–846. 
[127] Resnik Philip, Smith Noah A. (2003), "The Web as a Parallel Corpus". 
Computational Linguistics, vol. 29, pp. 349–380. 
[128] Rieh Hae-young, Rieh Soo Young (2005), "Web searching across languages: 
Preference and behavior of bilingual academic users in Korea". Library & 
Information Science Research, vol. 27, no. 2, pp. 249–263. 
[129] Robertson S. (2008), "On the history of evaluation in IR". Journal of 
Information Science, vol. 34, no. 4, pp. 439–456. 
[130] Robertson Stephen E., Jones Karen Sparck (1988), "Relevance weighting of 
search terms". Document retrieval systems, pp. 143–160. 
[131] Robertson Stephen E., Walker Stephen, Hancock-Beaulieu Micheline, Gull 
Aarron, Lau Marianna (1994), "Okapi at TREC-3". In: Proceedings of 3rd 
Text REtrieval Conference, pp. 109–126. 
[132] Rocchio J.J. (1971), "Relevance Feedback in Information Retrieval". In: SMART 
Retrieval System Experimens in Automatic Document Processing, pp. 313–323. 
[133] Sadat Fatiha (2010), "Research on Query Disambiguation and Expansion for 
Cross-Language Information Retrieval". Communications of the IBIMA. 
[134] Salton Gerard (1970), "Automatic processing of foreign language 
documents". Journal of the American Society for Information Science, vol. 
21, no. 3, pp. 187–194. 
[135] Salton Gerard, Buckley Chris (1990), "Improving retrieval performance by 
relevance feedback". Journal of the American Society for Information 
Science, vol. 41, no. 4, pp. 288–297. 
[136] Salton G., Wong A., Yang C.S. (1975), "A vector space model for automatic 
indexing". Communications of the ACM., pp. 613–620. 
[137] Sanderson M., Clough P. (2004), "Measuring pseudo relevance feedback & 
CLIR". In: 27th ACM-SIGIR, pp. 484–485. 
[138] Sarmah Jumi, Kumar Shikhar (2016), "Survey on Word Sense 
Disambiguation : An Initiative towards an Indo-Aryan Language". 
International Journal of Engineering and Manufacturing, vol. 3, pp. 37–52. 
[139] Savoy Jacques, Le Calvé Anne, Vrajitoru Dana (1997), "Report on the 
TREC-S Experiment: Data Fusion and Collection Fusion". In: Proceedings of 
the TREC’5, pp. 489–502. 
[140] Schenkel Ralf, Broschart Andreas, Hwang Seungwon, Theobald Martin, 
Weikum Gerhard (2007), "Efficient Text Proximity Search". String 
Processing and Information Retrieval, pp. 287–299. 
- 143 - 
[141] Shao Yingxia, Cui Bin, Chen Lei, Liu Mingming, Xie Xing (2015), "An 
efficient similarity search framework for SimRank over large dynamic 
graphs". Proceedings of the VLDB Endowment, vol. 8, no. 8, pp. 838–849. 
[142] Sharma Vijay Kumar, Mittal Namita (2016), "Cross Lingual Information 
Retrieval (CLIR): Review of Tools, Challenges and Translation Approaches". 
Advances in Intelligent Systems and Computing, vol. 433, pp. 699–708. 
[143] Sharma Vijay Kumar, Mittal Namita (2016), "Exploiting Parallel Sentences 
and Cosine Similarity for Identifying Target Language Translation". Procedia 
Computer Science, The Author(s), vol. 89, pp. 428–433. 
[144] Shaw Joseph A., Fox Edward A., Tech Virginia (1994), "Combination of Multiple 
Searches". In: The Second Text REtrieval Conference (TREC-2), pp. 243–252. 
[145] Singh Manjit, Singh Dheerendra, Singh Surender (2015), "Use of HTML 
Tags in Web Search". IJITKM, vol. 8, no. 2, pp. 8–14. 
[146] Smiley David, Pugh Eric (2009), "Solr 1.4 Enterprise Search Server". 
Search., 336 p. 
[147] Spark Jones, Rijsbergen C.J. Van (1976), "Information retrieval test 
collections". Journal of Documentation, vol. 32, no. 1, pp. 59–75. 
[148] Spink Amanda, Zimmer Michael (2008), "Web Search : Multidisciplinary 
perspectives". Journal of Chemical Information and Modeling., Springer, 160 p. 
[149] Sun Jt, Zeng Hj, Liu Huan, Lu Yuchang (2005), "CubeSVD: a novel 
approach to personalized Web search". Proceedings of the 14th international 
conference on World Wide Web, pp. 382–390. 
[150] Svore K.M., Kanani P.H., Khan N. (2010), "How Good is a Span of Terms? 
Exploiting Proximity to Improve Web Retrieval". In: Proceedings of the 33rd 
international ACM SIGIR conference on Research and development in 
information retrieval, pp. 154–161. 
[151] Taghizadeh Nasrin (2016), "Automatic Wordnet Development for Low-
Resource Languages using Cross-Lingual WSD". Journal of Artificial 
Intelligence Research, vol. 56, pp. 61–87. 
[152] Tan Bin, Shen Xuehua, Zhai Chengxiang (2006), "Mining Long-Term Search 
History to Improve Search Accuracy". Proceedings of the 12th ACM 
SIGKDD International Conference on Knowledge Discovery and Data 
Mining, pp. 718–723. 
[153] Tao Wenbo, Li Guoliang (2014), "Efficient top-K SimRank-based similarity 
join". Proceedings of the 2014 ACM SIGMOD international conference on 
Management of data - SIGMOD ’14, pp. 1603–1604. 
[154] Tao Tao, Zhai ChengXiang (2007), "An Exploration of Proximity Measures 
in Information Retrieval". In: Proceedings of the 30th annual international 
ACM SIGIR conference on Research and development in information 
retrieval, SIGIR 07, pp. 295–302. 
[155] Teufel Simone (2007), "An overview of evaluation methods in TREC ad hoc 
information retrieval and TREC question answering". In: Evaluation of Text 
and Speech systems, pp. 163–186. 
[156] Tsai Ming-Feng, Liu Tie-Yan, Qin Tao, Chen Hsin-Hsi, Ma Wei-Ying 
- 144 - 
(2007), "FRank: A Ranking Method with Fidelity Loss". In: Proceedings of 
the 30th annual international ACM SIGIR conference on Research and 
development in information retrieval - SIGIR ’07, pp. 383. 
[157] Ture Ferhan, Lin Jimmy, Oard Douglas W. (2012), "Combining Statistical 
Translation Techniques for Cross-Language Information Retrieval". Coling-
2012, vol. 3, pp. 2685–2702. 
[158] Wang Jue, Li Z., Yao Jinyi, Sun Zengqi, Li Mingjing, Ma Wei-ying (2006), 
"Adaptive user profile model and collaborative filtering for personalized news". 
Frontiers of WWW Research and Development-APWeb 2006, pp. 474–485. 
[159] Wu Shengli, Bi Yaxin, Zeng Xiaoqin (2011), "The linear combination data 
fusion method in information retrieval". In: 22nd International Conference 
Database and Expert Systems Applications, pp. 219–233. 
[160] Xu-wen Wang, Xiao-jie Wang, Jun-lian L.I. (2015), "Cross-lingual Pseudo 
Relevance Feedback Based on Weak Relevant Topic Alignment". In: 29th Pacific 
Asia Conference on Language, Information and Computation, pp. 529–534. 
[161] Xu Jinxi, Croft W. Bruce (1996), "Query expansion using local and global 
document analysis". Proceedings of the 19th annual international ACM 
SIGIR conference on Research and development in information retrieval - 
SIGIR ’96, ACM Press, pp. 4–11. 
[162] Xu Jun, Li Hang (2007), "AdaRank: a boosting algorithm for information 
retrieval". In: Proceedings of the 30th annual international ACM SIGIR 
conference on Research and development in information retrieval, pp. 391–398. 
[163] Xu Jinxi, Weischedel Ralph (2005), "Empirical studies on the impact of 
lexical resources on CLIR performance". Information Processing and 
Management, vol. 41, no. 3, pp. 475–487. 
[164] Yahya Zulaini, Abdullah Muhamad Taufik, Azman Azreen, Kadir Rabiah 
Abdul (2013), "Query Translation Using Concepts Similarity Based on Quran 
Ontology for Cross-Language Information Retrieval". Journal of Computer 
Science, vol. 9, no. 7, pp. 889–897. 
[165] Ye Zheng, He Ben, Huang Xiangji, Lin Hongfei (2010), "Revisiting 
Rocchio’s relevance feedback algorithm for probabilistic models". Lecture 
Notes in Computer Science, vol. 6458 LNCS, pp. 151–161. 
[166] Yeh Jen-yuan, Lin Jung-yi, Ke Hao-Ren, Yang Wei-Pang (2007), "Learning 
to Rank for Information Retrieval Using Genetic Programming". In: SIGIR 
2007 workshop: Learning to Rank for Information Retrieval. 
[167] Yu Weiren, Lin Xuemin, Zhang Wenjie, Chang Lijun, Pei Jian (2013), "More 
is Simpler: Effectively and Efficiently Assessing Node-Pair Similarities 
Based on Hyperlinks". Proceedings of the VLDB , vol. 7, no. 1, pp. 13–24. 
[168] Zhai Chengxiang, Lafferty John (2001), "A study of smoothing methods for 
language models applied to Ad Hoc information retrieval". In: Proceedings of 
the 24th annual international ACM SIGIR conference on Research and 
development in information retrieval - SIGIR ’01, pp. 334–342. 
[169] Zhai ChengXiang, Lafferty John D. (2001), "Model-based Feedback In The 
Language Modeling Approach To Information Retrieval". Cikm, pp. 403–410. 
- 145 - 
[170] Zhang Ying, Huang Fei, Vogel Stephan (2005), "Mining translations of OOV 
terms from the web through cross-lingual query expansion". In: Proceedings 
of the 28th annual international ACM SIGIR conference on Research and 
development in information retrieval, ACM Press, pp. 669–670. 
[171] Zhou Dong, Truran Mark, Brailsford Tim, Ashman Helen (2008), "A Hybrid 
Technique for English-Chinese Cross Language Information Retrieval". ACM 
Trans Asian Lang Info Process, vol. 7, no. 2, pp. 1–35. 
[172] Zhou Dong, Truran Mark, Brailsford Tim, Wade Vincent, Ashman Helen 
(2012), "Translation techniques in cross-language information retrieval". 
ACM Computing Surveys, vol. 45, pp. 1–44. 
[173] Zukerman Ingrid, Road Blackburn (2003), "Query Expansion and Query 
Reduction in Document Retrieval". In: Tools with Artificial Intelligence, 2003 
Proceedings 15th IEEE International Conference, pp. 552–559. 
- 146 - 
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 
[1] Giang L.T., Hùng V.T. (2012), "Các phương pháp xếp hạng lại trong trộn kết 
quả tìm kiếm". Tạp chí Khoa học và Công nghệ các trường Đại học Kỹ thuật, 
vol. 91, pp. 59–64. 
[2] Lâm Tùng Giang, Võ Trung Hùng (2013), "Đánh giá thực nghiệm mô hình 
truy vấn thông tin đa ngữ". In: Hội nghị quốc gia lần thứ VI Nghiên cứu cơ 
bản và ứng dụng Công nghệ thông tin, pp. 103–107. 
[3] Lâm Tùng Giang, Võ Trung Hùng (2013), "Ứng dụng lập trình di truyền 
trong học xếp hạng". Tạp chí Khoa học và Công nghệ các trường Đại học Kỹ 
thuật, vol. 92, pp. 58–63. 
[4] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Building 
Evaluation Dataset in Vietnamese Information Retrieval". Journal of Science 
and Technology Danang University, vol. 12, no. 1, pp. 37–41. 
[5] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Experiments 
with query translation and re-ranking methods in Vietnamese-English 
bilingual information retrieval". In: Proceedings of the Fourth Symposium on 
Information and Communication Technology - SoICT ’13, ACM Press, pp. 
118–122. 
[6] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building 
Structured Query in Target Language for Vietnamese – English Cross 
Language Information Retrieval Systems". International Journal of 
Engineering Research & Technology (IJERT), vol. 4, no. 04, pp. 146–151. 
[7] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Improve 
Cross Language Information Retrieval with Pseudo-Relevance Feedback". In: 
FAIR 2015, pp. 315–320. 
[8] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building 
proximity models for Cross Language Information Retrieval". Issue on 
Information and Communication Technology- University of Danang, vol. 1, 
no. 1, pp. 8–12. 
[9] Lâm Tùng Giang, Võ Trung Hùng, Huỳnh Công Pháp (2016), "Áp dụng học 
máy dựa trên lập trình di truyền trong tìm kiếm Web xuyên ngữ". Tạp chí 
Khoa học và Công nghệ, Đại học Đà Nẵng, vol. 1, no. 98, pp. 93–97. 

File đính kèm:

  • pdfluan_an_mot_so_phuong_phap_phuc_vu_xep_hang_cac_trang_web_tr.pdf
  • pdfEnglish - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
  • pdfEnglish - Lam Tung Giang - Trich Yeu Luan An.pdf
  • pdfEnglish - Tom Tat Lam Tung Giang - Thesis.pdf
  • pdfVietnamese - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
  • pdfVietnamese - Lam Tung Giang - Trich Yeu Luan An.pdf
  • pdfVietnamese - Tom Tat Lam Tung Giang - Thesis.pdf