Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ

Hơn hai mươi năm qua, chúng ta chứng kiến sự phát triển và lớn mạnh vượt

bậc của Internet và World Wide Web. Đến cuối năm 2015, chỉ riêng Google đã

đánh chỉ mục được khoảng 47 tỷ trang web1. Bên cạnh kích thước khổng lồ, sự tăng

trưởng của World Wide Web còn thể hiện ở tính đa dạng của các ngôn ngữ được sử

dụng trong các trang web. Đến thời điểm này, tiếng Anh tiếp tục là ngôn ngữ phổ

biến nhất, được sử dụng tại 54% trong tổng số các website, tiếp theo là tiếng Nga và

tiếng Đức, tương ứng là 6,1% và 5,7%. Riêng tiếng Việt được sử dụng tại khoảng

0,6% tổng số các website2.

Cùng với sự đa dạng về ngôn ngữ, việc tìm kiếm thông tin không còn giới

hạn ở tiếng mẹ đẻ của người dùng mà đã được mở rộng ra các ngôn ngữ khác. Bài

toán tìm kiếm web xuyên ngữ (Cross-Language Web Search) đặt ra nhiệm vụ từ

nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (gọi là ngôn ngữ

nguồn), thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn

ngữ khác (gọi là ngôn ngữ đích). Việc giải quyết bài toán có ý nghĩa thực tế, cho

phép người sử dụng truy cập các nguồn tài nguyên thông tin ở các ngôn ngữ khác

nhau [134]

159 trang dienloan 24440

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG


Lâm Tùng Giang
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ
Chuyên ngành : Khoa học máy tính
Mã số : 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
ĐÀ NẴNG - 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

Lâm Tùng Giang
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ
Chuyên ngành : Khoa học máy tính
Mã số : 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS.TS. Võ Trung Hùng
2. PGS.TS. Huỳnh Công Pháp
ĐÀ NẴNG - 2017
- i -
LỜI CAM ĐOAN
Tôi xin cam đoan: Luận án này là công trình nghiên cứu thực sự của cá nhân
tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng
dẫn khoa học của PGS.TS. Võ Trung Hùng và PGS.TS. Huỳnh Công Pháp.
Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này là
trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác.
Tôi xin chịu trách nhiệm về những lời cam đoan của tôi.
Tác giả,
Lâm Tùng Giang
- ii -
MỤC LỤC
MỞ ĐẦU .................................................................................................................... 1
1. ĐẶT VẤN ĐỀ ....................................................................................................... 1
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................... 5
2.1. Mục tiêu ............................................................................................................ 5
2.2. Đối tượng .......................................................................................................... 5
2.3. Phạm vi ............................................................................................................. 5
3. ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................... 6
4. BỐ CỤC CỦA LUẬN ÁN ..................................................................................... 8
CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU .................................... 9
1.1. TRUY VẤN THÔNG TIN .................................................................................. 9
1.1.1. Khái niệm ....................................................................................................... 9
1.1.2. Định nghĩa hình thức .................................................................................... 10
1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin .................................................. 10
1.1.4. Các mô hình truy vấn thông tin truyền thống ................................................ 12
1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản ..................................... 16
1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN ....................................... 19
1.2.1. Khái niệm ..................................................................................................... 19
1.2.2. Các độ đo ..................................................................................................... 20
1.2.3. Môi trường thực nghiệm ............................................................................... 22
1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ ........................................................ 24
1.3.1. Khái niệm ..................................................................................................... 24
1.3.2. Các hướng tiếp cận ....................................................................................... 24
1.3.3. Các kỹ thuật dịch tự động ............................................................................. 25
1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI ................................................................. 25
- iii -
1.4.1. Xếp hạng và xếp hạng lại ............................................................................. 25
1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn ......................................... 26
1.4.3. Học xếp hạng ............................................................................................... 28
1.4.4. Khai thác thông tin người sử dụng ................................................................ 30
1.5. XẾP HẠNG TRANG WEB .............................................................................. 31
1.5.1. Đặc thù của tìm kiếm web ............................................................................ 31
1.5.2. Các phương pháp xếp hạng trang Web ......................................................... 32
1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ ........................................... 36
1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU .............................................. 37
1.6.1. Hạn chế ........................................................................................................ 37
1.6.2. Đề xuất nghiên cứu ....................................................................................... 37
1.7. TIỂU KẾT CHƯƠNG....................................................................................... 41
CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ ................ 42
2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG......................................................... 42
2.1.1. Sử dụng máy dịch ......................................................................................... 42
2.1.2. Sử dụng kho ngữ liệu ................................................................................... 43
2.1.3. Sử dụng từ điển ............................................................................................ 44
2.1.4. Sử dụng ngôn ngữ trung gian ........................................................................ 44
2.1.5. Sử dụng không gian ngữ nghĩa ..................................................................... 45
2.1.6. Đánh giá chung ............................................................................................ 45
2.2. KHỬ NHẬP NHẰNG....................................................................................... 46
2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY ............................................................ 47
2.3.1. Xây dựng dữ liệu từ điển .............................................................................. 48
2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ ....................... 49
2.3.3. Các biến thể của công thức MI ..................................................................... 49
2.3.4. Thuật toán chọn bản dịch tốt nhất ................................................................. 51
- iv -
2.3.5. Xây dựng câu truy vấn.................................................................................. 58
2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI ............................................. 62
2.4.1. Môi trường thực nghiệm ............................................................................... 62
2.4.2. Kết quả thực nghiệm .................................................................................... 64
2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC ......... 65
2.5.1. Môi trường thực nghiệm ............................................................................... 65
2.5.2. Cấu hình thực nghiệm .................................................................................. 65
2.5.3. Kết quả thực nghiệm .................................................................................... 66
2.6. TIỂU KẾT CHƯƠNG....................................................................................... 67
CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN .................................................... 69
3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN ..................................... 69
3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn ................................................... 69
3.1.2. Mở rộng câu truy vấn ................................................................................... 70
3.1.3. Thu hẹp câu truy vấn .................................................................................... 71
3.1.4. Xử lý thuật ngữ không có trong từ điển ........................................................ 72
3.2. PHÂN ĐOẠN CÂU TRUY VẤN ..................................................................... 73
3.2.1. Sử dụng công cụ vnTagger ........................................................................... 73
3.2.2. Thuật toán WLQS ........................................................................................ 73
3.2.3. Kết hợp WLQS và công cụ vnTagger ........................................................... 75
3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH ................................. 78
3.3.1. Phản hồi ẩn ................................................................................................... 79
3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ .......................................................... 81
3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích.................................... 82
3.4. THỰC NGHIỆM .............................................................................................. 86
3.4.1. Cấu hình thực nghiệm .................................................................................. 86
3.4.2. Kết quả ......................................................................................................... 87
- v -
3.5. TIỂU KẾT CHƯƠNG....................................................................................... 89
CHƯƠNG 4: XẾP HẠNG LẠI ................................................................................. 91
4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN .............................. 91
4.1.1. Mô hình ứng dụng lập trình di truyền ........................................................... 93
4.1.2. Xây dựng công cụ và kết quả thực nghiệm ................................................... 94
4.1.3. Đánh giá ....................................................................................................... 96
4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN ............................................................ 97
4.2.1. Mô hình CL-Büttcher ................................................................................... 98
4.2.2. Mô hình xếp hạng CL-Rasolofo ................................................................... 99
4.2.3. Mô hình xếp hạng CL-HighDensity ............................................................ 100
4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ ............................ 101
4.3. HỌC XẾP HẠNG TRANG WEB ................................................................... 103
4.3.1. Các mô hình học xếp hạng .......................................................................... 103
4.3.2. Môi trường thực nghiệm ............................................................................. 106
4.3.3. Cấu hình thực nghiệm ................................................................................ 109
4.3.4. Kết quả thực nghiệm .................................................................................. 109
4.4. TIỂU KẾT CHƯƠNG..................................................................................... 110
CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH ........... 111
5.1. THIẾT KẾ HỆ THỐNG .................................................................................. 111
5.1.1. Các thành phần hệ thống & sơ đồ thuật toán ............................................... 111
5.1.2. Dữ liệu từ điển ........................................................................................... 114
5.1.3. Dữ liệu đánh chỉ mục ................................................................................. 114
5.2. PHƯƠNG PHÁP THỰC NGHIỆM ................................................................ 115
5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN ....................... 116
5.3.1. Cấu hình thực nghiệm ................................................................................ 116
5.3.2. Kết quả thực nghiệm .................................................................................. 117
- vi -
5.3.3. Đánh giá ..................................................................................................... 119
5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN ....................................... 119
5.4.1. Cấu hình thực nghiệm ................................................................................ 119
5.4.2. Kết quả thực nghiệm .................................................................................. 120
5.4.3. Đánh giá ..................................................................................................... 121
5.5. THỰC NGHIỆM XẾP HẠNG LẠI................................................................. 121
5.5.1. Cấu hình thực nghiệm ................................................................................ 122
5.5.2. Kết quả thực nghiệm .................................................................................. 123
5.5.3. Đánh giá ..................................................................................................... 125
5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT .................................. 125
5.7. TIỂU KẾT CHƯƠNG..................................................................................... 128
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................. 129
1. KẾT LUẬN ....................................................................................................... 129
1.1. Tóm tắt nội dung luận án ............................................................................... 129
1.2. Các kết quả đạt được ..................................................................................... 129
2. HƯỚNG PHÁT TRIỂN ..................................................................................... 132
TÀI LIỆU THAM KHẢO ..................................................................................... 133
- vii -
DANH MỤC HÌNH VẼ
Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin .......................... 11
Hình 1.2: Biểu đồ trung bình 11 điểm ......................................................... 22
Hình 1.3: Mô hình xếp hạng tìm kiếm Web đa ngữ ..................................... 38
Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn ..................................................... 39
Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn .............................. 71
Hình 3.2: Phản hồi của người dùng ............................................................. 79
Hình 3.3: Phản hồi ẩn về độ phù hợp của kết quả tìm kiếm ban đầu ............ 79
Hình 3.4: Đồ thị trung bình 11 điểm ........................................................... 88
Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh .................... ... rieval using Wikipedia". In: 9th Twente Student Conference on IT.
- 141 -
[111] Nguyen Dong, Overwijk Arnold, Hauff Claudia, Trieschnigg Dolf R.B.,
Hiemstra Djoerd, De Jong Franciska (2009), "WikiTranslate: query
translation for cross-lingual information retrieval using only Wikipedia".
Evaluating Systems for Multilingual and Multimodal Information Access, vol.
5706, pp. 58–65.
[112] Nguyen Van Be Hai, Wilkinson Ross, Zobel Justin (1997), "Cross-language
Retrieval In English and Vietnamese". AAAI Technical Report, pp. 143–145.
[113] Nie Jian-Yun (2010), "Cross-Language Information Retrieval". Morgan &
Claypool Publishers.
[114] Nie Jian-Yun, Simard Michel, Isabelle Pierre, Durand Richard (1999),
"Cross-language information retrieval based on parallel texts and automatic
mining of parallel texts from the Web". Proceedings of the 22nd annual
international ACM SIGIR conference on Research and development in
information retrieval - SIGIR ’99, ACM Press, pp. 74–81.
[115] Oard Douglas W., Wang Jianqiang (2001), "Comparing Pirkola’s Structured
Queries and Balanced Translation". In: Proceedings of the 2nd NTCIR
Workshop on Research in Chinese & Japanese, Text Retrieval and Text
Summarization.
[116] Page Lawrence, Brin Sergey, Motwani Rajeev, Winograd Terry (1998), "The
PageRank Citation Ranking: Bringing Order to the Web" [Internet].
[117] Pham Dang Duc, Tran Giang Binh, Pham Son Bao (2009), "A Hybrid
Approach to Vietnamese Word Segmentation using Part of Speech tags
difficulties and challenges segmentation :". In: The 1st International
Conference on Knowledge and Systems Engineering, pp. 154–161.
[118] Pirkola Ari (1998), "The effects of query structure and dictionary setups in
dictionary-based cross-language information retrieval". In: Proceedings of the
21st Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval, pp. 55–63.
[119] Pirkola Ari, Hedlund Turid, Keskustalo Heikki, Järvelin Kalervo (2001),
"Dictionary-Based Cross-Language Information Retrieval: Problems,
Methods, and Research Findings". Information Retrieval, vol. 4, no. 3, pp.
209–230.
[120] Ponte Jay, Croft Bruce (1998), "A Language Modeling Approach To Information
Retrieval". Proceedings of the 21st annual international ACM SIGIR Conference
on Research and Development in Information Retrieval, pp. 275–281.
[121] Pretschner Alexander, Universit Technische, Gauch Susan, Hall Snow (1999),
"Ontology Based Personalized Search The University of Kansas". , no. 97, pp.
391–398.
[122] Qin Tao, Liu Tie-Yan, Xu Jun, Li Hang (2010), "LETOR: A benchmark
collection for research on learning to rank for information retrieval".
Information Retrieval, vol. 13, no. 4, pp. 346–374.
[123] Qin Tao, Liu Tie Yan, Xu Jun, Li Hang (2010), "LETOR: A benchmark
collection for research on learning to rank for information retrieval".
Information Retrieval, vol. 13, no. 4, pp. 346–374.
- 142 -
[124] Rahman Shihab, Chapa Dolon, Kabir Shaily (2014), "A New Weighted
Keyword Based Similarity Measure for Clustering Webpages". International
Journal of Computer and Information Technology, vol. 3, no. 5, pp. 929–933.
[125] Rasolofo Yves, Savoy Jacques (2003), "Term Proximity Scoring for
Keyword-Based Retrieval Systems". Lecture Notes in Computer Science,
Springer, pp. 207–218.
[126] Renda M. Elena, Straccia Umberto (2003), "Web Metasearch: Rank vs. Score
Based Rank Aggregation Methods". Proceedings of the 2003 ACM
symposium on Applied computing - SAC ’03, pp. 841–846.
[127] Resnik Philip, Smith Noah A. (2003), "The Web as a Parallel Corpus".
Computational Linguistics, vol. 29, pp. 349–380.
[128] Rieh Hae-young, Rieh Soo Young (2005), "Web searching across languages:
Preference and behavior of bilingual academic users in Korea". Library &
Information Science Research, vol. 27, no. 2, pp. 249–263.
[129] Robertson S. (2008), "On the history of evaluation in IR". Journal of
Information Science, vol. 34, no. 4, pp. 439–456.
[130] Robertson Stephen E., Jones Karen Sparck (1988), "Relevance weighting of
search terms". Document retrieval systems, pp. 143–160.
[131] Robertson Stephen E., Walker Stephen, Hancock-Beaulieu Micheline, Gull
Aarron, Lau Marianna (1994), "Okapi at TREC-3". In: Proceedings of 3rd
Text REtrieval Conference, pp. 109–126.
[132] Rocchio J.J. (1971), "Relevance Feedback in Information Retrieval". In: SMART
Retrieval System Experimens in Automatic Document Processing, pp. 313–323.
[133] Sadat Fatiha (2010), "Research on Query Disambiguation and Expansion for
Cross-Language Information Retrieval". Communications of the IBIMA.
[134] Salton Gerard (1970), "Automatic processing of foreign language
documents". Journal of the American Society for Information Science, vol.
21, no. 3, pp. 187–194.
[135] Salton Gerard, Buckley Chris (1990), "Improving retrieval performance by
relevance feedback". Journal of the American Society for Information
Science, vol. 41, no. 4, pp. 288–297.
[136] Salton G., Wong A., Yang C.S. (1975), "A vector space model for automatic
indexing". Communications of the ACM., pp. 613–620.
[137] Sanderson M., Clough P. (2004), "Measuring pseudo relevance feedback &
CLIR". In: 27th ACM-SIGIR, pp. 484–485.
[138] Sarmah Jumi, Kumar Shikhar (2016), "Survey on Word Sense
Disambiguation : An Initiative towards an Indo-Aryan Language".
International Journal of Engineering and Manufacturing, vol. 3, pp. 37–52.
[139] Savoy Jacques, Le Calvé Anne, Vrajitoru Dana (1997), "Report on the
TREC-S Experiment: Data Fusion and Collection Fusion". In: Proceedings of
the TREC’5, pp. 489–502.
[140] Schenkel Ralf, Broschart Andreas, Hwang Seungwon, Theobald Martin,
Weikum Gerhard (2007), "Efficient Text Proximity Search". String
Processing and Information Retrieval, pp. 287–299.
- 143 -
[141] Shao Yingxia, Cui Bin, Chen Lei, Liu Mingming, Xie Xing (2015), "An
efficient similarity search framework for SimRank over large dynamic
graphs". Proceedings of the VLDB Endowment, vol. 8, no. 8, pp. 838–849.
[142] Sharma Vijay Kumar, Mittal Namita (2016), "Cross Lingual Information
Retrieval (CLIR): Review of Tools, Challenges and Translation Approaches".
Advances in Intelligent Systems and Computing, vol. 433, pp. 699–708.
[143] Sharma Vijay Kumar, Mittal Namita (2016), "Exploiting Parallel Sentences
and Cosine Similarity for Identifying Target Language Translation". Procedia
Computer Science, The Author(s), vol. 89, pp. 428–433.
[144] Shaw Joseph A., Fox Edward A., Tech Virginia (1994), "Combination of Multiple
Searches". In: The Second Text REtrieval Conference (TREC-2), pp. 243–252.
[145] Singh Manjit, Singh Dheerendra, Singh Surender (2015), "Use of HTML
Tags in Web Search". IJITKM, vol. 8, no. 2, pp. 8–14.
[146] Smiley David, Pugh Eric (2009), "Solr 1.4 Enterprise Search Server".
Search., 336 p.
[147] Spark Jones, Rijsbergen C.J. Van (1976), "Information retrieval test
collections". Journal of Documentation, vol. 32, no. 1, pp. 59–75.
[148] Spink Amanda, Zimmer Michael (2008), "Web Search : Multidisciplinary
perspectives". Journal of Chemical Information and Modeling., Springer, 160 p.
[149] Sun Jt, Zeng Hj, Liu Huan, Lu Yuchang (2005), "CubeSVD: a novel
approach to personalized Web search". Proceedings of the 14th international
conference on World Wide Web, pp. 382–390.
[150] Svore K.M., Kanani P.H., Khan N. (2010), "How Good is a Span of Terms?
Exploiting Proximity to Improve Web Retrieval". In: Proceedings of the 33rd
international ACM SIGIR conference on Research and development in
information retrieval, pp. 154–161.
[151] Taghizadeh Nasrin (2016), "Automatic Wordnet Development for Low-
Resource Languages using Cross-Lingual WSD". Journal of Artificial
Intelligence Research, vol. 56, pp. 61–87.
[152] Tan Bin, Shen Xuehua, Zhai Chengxiang (2006), "Mining Long-Term Search
History to Improve Search Accuracy". Proceedings of the 12th ACM
SIGKDD International Conference on Knowledge Discovery and Data
Mining, pp. 718–723.
[153] Tao Wenbo, Li Guoliang (2014), "Efficient top-K SimRank-based similarity
join". Proceedings of the 2014 ACM SIGMOD international conference on
Management of data - SIGMOD ’14, pp. 1603–1604.
[154] Tao Tao, Zhai ChengXiang (2007), "An Exploration of Proximity Measures
in Information Retrieval". In: Proceedings of the 30th annual international
ACM SIGIR conference on Research and development in information
retrieval, SIGIR 07, pp. 295–302.
[155] Teufel Simone (2007), "An overview of evaluation methods in TREC ad hoc
information retrieval and TREC question answering". In: Evaluation of Text
and Speech systems, pp. 163–186.
[156] Tsai Ming-Feng, Liu Tie-Yan, Qin Tao, Chen Hsin-Hsi, Ma Wei-Ying
- 144 -
(2007), "FRank: A Ranking Method with Fidelity Loss". In: Proceedings of
the 30th annual international ACM SIGIR conference on Research and
development in information retrieval - SIGIR ’07, pp. 383.
[157] Ture Ferhan, Lin Jimmy, Oard Douglas W. (2012), "Combining Statistical
Translation Techniques for Cross-Language Information Retrieval". Coling-
2012, vol. 3, pp. 2685–2702.
[158] Wang Jue, Li Z., Yao Jinyi, Sun Zengqi, Li Mingjing, Ma Wei-ying (2006),
"Adaptive user profile model and collaborative filtering for personalized news".
Frontiers of WWW Research and Development-APWeb 2006, pp. 474–485.
[159] Wu Shengli, Bi Yaxin, Zeng Xiaoqin (2011), "The linear combination data
fusion method in information retrieval". In: 22nd International Conference
Database and Expert Systems Applications, pp. 219–233.
[160] Xu-wen Wang, Xiao-jie Wang, Jun-lian L.I. (2015), "Cross-lingual Pseudo
Relevance Feedback Based on Weak Relevant Topic Alignment". In: 29th Pacific
Asia Conference on Language, Information and Computation, pp. 529–534.
[161] Xu Jinxi, Croft W. Bruce (1996), "Query expansion using local and global
document analysis". Proceedings of the 19th annual international ACM
SIGIR conference on Research and development in information retrieval -
SIGIR ’96, ACM Press, pp. 4–11.
[162] Xu Jun, Li Hang (2007), "AdaRank: a boosting algorithm for information
retrieval". In: Proceedings of the 30th annual international ACM SIGIR
conference on Research and development in information retrieval, pp. 391–398.
[163] Xu Jinxi, Weischedel Ralph (2005), "Empirical studies on the impact of
lexical resources on CLIR performance". Information Processing and
Management, vol. 41, no. 3, pp. 475–487.
[164] Yahya Zulaini, Abdullah Muhamad Taufik, Azman Azreen, Kadir Rabiah
Abdul (2013), "Query Translation Using Concepts Similarity Based on Quran
Ontology for Cross-Language Information Retrieval". Journal of Computer
Science, vol. 9, no. 7, pp. 889–897.
[165] Ye Zheng, He Ben, Huang Xiangji, Lin Hongfei (2010), "Revisiting
Rocchio’s relevance feedback algorithm for probabilistic models". Lecture
Notes in Computer Science, vol. 6458 LNCS, pp. 151–161.
[166] Yeh Jen-yuan, Lin Jung-yi, Ke Hao-Ren, Yang Wei-Pang (2007), "Learning
to Rank for Information Retrieval Using Genetic Programming". In: SIGIR
2007 workshop: Learning to Rank for Information Retrieval.
[167] Yu Weiren, Lin Xuemin, Zhang Wenjie, Chang Lijun, Pei Jian (2013), "More
is Simpler: Effectively and Efficiently Assessing Node-Pair Similarities
Based on Hyperlinks". Proceedings of the VLDB , vol. 7, no. 1, pp. 13–24.
[168] Zhai Chengxiang, Lafferty John (2001), "A study of smoothing methods for
language models applied to Ad Hoc information retrieval". In: Proceedings of
the 24th annual international ACM SIGIR conference on Research and
development in information retrieval - SIGIR ’01, pp. 334–342.
[169] Zhai ChengXiang, Lafferty John D. (2001), "Model-based Feedback In The
Language Modeling Approach To Information Retrieval". Cikm, pp. 403–410.
- 145 -
[170] Zhang Ying, Huang Fei, Vogel Stephan (2005), "Mining translations of OOV
terms from the web through cross-lingual query expansion". In: Proceedings
of the 28th annual international ACM SIGIR conference on Research and
development in information retrieval, ACM Press, pp. 669–670.
[171] Zhou Dong, Truran Mark, Brailsford Tim, Ashman Helen (2008), "A Hybrid
Technique for English-Chinese Cross Language Information Retrieval". ACM
Trans Asian Lang Info Process, vol. 7, no. 2, pp. 1–35.
[172] Zhou Dong, Truran Mark, Brailsford Tim, Wade Vincent, Ashman Helen
(2012), "Translation techniques in cross-language information retrieval".
ACM Computing Surveys, vol. 45, pp. 1–44.
[173] Zukerman Ingrid, Road Blackburn (2003), "Query Expansion and Query
Reduction in Document Retrieval". In: Tools with Artificial Intelligence, 2003
Proceedings 15th IEEE International Conference, pp. 552–559.
- 146 -
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
[1] Giang L.T., Hùng V.T. (2012), "Các phương pháp xếp hạng lại trong trộn kết
quả tìm kiếm". Tạp chí Khoa học và Công nghệ các trường Đại học Kỹ thuật,
vol. 91, pp. 59–64.
[2] Lâm Tùng Giang, Võ Trung Hùng (2013), "Đánh giá thực nghiệm mô hình
truy vấn thông tin đa ngữ". In: Hội nghị quốc gia lần thứ VI Nghiên cứu cơ
bản và ứng dụng Công nghệ thông tin, pp. 103–107.
[3] Lâm Tùng Giang, Võ Trung Hùng (2013), "Ứng dụng lập trình di truyền
trong học xếp hạng". Tạp chí Khoa học và Công nghệ các trường Đại học Kỹ
thuật, vol. 92, pp. 58–63.
[4] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Building
Evaluation Dataset in Vietnamese Information Retrieval". Journal of Science
and Technology Danang University, vol. 12, no. 1, pp. 37–41.
[5] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Experiments
with query translation and re-ranking methods in Vietnamese-English
bilingual information retrieval". In: Proceedings of the Fourth Symposium on
Information and Communication Technology - SoICT ’13, ACM Press, pp.
118–122.
[6] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building
Structured Query in Target Language for Vietnamese – English Cross
Language Information Retrieval Systems". International Journal of
Engineering Research & Technology (IJERT), vol. 4, no. 04, pp. 146–151.
[7] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Improve
Cross Language Information Retrieval with Pseudo-Relevance Feedback". In:
FAIR 2015, pp. 315–320.
[8] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building
proximity models for Cross Language Information Retrieval". Issue on
Information and Communication Technology- University of Danang, vol. 1,
no. 1, pp. 8–12.
[9] Lâm Tùng Giang, Võ Trung Hùng, Huỳnh Công Pháp (2016), "Áp dụng học
máy dựa trên lập trình di truyền trong tìm kiếm Web xuyên ngữ". Tạp chí
Khoa học và Công nghệ, Đại học Đà Nẵng, vol. 1, no. 98, pp. 93–97.

File đính kèm:

luan_an_mot_so_phuong_phap_phuc_vu_xep_hang_cac_trang_web_tr.pdf
English - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
English - Lam Tung Giang - Trich Yeu Luan An.pdf
English - Tom Tat Lam Tung Giang - Thesis.pdf
Vietnamese - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
Vietnamese - Lam Tung Giang - Trich Yeu Luan An.pdf
Vietnamese - Tom Tat Lam Tung Giang - Thesis.pdf