Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ
Hơn hai mươi năm qua, chúng ta chứng kiến sự phát triển và lớn mạnh vượt
bậc của Internet và World Wide Web. Đến cuối năm 2015, chỉ riêng Google đã
đánh chỉ mục được khoảng 47 tỷ trang web1. Bên cạnh kích thước khổng lồ, sự tăng
trưởng của World Wide Web còn thể hiện ở tính đa dạng của các ngôn ngữ được sử
dụng trong các trang web. Đến thời điểm này, tiếng Anh tiếp tục là ngôn ngữ phổ
biến nhất, được sử dụng tại 54% trong tổng số các website, tiếp theo là tiếng Nga và
tiếng Đức, tương ứng là 6,1% và 5,7%. Riêng tiếng Việt được sử dụng tại khoảng
0,6% tổng số các website2.
Cùng với sự đa dạng về ngôn ngữ, việc tìm kiếm thông tin không còn giới
hạn ở tiếng mẹ đẻ của người dùng mà đã được mở rộng ra các ngôn ngữ khác. Bài
toán tìm kiếm web xuyên ngữ (Cross-Language Web Search) đặt ra nhiệm vụ từ
nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (gọi là ngôn ngữ
nguồn), thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn
ngữ khác (gọi là ngôn ngữ đích). Việc giải quyết bài toán có ý nghĩa thực tế, cho
phép người sử dụng truy cập các nguồn tài nguyên thông tin ở các ngôn ngữ khác
nhau [134]
Tóm tắt nội dung tài liệu: Luận án Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Lâm Tùng Giang MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ Chuyên ngành : Khoa học máy tính Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG - 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Lâm Tùng Giang MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ Chuyên ngành : Khoa học máy tính Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS.TS. Võ Trung Hùng 2. PGS.TS. Huỳnh Công Pháp ĐÀ NẴNG - 2017 - i - LỜI CAM ĐOAN Tôi xin cam đoan: Luận án này là công trình nghiên cứu thực sự của cá nhân tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng dẫn khoa học của PGS.TS. Võ Trung Hùng và PGS.TS. Huỳnh Công Pháp. Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này là trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác. Tôi xin chịu trách nhiệm về những lời cam đoan của tôi. Tác giả, Lâm Tùng Giang - ii - MỤC LỤC MỞ ĐẦU .................................................................................................................... 1 1. ĐẶT VẤN ĐỀ ....................................................................................................... 1 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................... 5 2.1. Mục tiêu ............................................................................................................ 5 2.2. Đối tượng .......................................................................................................... 5 2.3. Phạm vi ............................................................................................................. 5 3. ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................... 6 4. BỐ CỤC CỦA LUẬN ÁN ..................................................................................... 8 CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU .................................... 9 1.1. TRUY VẤN THÔNG TIN .................................................................................. 9 1.1.1. Khái niệm ....................................................................................................... 9 1.1.2. Định nghĩa hình thức .................................................................................... 10 1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin .................................................. 10 1.1.4. Các mô hình truy vấn thông tin truyền thống ................................................ 12 1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản ..................................... 16 1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN ....................................... 19 1.2.1. Khái niệm ..................................................................................................... 19 1.2.2. Các độ đo ..................................................................................................... 20 1.2.3. Môi trường thực nghiệm ............................................................................... 22 1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ ........................................................ 24 1.3.1. Khái niệm ..................................................................................................... 24 1.3.2. Các hướng tiếp cận ....................................................................................... 24 1.3.3. Các kỹ thuật dịch tự động ............................................................................. 25 1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI ................................................................. 25 - iii - 1.4.1. Xếp hạng và xếp hạng lại ............................................................................. 25 1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn ......................................... 26 1.4.3. Học xếp hạng ............................................................................................... 28 1.4.4. Khai thác thông tin người sử dụng ................................................................ 30 1.5. XẾP HẠNG TRANG WEB .............................................................................. 31 1.5.1. Đặc thù của tìm kiếm web ............................................................................ 31 1.5.2. Các phương pháp xếp hạng trang Web ......................................................... 32 1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ ........................................... 36 1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU .............................................. 37 1.6.1. Hạn chế ........................................................................................................ 37 1.6.2. Đề xuất nghiên cứu ....................................................................................... 37 1.7. TIỂU KẾT CHƯƠNG....................................................................................... 41 CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ ................ 42 2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG......................................................... 42 2.1.1. Sử dụng máy dịch ......................................................................................... 42 2.1.2. Sử dụng kho ngữ liệu ................................................................................... 43 2.1.3. Sử dụng từ điển ............................................................................................ 44 2.1.4. Sử dụng ngôn ngữ trung gian ........................................................................ 44 2.1.5. Sử dụng không gian ngữ nghĩa ..................................................................... 45 2.1.6. Đánh giá chung ............................................................................................ 45 2.2. KHỬ NHẬP NHẰNG....................................................................................... 46 2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY ............................................................ 47 2.3.1. Xây dựng dữ liệu từ điển .............................................................................. 48 2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ ....................... 49 2.3.3. Các biến thể của công thức MI ..................................................................... 49 2.3.4. Thuật toán chọn bản dịch tốt nhất ................................................................. 51 - iv - 2.3.5. Xây dựng câu truy vấn.................................................................................. 58 2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI ............................................. 62 2.4.1. Môi trường thực nghiệm ............................................................................... 62 2.4.2. Kết quả thực nghiệm .................................................................................... 64 2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC ......... 65 2.5.1. Môi trường thực nghiệm ............................................................................... 65 2.5.2. Cấu hình thực nghiệm .................................................................................. 65 2.5.3. Kết quả thực nghiệm .................................................................................... 66 2.6. TIỂU KẾT CHƯƠNG....................................................................................... 67 CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN .................................................... 69 3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN ..................................... 69 3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn ................................................... 69 3.1.2. Mở rộng câu truy vấn ................................................................................... 70 3.1.3. Thu hẹp câu truy vấn .................................................................................... 71 3.1.4. Xử lý thuật ngữ không có trong từ điển ........................................................ 72 3.2. PHÂN ĐOẠN CÂU TRUY VẤN ..................................................................... 73 3.2.1. Sử dụng công cụ vnTagger ........................................................................... 73 3.2.2. Thuật toán WLQS ........................................................................................ 73 3.2.3. Kết hợp WLQS và công cụ vnTagger ........................................................... 75 3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH ................................. 78 3.3.1. Phản hồi ẩn ................................................................................................... 79 3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ .......................................................... 81 3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích.................................... 82 3.4. THỰC NGHIỆM .............................................................................................. 86 3.4.1. Cấu hình thực nghiệm .................................................................................. 86 3.4.2. Kết quả ......................................................................................................... 87 - v - 3.5. TIỂU KẾT CHƯƠNG....................................................................................... 89 CHƯƠNG 4: XẾP HẠNG LẠI ................................................................................. 91 4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN .............................. 91 4.1.1. Mô hình ứng dụng lập trình di truyền ........................................................... 93 4.1.2. Xây dựng công cụ và kết quả thực nghiệm ................................................... 94 4.1.3. Đánh giá ....................................................................................................... 96 4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN ............................................................ 97 4.2.1. Mô hình CL-Büttcher ................................................................................... 98 4.2.2. Mô hình xếp hạng CL-Rasolofo ................................................................... 99 4.2.3. Mô hình xếp hạng CL-HighDensity ............................................................ 100 4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ ............................ 101 4.3. HỌC XẾP HẠNG TRANG WEB ................................................................... 103 4.3.1. Các mô hình học xếp hạng .......................................................................... 103 4.3.2. Môi trường thực nghiệm ............................................................................. 106 4.3.3. Cấu hình thực nghiệm ................................................................................ 109 4.3.4. Kết quả thực nghiệm .................................................................................. 109 4.4. TIỂU KẾT CHƯƠNG..................................................................................... 110 CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH ........... 111 5.1. THIẾT KẾ HỆ THỐNG .................................................................................. 111 5.1.1. Các thành phần hệ thống & sơ đồ thuật toán ............................................... 111 5.1.2. Dữ liệu từ điển ........................................................................................... 114 5.1.3. Dữ liệu đánh chỉ mục ................................................................................. 114 5.2. PHƯƠNG PHÁP THỰC NGHIỆM ................................................................ 115 5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN ....................... 116 5.3.1. Cấu hình thực nghiệm ................................................................................ 116 5.3.2. Kết quả thực nghiệm .................................................................................. 117 - vi - 5.3.3. Đánh giá ..................................................................................................... 119 5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN ....................................... 119 5.4.1. Cấu hình thực nghiệm ................................................................................ 119 5.4.2. Kết quả thực nghiệm .................................................................................. 120 5.4.3. Đánh giá ..................................................................................................... 121 5.5. THỰC NGHIỆM XẾP HẠNG LẠI................................................................. 121 5.5.1. Cấu hình thực nghiệm ................................................................................ 122 5.5.2. Kết quả thực nghiệm .................................................................................. 123 5.5.3. Đánh giá ..................................................................................................... 125 5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT .................................. 125 5.7. TIỂU KẾT CHƯƠNG..................................................................................... 128 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................. 129 1. KẾT LUẬN ....................................................................................................... 129 1.1. Tóm tắt nội dung luận án ............................................................................... 129 1.2. Các kết quả đạt được ..................................................................................... 129 2. 