Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán
Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của mạng
Internet và công nghệ Web là sự bùng nổ thông tin số. Số lượng người sử dụng và
lượng thông tin sản sinh ra trên mạng Internet gia tăng rất nhanh và chúng ta có thể
tìm thấy hầu hết thông tin cần thiết khi có nhu cầu. Đặc biệt, lượng thông tin liên
quan đến khoa học, phục vụ học tập, nghiên cứu cũng gia tăng nhanh chóng và
phong phú về lĩnh vực. Vì vậy, việc khai thác hiệu quả các tài liệu nói chung và các
tài liệu khoa học nói riêng trên Internet có ý nghĩa quan trọng trong việc nâng cao
chất lượng học tập và nghiên cứu, góp phần vào sự phát triển khoa học và kinh tế.
Theo số liệu thống kê, trong quá trình học tập và nghiên cứu thì con người đã chi
phí khoảng 90% thời gian cho công tác tìm kiếm, phân tích và tổng hợp các tài liệu
hiện có. Các công cụ tìm kiếm phổ biến hiện nay như Google, Yahoo, Bing chỉ hỗ
trợ mạnh việc tìm kiếm các dữ liệu dưới dạng văn bản và hình ảnh, việc tìm kiếm
các dữ liệu đặc biệt như công thức toán thì các công cụ này hầu như chưa thực hiện
được.
Hiện nay, đã có nhiều công cụ cho phép soạn thảo và quản lý các công thức
toán, nhưng việc tìm kiếm còn gặp nhiều khó khăn do chưa có chuẩn chung về biễn
diễn và lưu trữ. Để tìm kiếm một tài liệu dựa trên công thức toán, chúng ta cần có
một cơ chế thống nhất để mô tả, lưu trữ và tìm kiếm theo ngữ nghĩa tương ứng với
công thức đó. Hiện đã xuất hiện một số công cụ hỗ trợ việc biểu diễn các công thức
toán trên môi trường Web, tuy nhiên các công cụ này chưa xác định được chuẩn mô
hình và cách biểu diễn chung. Do sự đa dạng về cách biểu diễn công thức toán trong
các tài liệu khoa học, dẫn đến khó khăn trong việc diễn giải công thức cần tìm kiếm
đối với người dùng và so sánh sự tương đồng giữa chúng.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CAO XUÂN TUẤN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017 BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CAO XUÂN TUẤN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN Chuyên ngành : Hệ thống Thông tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS Võ Trung Hùng 2. TS Nguyễn Mạnh Hùng Hà Nội – 2017 i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tác giả Luận án ii LỜI CẢM ƠN Để hoàn thành được luận án này, đầu tiên, nghiên cứu sinh xin chân thành cảm ơn sự hướng dẫn khoa học và tận tình giúp đỡ của PGS.TS. Võ Trung Hùng và TS. Nguyễn Mạnh Hùng. Nghiên cứu sinh trân trọng cảm ơn Ban Giám đốc Học viện Công nghệ Bưu chính Viễn thông, Hội đồng tiến sĩ, Khoa Quốc tế và Đào tạo sau đại học đã tạo điều kiện thuận lợi cho nghiên cứu sinh thực hiện và hoàn thành chương trình nghiên cứu. Xin chân thành cảm ơn Quý thầy, cô đã đọc và góp ý kiến cho luận án. Nghiên cứu sinh chân thành cảm ơn Cơ quan Bộ Giáo dục và Đào tạo đã tạo điều kiện công tác thuận lợi để nghiên cứu sinh tham gia và hoàn thành khóa học này. Cuối cùng, nghiên cứu sinh bày tỏ lòng biết ơn đến gia đình, người thân, những người bạn đã luôn bên cạnh, động viên và ủng hộ nghiên cứu sinh trong suốt thời gian qua. Nghiên cứu sinh Cao Xuân Tuấn iii MỤC LỤC LỜI CẢM ƠN ......................................................................................................... ii DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ vi DANH MỤC HÌNH VẼ ........................................................................................ vii DANH MỤC BẢNG .............................................................................................. ix MỞ ĐẦU ........................................................................................................... 1 CHƯƠNG 1. TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN VÀ CÔNG THỨC TOÁN . 8 1.1. Tìm kiếm văn bản ....................................................................................... 8 1.1.1. Khái niệm văn bản ................................................................................ 8 1.1.2. Hệ thống tìm kiếm văn bản ................................................................... 9 1.2. Tìm kiếm văn bản chứa công thức toán ..................................................... 12 1.2.1. Đặc thù của tìm kiếm văn bản chứa công thức toán ............................ 12 1.2.2. Các công cụ soạn thảo văn bản chứa công thức toán ......................... 13 1.2.3. Biểu diễn văn bản chứa công thức toán .............................................. 17 1.2.4. Lưu trữ văn bản chứa công thức toán ................................................. 19 1.2.5. Tìm kiếm công thức toán với hệ thống MathWebSearch ............................ 23 1.3. Hướng tiếp cận của luận án ....................................................................... 25 1.4. Kết luận Chương 1 .................................................................................... 29 CHƯƠNG 2. BIỂU DIỄN VÀ LƯU TRỮ CÔNG THỨC TOÁN .......................... 31 2.1. Mô hình biểu diễn và tìm kiếm công thức toán trong văn bản ................... 31 2.2. Biểu diễn và lưu trữ công thức toán với MathML ..................................... 34 2.3. Soạn thảo và hiển thị công thức toán với Amaya ....................................... 38 iv 2.4. Sao chép công thức toán trong Amaya ...................................................... 40 2.5. Chuyển đổi công thức MathML với các định dạng khác............................ 44 2.6. Kết luận Chương 2 .................................................................................... 46 CHƯƠNG 3. TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN .............. 48 3.1. Bài toán tìm kiếm tài liệu .......................................................................... 48 3.2. Tìm kiếm tài liệu dựa trên công thức toán ................................................. 50 3.2.1. Mô hình đề xuất .................................................................................. 50 3.2.2. Mô-đun lập chỉ mục văn bản .............................................................. 51 3.2.3. Mô-đun tìm kiếm và hiển thị kết quả ................................................... 54 3.3. Tìm kiếm tài liệu dựa trên Semantic Web .................................................. 61 3.3.1. Mô tả ứng dụng Semantic Web toán học ............................................. 62 3.3.2. Mô hình đề xuất .................................................................................. 63 3.4. Kết luận Chương 3 .................................................................................... 67 CHƯƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ ...................................................... 68 4.1. Chức năng soạn thảo và lưu trữ công thức toán ......................................... 68 4.2. Tìm kiếm trực tiếp công thức toán ............................................................ 70 4.3. Tìm kiếm trên Ontology ............................................................................ 72 4.4. Tìm kiếm văn bản dựa trên công thức toán ............................................... 74 4.4.1. Phát triển hệ thống thử nghiệm........................................................... 74 4.4.2. Mô tả chức năng hệ thống .................................................................. 74 4.4.3. Môi trường cài đặt hệ thống ............................................................... 75 4.4.4. Chuẩn bị dữ liệu ................................................................................. 76 4.5. Đánh giá kết quả ................................................................................. 81 v 4.5.1. Phương pháp đánh giá ....................................................................... 81 4.5.2. Kết quả thử nghiệm và đánh giá kết quả ............................................. 82 4.6. Kết luận Chương 4 .................................................................................... 86 KẾT LUẬN ......................................................................................................... 87 DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ....................................................... 90 TÀI LIỆU THAM KHẢO ..................................................................................... 91 vi DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Nghĩa Tiếng Anh Nghĩa Tiếng Việt CSS Cascading Style Sheets Tập tin định dạng theo tầng HTML HyperTeXt Markup Language Ngôn ngữ đánh dấu siêu văn bản MathML Mathematical Markup Language Ngôn ngữ đánh dấu toán học OLE Object Linking and Embedding Liên kết và nhúng đối tượng SVG Scalable Vector Graphics Ngôn ngữ đánh dấu miêu tả các hình ảnh đồ họa véc tơ hai chiều W3C The World Wide Web Consortium Tiêu chuẩn thiết kế Web WYSIWYG What You See Is What You Get Giao diện tương tác tức thời XHTML Extensible HyperTeXt Markup Language Ngôn ngữ đánh dấu siêu văn bản mở rộng XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng URI Uniform Resource Identifier Định danh tài nguyên vii DANH MỤC HÌNH VẼ Hình 1.1. Kiến trúc tổng quan hệ thống lưu trữ và tìm kiếm văn bản ................. 10 Hình 1.2. Nhập công thức bằng bảng chọn ........................................................ 13 Hình 1.3. Hiển thị công thức trên màn hình soạn thảo ....................................... 14 Hình 1.4. Cửa sổ soạn thảo trên TeXworks ........................................................ 14 Hình 1.5. Cửa sổ soạn thảo Microsoft Equation................................................. 15 Hình 1.6. Giao diện phần mềm Mathtype .......................................................... 16 Hình 1.7. Công cụ MyEqText soạn thảo trực tiếp trong cửa sổ Microsoft Word. 16 Hình 1.8. Cấu trúc của hệ thống ( MWS – 0.4) .................................................. 24 Hình 1.9. Kiến trúc hệ thống theo giải pháp 2.................................................... 26 Hình 1.10. Kiến trúc hệ thống theo giải pháp 3 .................................................. 29 Hình 2.1. Mô hình biểu diễn công thức toán trong văn bản truyền thống ........... 31 Hình 2.2. Mô hình biểu diễn và lưu trữ công thức toán trong văn bản đề xuất ... 32 Hình 2.3. Minh họa cách trình bày công thức .................................................... 37 Hình 2.4. Cấu trúc thành phần của mã nguồn mở Amaya .................................. 39 Hình 2.5. Sơ đồ quá trình chuyển đổi dữ liệu trong ClipBoard .......................... 40 Hình 2.6. Chương trình thường trú Math Clipboard Converted.......................... 41 Hình 2.7. Thuật toán sao chép công thức qua ClipBoard ................................... 43 Hình 2.8. Mô hình chuyển đổi công thức từ MathML sang TeX ........................ 44 Hình 2.9. Biểu diễn dạng cây của công thức MathML ....................................... 45 Hình 2.10. Biểu diễn dưới dạng cây của đối tượng TeX ..................................... 45 Hình 3.1. Mô hình hệ thống tìm kiếm thông tin ................................................ 49 viii Hình 3.2. Mô hình tổng quát của quá trình tạo chỉ mục và tìm kiếm .................. 50 Hình 3.3. Mô hình quá trình tạo chỉ mục ........................................................... 52 Hình 3.4. Mô hình quá trình tìm kiếm ............................................................... 55 Hình 3.5. Mô hình hóa hệ thống Semantic Web toán học................................... 63 Hình 4.1. Biểu diễn công thức theo dạng thẻ (tags) ........................................... 69 Hình 4.2. Biểu diễn công thức theo dạng hình cây ............................................. 69 Hình 4.3. Ví dụ về tìm kiếm ký tự a .................................................................. 70 Hình 4.4. Ví dụ tìm kiếm ký hiệu căn bậc 2 ....................................................... 70 Hình 4.5. Tìm và thay thế công thức .................................................................. 71 Hình 4.6. Mô hình xây dựng và khai thác kho dữ liệu ....................................... 72 Hình 4.7. Giao diện tìm kiếm tài liệu với câu truy vấn là văn bản ...................... 73 Hình 4.8. Giao diện tìm kiếm có câu truy cấn là công thức toán ........................ 73 Hình 4.9. Tổ chức dữ liệu trên máy chủ lưu trữ ................................................. 75 Hình 4.10. Chi tiết cơ sở dữ liệu lưu trữ thông tin tài liệu .................................. 79 Hình 4.11. Cửa số tìm kiếm với câu truy vấn là công thức toán ......................... 80 Hình 4.12. Cửa tìm kiếm với câu truy vấn là nội dung văn bản ......................... 80 Hình 4.13. Mối tương quan giữa độ triệu hồi và độ chính xác theo kịch bản 1 ... 84 Hình 4.14. Mối tương quan giữa độ triệu hồi và độ chính xác theo kịch bản 2 ... 85 ix DANH MỤC BẢNG Bảng 1.1. So sánh các công cụ soạn thảo công thức toán ................................... 17 Bảng 2.1 Một số thẻ đặc trưng của MathML ..................................................... 35 Bảng 2.2. So sánh cách biểu diễn hai ngôn ngữ đánh dấu .................................. 41 Bảng 4.1. Mô tả tài liệu thực nghiệm ................................................................. 76 Bảng 4.2. Bảng phân loại lĩnh vực của tài liệu ................................................... 76 Bảng 4.3. Bảng phân loại định dạng tài liệu ...................................................... 77 Bảng 4.4. Kết quả phân tích tài liệu ................................................................... 78 Bảng 4.5. Thống kê truy vấn ............................................................................. 82 Bảng 4.6. Thống kê độ triệu hồi và độ chính xác theo kịch bản 1 ...................... 83 Bảng 4.7. Thống kê độ triệu hồi và độ chính xác theo kịch bản 2 ...................... 84 Bảng 4.8. Kết quả trung bình của độ triệu hồi và độ chính xác .......................... 85 1 MỞ ĐẦU 1. Lý do chọn đề tài Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của mạng Internet và công nghệ Web là sự bùng nổ thông tin số. Số lượng người sử dụng và lượng thông tin sản sinh ra trên mạng Internet gia tăng rất nhanh và chúng ta có thể tìm thấy hầu hết thông tin cần thiết khi có nhu cầu. Đặc biệt, lượng thông tin liên quan đến khoa học, phục vụ học tập, nghiên cứu cũng gia tăng nhanh chóng và phong phú về lĩnh vực. Vì vậy, việc khai thác hiệu quả các tài liệu nói chung và các tài liệu khoa học nói riêng trên Internet có ý nghĩa quan trọng trong việc nâng cao chất lượng học tập và nghiên cứu, góp phần vào sự phát triển khoa học và kinh tế. Theo số liệu thống kê, trong quá trình học tập và nghiên cứu thì con người đã chi phí khoảng 90% thời gian cho công tác tìm kiếm, phân tích và tổng hợp các tài liệu hiện có. Các công cụ tìm kiếm phổ biến hiện nay như Google, Yahoo, Bing chỉ hỗ trợ mạnh việc tìm kiếm các dữ liệu dưới dạng văn bản và hình ảnh, việc tìm kiếm các dữ liệu đặc biệt như công thức toán thì các công cụ này hầu như chưa thực hiện được. Hiện nay, đã có nhiều công cụ cho phép soạn thảo và quản lý các công thức toán, nhưng việc tìm kiếm còn gặp nhiều khó khăn do chưa có chuẩn chung về biễn diễn và lưu trữ. Để tìm kiếm một tài liệu dựa trên công thức toán, chúng ta cần có một cơ chế thống nhất để mô tả, lưu trữ và tìm kiếm theo ngữ nghĩa tương ứng với công thức đó. Hiện đã xuất hiện một số công cụ hỗ trợ việc biểu diễn các công thức toán trên môi trường Web, tuy nhiên các công cụ này chưa xác định được chuẩn mô hình và cách biểu diễn chung. Do sự đa dạng về cách biểu diễn công thức toán trong các tài liệu khoa học, dẫn đến khó khăn trong việc diễn giải công thức cần tìm kiếm đối với người dùng và so sánh sự tương đồng giữa chúng. Vì vậy, luận án này tập trung nghiên cứu đề xuất các mô hình phù hợp, phát triển các bộ công cụ để soạn thảo công thức, soạn thảo chú thích và tìm kiếm công thức toán và tìm kiếm tài liệu dựa trên công thức toán cũng như các giải pháp lưu 2 trữ, quản lý và khai thác dữ liệu các công thức toán trên các tài liệu, đặc biệt là trên môi trường Web. 2. Tổng quan tình hình nghiên cứu Các nghiên cứu liên quan đến các tài liệu chứa công thức toán tập trung vào 3 hướng chính: 1) Các tiêu chuẩn để lưu trữ công thức toán trong các văn bản điện tử; 2) Soạn thảo và hiển thị các công thức toán trên các văn bản; 3) Tìm kiếm công thức toán. Các nghiên cứu trên chủ yếu được thực hiện bởi các nh ... 3 0.3 0.8450 4 0.4 0.8000 5 0.5 0.7833 6 0.6 0.7500 7 0.7 0.6667 8 0.8 0.6333 9 0.9 0.6083 10 1.0 0.5333 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 1.2 P re ci si o n Recall 85 Số liệu Thống kê độ triệu hồi và độ chính xác với câu truy vấn công thức toán ở Bảng 4.7 được biểu diễn qua Biểu đồ Hình 4.14. Hình 4.14. Mối tương quan giữa độ triệu hồi và độ chính xác theo kịch bản 2 4.5.2.2. Đánh giá kết quả Hiện nay, hệ thống tìm kiếm tài liệu chứa công thức toán chưa được xây dựng, nên luận án không thể thực hiện đánh giá với các hệ thống đã có. Do vậy, luận án đã thực hiện đánh giá trên 02 kịch bản như đã trình bày. Kết quả đánh giá thể hiện tại Bảng 4.8 được tính trung bình chung cho các lần truy vấn khác nhau đối với mỗi kịch bản khác nhau. Kết quả cho thấy kịch bản 1 - nhập câu truy vấn dưới dạng nội dung văn bản có độ chính xác thấp hơn nhưng lại có độ triệu hồi cao hơn so với kịch bản 2 - nhập câu truy vấn dưới dạng công thức toán. Kết quả trung bình của độ triệu hồi và độ chính xác được thể hiện trong Bảng 4.8. Bảng 4.8. Kết quả trung bình của độ triệu hồi và độ chính xác Kịch bản Recall Precision (%) Truy vấn theo nội dung 0.72 86.8132 Truy vấn theo công thức 0.62 89.3130 0 0.2 0.4 0.6 0.8 1 1.2 0 0.2 0.4 0.6 0.8 1 1.2 P re ci si o n Recall 86 Mặc dù hai kịch bản đều cho kết quả có độ chính xác cao nhưng lại cho độ triệu hồi thấp. Có nghĩa là còn khá nhiều văn bản có chứa nội dung truy vấn nhưng không xuất hiện trong kết quả tìm kiếm. Đây có thể coi là một điểm hạn chế còn tồn tại của mô hình đề xuất. Hạn chế này có thể xuất phát từ các yếu tố kỹ thuật sau: - Bộ chuyển đổi công thức toán: Có thể bộ chuyển đổi từ công thức truy vấn do người dùng nhập vào thành tập các mục từ khóa tìm kiếm còn một số hạn chế, khiến bộ từ khóa sinh ra không giúp tìm kiếm được triệt để các công thức toán được lưu trong các văn bản. - Thuật toán đối sánh xấp xỉ mẫu: Có thể thuật toán đối sánh xấp xỉ chưa phát hiện được đầy đủ các chuỗi con của tập từ khóa xuất hiện trong chuỗi văn bản tìm kiếm khiến cho hiệu quả phát hiện được công thức toán trong văn bản chưa cao. Để khắc phục được những hạn chế này, luận án sẽ tiếp tục xem xét cải tiến hiệu quả của các bước chuyển đổi công thức toán về dạng đồng bộ và bước đối sánh xâu trong tìm kiếm chuỗi biểu diễn công thức toán trong văn bản. Đây là những hướng mở rộng đầy tiềm năng của luận án trong tương lai. 4.6. Kết luận Chương 4 Nội dung chương này đã trình bày việc thử nghiệm và đánh giá các mô hình đã đề xuất trong chương 2 và 3, bao gồm: mô hình thống nhất cách biểu diễn và lưu trữ công thức toán trong văn bản; phương pháp tìm kiếm văn bản chứa công thức toán dựa trên mô hình thống nhất biểu diễn và lưu trữ. Việc thử nghiệm đã đem lại một số kết quả đáng khích lệ. Kết quả của chương này đã được công bố trong các công trình số [3], số [4] và số [5]. Tuy nhiên, để áp dụng được vào môi trường thực tế, cần nhiều thời gian và công sức hơn nữa để xây dựng dữ liệu đủ lớn và xây dựng được các chức năng chi tiết, phức tạp như nghiệp vụ thực tế. 87 KẾT LUẬN Luận án đã được đề xuất từ nhu cầu thực tế và những hạn chế hiện nay về việc soạn thảo, lưu trữ và khai thác các tài liệu khoa học, đặc biệt là những tài liệu có chứa các công thức toán. Trên cơ sở nghiên cứu tổng quan, luận án đã đề xuất được các vấn đề nghiên cứu liên quan đến việc soạn thảo, lưu trữ, tìm kiếm các tài liệu khoa học trên máy tính. Các nghiên cứu trong luận án liên quan đến nhiều vấn đề như tiêu chuẩn lưu trữ, hệ soạn thảo cho phép nhập và sửa các công thức toán, giải pháp để chuyển đổi tài liệu có chứa công thức giữa các ứng dụng khác nhau, giải pháp để tìm kiếm tài liệu dựa trên công thức toán và xây dựng Semantic Web cho các tài liệu toán học . Luận án cũng đã trình bày các kết quả thử nghiệm nhằm đánh giá các giải pháp đề xuất và các kết quả này cho thấy những giải pháp đề xuất là hợp lý, khả thi và cho kết quả tốt. Những ứng dụng thử nghiệm cho thấy người sử dụng đã được cung cấp các giải pháp, công cụ hiệu quả và thuận lợi hơn nhiều khi soạn thảo, lưu trữ và tìm kiếm tài liệu dựa trên công thức toán. Những đóng góp chính của luận án có thể được tóm tắt trên các điểm chính như sau: 1. Đề xuất được một không gian soạn thảo, lưu trữ thống nhất các công thức toán và dễ dàng chuyển đổi định dạng công thức sang các tiêu chuẩn lưu trữ khác nhau. 2. Đề xuất và thử nghiệm thành công một hệ thống tìm kiếm tài liệu dựa trên công thức toán (văn bản hoặc Web) dựa trên ba thành phần: bộ sưu tập dữ liệu (crawler), lập chỉ mục (index) và tìm kiếm (search). 3. Đề xuất và thử nghiệm thành công một hệ thống tìm kiếm các tài liệu toán học dựa trên Semantic Web. Những kết quả này có ý nghĩa khoa học và thực tiễn rõ ràng, đặc biệt trong lĩnh vực nghiên cứu và ứng dụng cho tiếng Việt. 88 Về mặt khoa học, các nghiên cứu này cho phép mở ra các hướng nghiên cứu mới về tiêu chuẩn lưu trữ, xử lý, khai thác các văn bản trên các hệ thống máy tính và mạng máy tính khác nhau. Đặc biệt, nghiên cứu xử lý các vấn đề phát sinh do các hệ điều hành, phần mềm ứng dụng sử dụng các tiêu chuẩn mã hóa và lưu trữ khác nhau. Ví dụ, để chuyển đổi một tài liệu nói chung hay một tài liệu toán học nói riêng giữa các phần mềm soạn thảo như Microsoft Word, OpenOffice, LaTeX,... Về mặt thực tiễn, luận án đã đề xuất và thử nghiệm thành công các công cụ cho phép soạn thảo, xử lý, tìm kiếm và chuyển đổi các tài liệu toán học; đã triển khai ở mức thử nghiệm một Semantic Web cho các tài liệu toán học và đã xây dựng một hệ thống tìm kiếm tài liệu dựa trên công thức toán (VNMathSearch). Những kết quả bước đầu này là cơ sở quan trọng để có thể tiếp tục thực hiện những nghiên cứu mới trong tương lai. Tuy nhiên, do phạm vị nghiên cứu phải giới hạn do hạn chế về thời gian nên vẫn còn một số vấn đề cần phải được tiếp tục nghiên cứu, thử nghiệm thêm. Trên cơ sở các nghiên cứu đã triển khai và các kết quả đã đạt được trong quá trình thực hiện luận án, luận án đề xuất một số hướng phát triển trong thời gian tới gồm: 1. Tiếp tục nghiên cứu cập nhật các thông tin mới về các chuẩn lưu trữ (vì các tiêu chuẩn luôn thay đổi theo thời gian). Trên cơ sở đó, nghiên cứu chuyển đổi tự động các tài liệu được tạo ra từ các công cụ soạn thảo khác nhau (đặc biệt hiện nay các ứng dụng trên các thiết bị di động đang phát triển rất nhanh). 2. Nghiên cứu phát triển các hệ thống tìm kiếm đa ngữ và xuyên ngữ (ví dụ: tìm một tài liệu hay công thức trên nhiều ngôn ngữ khác nhau hoặc nếu không tìm được trên ngôn ngữ này thì tiếp tục tìm kiếm trên các ngôn ngữ khác). Luận án tuy còn một số hạn chế nhất định nhưng đã cơ bản đáp ứng các mục tiêu nghiên cứu đặt ra. Những nội dung nghiên cứu đã mang lại những kết quả bước đầu, có độ tin cậy cao đối với các giải pháp đề xuất. Quan trọng hơn, những nghiên cứu trong luận án đã chỉ ra được những hướng phát triển mới tiềm năng cho các 89 nghiên cứu mới trong tương lai, đặc biệt là trong xử lý các văn bản tiếng Việt trong môi trường đa ngữ. 90 DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ [1] Tuan Cao Xuan, Hung Vo Trung, “VM-SEMWEB: A Semantic Web For Vietnamese Mathematical Documents”, International Journal of Engineering Research & Technology (IJERT), Vol. 4, Issue 04, May-2015. [2] Tuan Cao Xuan, Hung Vo Trung, “MathML for the Management of Mathematical Formula in Text Editor”, International Journal of Engineering Research & Technology (IJERT), Vol. 4, Issue 05, May-2015. [3] Tuan Cao Xuan, Linh Bui Khanh, Hung Vo Trung, Ha Nguyen Thi Thu, Tinh Dao Thanh, “Indexing Based on Topic Modeling and MATHML for Building Vietnamese Technical Document Retrival Effectively”, 4th International Conference, ICCASA 2015, Vung Tau, Vietnam, November 26-27, 2015 [4] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà, “VNMATHSEARCH – Hệ thống tìm kiếm các tài liệu toán học bằng tiếng Việt”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), pp. 768-775, 2015. [5] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, “Một môi trường thống nhất để biểu diễn, lưu trữ, soạn thảo và xử lý các công thức toán”, Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, pp. 64-69, 01/2017 91 TÀI LIỆU THAM KHẢO Tiếng Việt [1]. Dang Tuan NGUYEN and Ha Quy-Tinh LUONG (2009), "Document Searching System based on Natural Language Query Processing for Vietnam Open Courseware Library," IJCSI International Journal of Computer Science Issues, vol. Vol. 6, no. No. 2, pp. 7-13. [2]. Le T.N., Vo T.H., , Cao X.T., Hoang T.M.L (2010), “Mathis - Hệ thống hỗ trợ tạo chú thích và tìm kiếm tài liệu khoa học,” Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, pp. 15-20. [3]. Thien Huu Nguyen, Vinh Quang Nguyen, and Ngoc Minh Thi Nguyen (2011), "An information extractionsystem for constructing knowledge bases from Vietnamese documents," in In Proceedings of the 28th Student Scientific Research Conference, pp 114-118, School of Information and Communication Technology, HUST, Hanoi, Vietnam Tiếng Anh [4]. Alberto Apostolico, Zvi Galil (2013), Pattern Matching Algorithms, Oxford University Press, ISBN-13: 978-0195113679. [5]. C. Schenk (2016), MiKTeX Manual, MiKTeX Project Report, [6]. Chengxiang Zhai and John Lafferty, A study of smoothing methods for language models applied to Ad Hoc information retrieval, Proc. 24th Annu. Int. ACM SIGIR Conf. Res. Dev. Inf. Retr. - SIGIR ’01, pp. 334– 342, 2001. [7]. D. E. Knuth (1984), Computers and Typesetting, Addison-Wesley, ISBN 0-201-13448-9. 92 [8]. David Carlisle, Patrick Ion, Robert Miner (2010), "Mathematical Markup Language (MathML) Version 2.0," in Second Edition. [9]. David Carlisle, Patrick Ion, Robert Miner (2014), Mathematical Markup Language (MathML) Version 3.0, W3C Recommendation. [10]. G. Nass, GES 2014: Symbolab takes the hassle out of the equation, MindCet Published. [11]. H. T. Thanh (2000), "Micro-typographic extensions to the TEX typesetting system," in TUGBoat, Volume 21, No. 4. [12]. Harmelen, Grigoris Antoniou and Frank Van (2004), "A Semantic Web Primer," in MIT Press. [13]. Djoerd Hiemstra and Vojkan Mihajlovic, A database approach to information retrieval: The remarkable relationship between language models and region models, 1005.4752, pp. 1–16, 2010. [14]. Irène Vatton, Vincent Quint, and al (2008), "Amaya User Manual," in NRIA and W3C Published, https://www.w3.org/Amaya/Distribution/manual.pdf. [15]. Jon M. Kleinberg, Authoritative sources in a hyperlinked environment, Journal of the ACM, vol. 46, no. 5. pp. 604–632, 1999. [16]. K. Foster (2001), "Mathtype 5 with mathML for the WWW," in IEEE Spectrum 38 (12): 64. [17]. K. M. Svore, P. H. Kanani, and N. Khan, How Good is a Span of Terms? Exploiting Proximity to Improve Web Retrieval, Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, 2010, pp. 154–161. [18]. L. Lamport (1994), LaTeX: A document preparation system: User's guide 93 and reference, Addison-Wesley, ISBN 0-201-52983-1. [19]. L. Wood (1998), "Document Object Model Specification," in W3C Recommnedation. [20]. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd, 1 Introduction and Motivation 2 A Ranking for Every Page on the Web, World Wide Web Internet Web Inf. Syst., vol. 54, no. 1999–66, pp. 1–17, 1998. [21]. M. Kohlhase (2006), "OMDoc: An Open Markup Format for Mathematical Documents [version 1.2]," in Springer-Verlag GmbH [22]. Masakazu Suzuki, Fumikazu Tamari, Ryoji Fukuda, Seiichi Uchida, and Toshihiro Kanahori (2003), "Infty- an integrated OCR system for mathematical documents," in In Proceedings of ACM Symposium on Document Engineering 2003, pp 95–104. [23]. Michael Kohlhase, Bogdan A. Matican, and Corneliu (2012), "MathWebSearch 0.5 – Scaling," in Intelligent Computer, Conferences on Intelligent Computer, (Bremen, Germany. [24]. Michael Kohlhase, Bogdan A. Matican, Corneliu-Claudiu Prodescu (2012), MathWebSearch 0.5: Scaling an Open Formula Search Engine, Intelligent Computer Mathematics, Volume 7362 of the series Lecture Notes in Computer Science, pp 342-357. [25]. Michael McCandless, Erik Hatcher, and Otis Gospodnetić . Lucene in Action, Second Edition. Manning publications. July 2010 .ISBN 9781933988177 [26]. R. Dillet (2012), Wolfram Alpha Makes CrunchBase Data Computable Just In Time For Disrupt SF, TechCrunch Published. 94 [27]. R. Miner (2005), "The importance of mathml to mathematics communication", Notices of the AMS, vol. 52(5):532–538. [28]. Ralf Schenkel, Andreas Broschart, Seungwon Hwang, Martin Theobald, and Gerhard Weikum, Efficient Text Proximity Search, String Process. Inf. Retr., pp. 287–299, 2007. [29]. S. E. Robertson, The probability ranking in IR, Journal of Documentation, vol. 33, no. 4. pp. 294–304, 1977. [30]. G. Salton, A. Wong, and C. S. Yang, A vector space model for automatic indexing, Communications of the ACM, vol. 18, no. 11. pp. 613–620, 1975. [31]. Scott Deerwester, George W. Furnas, Thomas K. Landauer, and Richard Harshman, Indexing by Latent Semantic Analysis, J. Am. Soc. Inf. Sci. Sci., 1990. [32]. Sucan, Michael Kohlhase and Ioan (2006), "A Search Engine for Mathematical Formulae," in Proceedings of Artificial Intelligence and Symbolic Computation, AISC’2006. [33]. T. Berners – Lee, J. Hendler, O. Lassila (2001), "The Semantic Web," in Scientific American, vol.248, pp 28 – 37. [34]. T. Berners-Lee (2001), "The Semantic Web," in Published by Scientific American. [35]. T. Kanahori, K. Tabata, W. Cong, F. Tamari and M. Suzuki (2000), "On- Line Recognition of Mathematical Expressions Using Automatic Rewriting Method," in Proc. ICMI, Lecture Notes in Computer Science, Springer-Verlag, p.p 394–401. [36]. Tao Tao and ChengXiang Zhai, An exploration of proximity measures in 95 information retrieval, Proc. 30th Annu. Int. ACM SIGIR Conf. Res. Dev. Inf. retrieval, SIGIR 07, pp. 295–302, 2007. [37]. Toby Segaran, Colin Evans, Jamie Taylor (2009), "Programming The Semantic Web," in O’Reilly – Media. [38]. Vatton, Vincent Quint and Irène (1997), An introduction to Amaya, Journal World Wide Web Journal - Special issue: scripting languages: automating the Web, Volume 2 Issue 2, pp 39-46, O'Reilly & Associates, Inc. Sebastopol, CA, USA. [39]. Z39.59-1998, ANSI/NISO, AAP Math DTD, Standard for Electronic Manuscript Preparation and MarkUp, Washington, DC: Association of American Publishers. [40]. Zanibbi, R., and Blostein, D (2011), "Recognition and retrieval of mathematical expressions," in International Journal on Document Analysis and Recognition (IJDAR), pp. 1–27.
File đính kèm:
- luan_an_nghien_cuu_phuong_phap_tim_kiem_tai_lieu_dua_tren_co.pdf
- 2.Tom tat_Cao Xuan Tuan.pdf
- 3.Trang thong tin LA Cao Xuan Tuan (TV).pdf
- 4. Trang thong tin LA Cao Xuan Tuan (TA).pdf