Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán

Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của mạng

Internet và công nghệ Web là sự bùng nổ thông tin số. Số lượng người sử dụng và

lượng thông tin sản sinh ra trên mạng Internet gia tăng rất nhanh và chúng ta có thể

tìm thấy hầu hết thông tin cần thiết khi có nhu cầu. Đặc biệt, lượng thông tin liên

quan đến khoa học, phục vụ học tập, nghiên cứu cũng gia tăng nhanh chóng và

phong phú về lĩnh vực. Vì vậy, việc khai thác hiệu quả các tài liệu nói chung và các

tài liệu khoa học nói riêng trên Internet có ý nghĩa quan trọng trong việc nâng cao

chất lượng học tập và nghiên cứu, góp phần vào sự phát triển khoa học và kinh tế.

Theo số liệu thống kê, trong quá trình học tập và nghiên cứu thì con người đã chi

phí khoảng 90% thời gian cho công tác tìm kiếm, phân tích và tổng hợp các tài liệu

hiện có. Các công cụ tìm kiếm phổ biến hiện nay như Google, Yahoo, Bing chỉ hỗ

trợ mạnh việc tìm kiếm các dữ liệu dưới dạng văn bản và hình ảnh, việc tìm kiếm

các dữ liệu đặc biệt như công thức toán thì các công cụ này hầu như chưa thực hiện

được.

Hiện nay, đã có nhiều công cụ cho phép soạn thảo và quản lý các công thức

toán, nhưng việc tìm kiếm còn gặp nhiều khó khăn do chưa có chuẩn chung về biễn

diễn và lưu trữ. Để tìm kiếm một tài liệu dựa trên công thức toán, chúng ta cần có

một cơ chế thống nhất để mô tả, lưu trữ và tìm kiếm theo ngữ nghĩa tương ứng với

công thức đó. Hiện đã xuất hiện một số công cụ hỗ trợ việc biểu diễn các công thức

toán trên môi trường Web, tuy nhiên các công cụ này chưa xác định được chuẩn mô

hình và cách biểu diễn chung. Do sự đa dạng về cách biểu diễn công thức toán trong

các tài liệu khoa học, dẫn đến khó khăn trong việc diễn giải công thức cần tìm kiếm

đối với người dùng và so sánh sự tương đồng giữa chúng.

pdf 106 trang dienloan 5580
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán
BỘ THÔNG TIN VÀ TRUYỀN THÔNG 
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG 
CAO XUÂN TUẤN 
NGHIÊN CỨU PHƯƠNG PHÁP 
TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Hà Nội - 2017 
BỘ THÔNG TIN VÀ TRUYỀN THÔNG 
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG 
CAO XUÂN TUẤN 
NGHIÊN CỨU PHƯƠNG PHÁP 
TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN 
 Chuyên ngành : Hệ thống Thông tin 
 Mã số: 62.48.01.04 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
NGƯỜI HƯỚNG DẪN KHOA HỌC: 
1. PGS.TS Võ Trung Hùng 
2. TS Nguyễn Mạnh Hùng 
Hà Nội – 2017 
i 
LỜI CAM ĐOAN 
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. 
Các số liệu, kết quả nêu trong Luận án là trung thực và chưa từng được ai 
công bố trong bất kỳ công trình nào khác. 
 Tác giả Luận án 
ii 
LỜI CẢM ƠN 
Để hoàn thành được luận án này, đầu tiên, nghiên cứu sinh xin chân thành 
cảm ơn sự hướng dẫn khoa học và tận tình giúp đỡ của PGS.TS. Võ Trung Hùng và 
TS. Nguyễn Mạnh Hùng. Nghiên cứu sinh trân trọng cảm ơn Ban Giám đốc Học 
viện Công nghệ Bưu chính Viễn thông, Hội đồng tiến sĩ, Khoa Quốc tế và Đào tạo 
sau đại học đã tạo điều kiện thuận lợi cho nghiên cứu sinh thực hiện và hoàn thành 
chương trình nghiên cứu. Xin chân thành cảm ơn Quý thầy, cô đã đọc và góp ý kiến 
cho luận án. 
Nghiên cứu sinh chân thành cảm ơn Cơ quan Bộ Giáo dục và Đào tạo đã tạo 
điều kiện công tác thuận lợi để nghiên cứu sinh tham gia và hoàn thành khóa học 
này. 
Cuối cùng, nghiên cứu sinh bày tỏ lòng biết ơn đến gia đình, người thân, 
những người bạn đã luôn bên cạnh, động viên và ủng hộ nghiên cứu sinh trong suốt 
thời gian qua. 
Nghiên cứu sinh 
 Cao Xuân Tuấn
iii 
MỤC LỤC 
LỜI CẢM ƠN ......................................................................................................... ii 
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ vi 
DANH MỤC HÌNH VẼ ........................................................................................ vii 
DANH MỤC BẢNG .............................................................................................. ix 
MỞ ĐẦU ........................................................................................................... 1 
CHƯƠNG 1. TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN VÀ CÔNG THỨC TOÁN . 8 
1.1. Tìm kiếm văn bản ....................................................................................... 8 
1.1.1. Khái niệm văn bản ................................................................................ 8 
1.1.2. Hệ thống tìm kiếm văn bản ................................................................... 9 
1.2. Tìm kiếm văn bản chứa công thức toán ..................................................... 12 
1.2.1. Đặc thù của tìm kiếm văn bản chứa công thức toán ............................ 12 
1.2.2. Các công cụ soạn thảo văn bản chứa công thức toán ......................... 13 
1.2.3. Biểu diễn văn bản chứa công thức toán .............................................. 17 
1.2.4. Lưu trữ văn bản chứa công thức toán ................................................. 19 
1.2.5. Tìm kiếm công thức toán với hệ thống MathWebSearch ............................ 23 
1.3. Hướng tiếp cận của luận án ....................................................................... 25 
1.4. Kết luận Chương 1 .................................................................................... 29 
CHƯƠNG 2. BIỂU DIỄN VÀ LƯU TRỮ CÔNG THỨC TOÁN .......................... 31 
2.1. Mô hình biểu diễn và tìm kiếm công thức toán trong văn bản ................... 31 
2.2. Biểu diễn và lưu trữ công thức toán với MathML ..................................... 34 
2.3. Soạn thảo và hiển thị công thức toán với Amaya ....................................... 38 
iv 
2.4. Sao chép công thức toán trong Amaya ...................................................... 40 
2.5. Chuyển đổi công thức MathML với các định dạng khác............................ 44 
2.6. Kết luận Chương 2 .................................................................................... 46 
CHƯƠNG 3. TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN .............. 48 
3.1. Bài toán tìm kiếm tài liệu .......................................................................... 48 
3.2. Tìm kiếm tài liệu dựa trên công thức toán ................................................. 50 
3.2.1. Mô hình đề xuất .................................................................................. 50 
3.2.2. Mô-đun lập chỉ mục văn bản .............................................................. 51 
3.2.3. Mô-đun tìm kiếm và hiển thị kết quả ................................................... 54 
3.3. Tìm kiếm tài liệu dựa trên Semantic Web .................................................. 61 
3.3.1. Mô tả ứng dụng Semantic Web toán học ............................................. 62 
3.3.2. Mô hình đề xuất .................................................................................. 63 
3.4. Kết luận Chương 3 .................................................................................... 67 
CHƯƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ ...................................................... 68 
4.1. Chức năng soạn thảo và lưu trữ công thức toán ......................................... 68 
4.2. Tìm kiếm trực tiếp công thức toán ............................................................ 70 
4.3. Tìm kiếm trên Ontology ............................................................................ 72 
4.4. Tìm kiếm văn bản dựa trên công thức toán ............................................... 74 
4.4.1. Phát triển hệ thống thử nghiệm........................................................... 74 
4.4.2. Mô tả chức năng hệ thống .................................................................. 74 
4.4.3. Môi trường cài đặt hệ thống ............................................................... 75 
4.4.4. Chuẩn bị dữ liệu ................................................................................. 76 
4.5. Đánh giá kết quả ................................................................................. 81 
v 
4.5.1. Phương pháp đánh giá ....................................................................... 81 
4.5.2. Kết quả thử nghiệm và đánh giá kết quả ............................................. 82 
4.6. Kết luận Chương 4 .................................................................................... 86 
KẾT LUẬN ......................................................................................................... 87 
DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ....................................................... 90 
TÀI LIỆU THAM KHẢO ..................................................................................... 91 
vi 
DANH MỤC CÁC TỪ VIẾT TẮT 
Từ viết tắt Nghĩa Tiếng Anh Nghĩa Tiếng Việt 
CSS Cascading Style Sheets Tập tin định dạng theo tầng 
HTML HyperTeXt Markup Language Ngôn ngữ đánh dấu siêu văn 
bản 
MathML Mathematical Markup Language Ngôn ngữ đánh dấu toán học 
OLE Object Linking and Embedding Liên kết và nhúng đối tượng 
SVG Scalable Vector Graphics Ngôn ngữ đánh dấu miêu tả các 
hình ảnh đồ họa véc tơ hai 
chiều 
W3C The World Wide Web Consortium Tiêu chuẩn thiết kế Web 
WYSIWYG What You See Is What You Get Giao diện tương tác tức thời 
XHTML Extensible HyperTeXt Markup 
Language 
Ngôn ngữ đánh dấu siêu văn 
bản mở rộng 
XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng 
URI Uniform Resource Identifier Định danh tài nguyên 
vii 
DANH MỤC HÌNH VẼ 
Hình 1.1. Kiến trúc tổng quan hệ thống lưu trữ và tìm kiếm văn bản ................. 10 
Hình 1.2. Nhập công thức bằng bảng chọn ........................................................ 13 
Hình 1.3. Hiển thị công thức trên màn hình soạn thảo ....................................... 14 
Hình 1.4. Cửa sổ soạn thảo trên TeXworks ........................................................ 14 
Hình 1.5. Cửa sổ soạn thảo Microsoft Equation................................................. 15 
Hình 1.6. Giao diện phần mềm Mathtype .......................................................... 16 
Hình 1.7. Công cụ MyEqText soạn thảo trực tiếp trong cửa sổ Microsoft Word. 16 
Hình 1.8. Cấu trúc của hệ thống ( MWS – 0.4) .................................................. 24 
Hình 1.9. Kiến trúc hệ thống theo giải pháp 2.................................................... 26 
Hình 1.10. Kiến trúc hệ thống theo giải pháp 3 .................................................. 29 
Hình 2.1. Mô hình biểu diễn công thức toán trong văn bản truyền thống ........... 31 
Hình 2.2. Mô hình biểu diễn và lưu trữ công thức toán trong văn bản đề xuất ... 32 
Hình 2.3. Minh họa cách trình bày công thức .................................................... 37 
Hình 2.4. Cấu trúc thành phần của mã nguồn mở Amaya .................................. 39 
Hình 2.5. Sơ đồ quá trình chuyển đổi dữ liệu trong ClipBoard .......................... 40 
Hình 2.6. Chương trình thường trú Math Clipboard Converted.......................... 41 
Hình 2.7. Thuật toán sao chép công thức qua ClipBoard ................................... 43 
Hình 2.8. Mô hình chuyển đổi công thức từ MathML sang TeX ........................ 44 
Hình 2.9. Biểu diễn dạng cây của công thức MathML ....................................... 45 
Hình 2.10. Biểu diễn dưới dạng cây của đối tượng TeX ..................................... 45 
Hình 3.1. Mô hình hệ thống tìm kiếm thông tin ................................................ 49 
viii 
Hình 3.2. Mô hình tổng quát của quá trình tạo chỉ mục và tìm kiếm .................. 50 
Hình 3.3. Mô hình quá trình tạo chỉ mục ........................................................... 52 
Hình 3.4. Mô hình quá trình tìm kiếm ............................................................... 55 
Hình 3.5. Mô hình hóa hệ thống Semantic Web toán học................................... 63 
Hình 4.1. Biểu diễn công thức theo dạng thẻ (tags) ........................................... 69 
Hình 4.2. Biểu diễn công thức theo dạng hình cây ............................................. 69 
Hình 4.3. Ví dụ về tìm kiếm ký tự a .................................................................. 70 
Hình 4.4. Ví dụ tìm kiếm ký hiệu căn bậc 2 ....................................................... 70 
Hình 4.5. Tìm và thay thế công thức .................................................................. 71 
Hình 4.6. Mô hình xây dựng và khai thác kho dữ liệu ....................................... 72 
Hình 4.7. Giao diện tìm kiếm tài liệu với câu truy vấn là văn bản ...................... 73 
Hình 4.8. Giao diện tìm kiếm có câu truy cấn là công thức toán ........................ 73 
Hình 4.9. Tổ chức dữ liệu trên máy chủ lưu trữ ................................................. 75 
Hình 4.10. Chi tiết cơ sở dữ liệu lưu trữ thông tin tài liệu .................................. 79 
Hình 4.11. Cửa số tìm kiếm với câu truy vấn là công thức toán ......................... 80 
Hình 4.12. Cửa tìm kiếm với câu truy vấn là nội dung văn bản ......................... 80 
Hình 4.13. Mối tương quan giữa độ triệu hồi và độ chính xác theo kịch bản 1 ... 84 
Hình 4.14. Mối tương quan giữa độ triệu hồi và độ chính xác theo kịch bản 2 ... 85 
ix 
DANH MỤC BẢNG 
Bảng 1.1. So sánh các công cụ soạn thảo công thức toán ................................... 17 
Bảng 2.1 Một số thẻ đặc trưng của MathML ..................................................... 35 
Bảng 2.2. So sánh cách biểu diễn hai ngôn ngữ đánh dấu .................................. 41 
Bảng 4.1. Mô tả tài liệu thực nghiệm ................................................................. 76 
Bảng 4.2. Bảng phân loại lĩnh vực của tài liệu ................................................... 76 
Bảng 4.3. Bảng phân loại định dạng tài liệu ...................................................... 77 
Bảng 4.4. Kết quả phân tích tài liệu ................................................................... 78 
Bảng 4.5. Thống kê truy vấn ............................................................................. 82 
Bảng 4.6. Thống kê độ triệu hồi và độ chính xác theo kịch bản 1 ...................... 83 
Bảng 4.7. Thống kê độ triệu hồi và độ chính xác theo kịch bản 2 ...................... 84 
Bảng 4.8. Kết quả trung bình của độ triệu hồi và độ chính xác .......................... 85 
1 
MỞ ĐẦU 
1. Lý do chọn đề tài 
Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của mạng 
Internet và công nghệ Web là sự bùng nổ thông tin số. Số lượng người sử dụng và 
lượng thông tin sản sinh ra trên mạng Internet gia tăng rất nhanh và chúng ta có thể 
tìm thấy hầu hết thông tin cần thiết khi có nhu cầu. Đặc biệt, lượng thông tin liên 
quan đến khoa học, phục vụ học tập, nghiên cứu cũng gia tăng nhanh chóng và 
phong phú về lĩnh vực. Vì vậy, việc khai thác hiệu quả các tài liệu nói chung và các 
tài liệu khoa học nói riêng trên Internet có ý nghĩa quan trọng trong việc nâng cao 
chất lượng học tập và nghiên cứu, góp phần vào sự phát triển khoa học và kinh tế. 
Theo số liệu thống kê, trong quá trình học tập và nghiên cứu thì con người đã chi 
phí khoảng 90% thời gian cho công tác tìm kiếm, phân tích và tổng hợp các tài liệu 
hiện có. Các công cụ tìm kiếm phổ biến hiện nay như Google, Yahoo, Bing chỉ hỗ 
trợ mạnh việc tìm kiếm các dữ liệu dưới dạng văn bản và hình ảnh, việc tìm kiếm 
các dữ liệu đặc biệt như công thức toán thì các công cụ này hầu như chưa thực hiện 
được. 
Hiện nay, đã có nhiều công cụ cho phép soạn thảo và quản lý các công thức 
toán, nhưng việc tìm kiếm còn gặp nhiều khó khăn do chưa có chuẩn chung về biễn 
diễn và lưu trữ. Để tìm kiếm một tài liệu dựa trên công thức toán, chúng ta cần có 
một cơ chế thống nhất để mô tả, lưu trữ và tìm kiếm theo ngữ nghĩa tương ứng với 
công thức đó. Hiện đã xuất hiện một số công cụ hỗ trợ việc biểu diễn các công thức 
toán trên môi trường Web, tuy nhiên các công cụ này chưa xác định được chuẩn mô 
hình và cách biểu diễn chung. Do sự đa dạng về cách biểu diễn công thức toán trong 
các tài liệu khoa học, dẫn đến khó khăn trong việc diễn giải công thức cần tìm kiếm 
đối với người dùng và so sánh sự tương đồng giữa chúng. 
Vì vậy, luận án này tập trung nghiên cứu đề xuất các mô hình phù hợp, phát 
triển các bộ công cụ để soạn thảo công thức, soạn thảo chú thích và tìm kiếm công 
thức toán và tìm kiếm tài liệu dựa trên công thức toán cũng như các giải pháp lưu 
2 
trữ, quản lý và khai thác dữ liệu các công thức toán trên các tài liệu, đặc biệt là trên 
môi trường Web. 
2. Tổng quan tình hình nghiên cứu 
Các nghiên cứu liên quan đến các tài liệu chứa công thức toán tập trung vào 3 
hướng chính: 1) Các tiêu chuẩn để lưu trữ công thức toán trong các văn bản điện tử; 
2) Soạn thảo và hiển thị các công thức toán trên các văn bản; 3) Tìm kiếm công thức 
toán. Các nghiên cứu trên chủ yếu được thực hiện bởi các nh ... 
3 0.3 0.8450 
4 0.4 0.8000 
5 0.5 0.7833 
6 0.6 0.7500 
7 0.7 0.6667 
8 0.8 0.6333 
9 0.9 0.6083 
10 1.0 0.5333 
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1 1.2
P
re
ci
si
o
n
Recall 
85 
Số liệu Thống kê độ triệu hồi và độ chính xác với câu truy vấn công thức 
toán ở Bảng 4.7 được biểu diễn qua Biểu đồ Hình 4.14. 
Hình 4.14. Mối tương quan giữa độ triệu hồi và độ chính xác theo kịch bản 2 
4.5.2.2. Đánh giá kết quả 
Hiện nay, hệ thống tìm kiếm tài liệu chứa công thức toán chưa được xây 
dựng, nên luận án không thể thực hiện đánh giá với các hệ thống đã có. Do vậy, 
luận án đã thực hiện đánh giá trên 02 kịch bản như đã trình bày. Kết quả đánh giá 
thể hiện tại Bảng 4.8 được tính trung bình chung cho các lần truy vấn khác nhau đối 
với mỗi kịch bản khác nhau. Kết quả cho thấy kịch bản 1 - nhập câu truy vấn dưới 
dạng nội dung văn bản có độ chính xác thấp hơn nhưng lại có độ triệu hồi cao hơn 
so với kịch bản 2 - nhập câu truy vấn dưới dạng công thức toán. Kết quả trung bình 
của độ triệu hồi và độ chính xác được thể hiện trong Bảng 4.8. 
Bảng 4.8. Kết quả trung bình của độ triệu hồi và độ chính xác 
Kịch bản Recall Precision (%) 
Truy vấn theo nội dung 0.72 86.8132 
Truy vấn theo công thức 0.62 89.3130 
0
0.2
0.4
0.6
0.8
1
1.2
0 0.2 0.4 0.6 0.8 1 1.2
P
re
ci
si
o
n
Recall 
86 
Mặc dù hai kịch bản đều cho kết quả có độ chính xác cao nhưng lại cho độ 
triệu hồi thấp. Có nghĩa là còn khá nhiều văn bản có chứa nội dung truy vấn nhưng 
không xuất hiện trong kết quả tìm kiếm. Đây có thể coi là một điểm hạn chế còn tồn 
tại của mô hình đề xuất. Hạn chế này có thể xuất phát từ các yếu tố kỹ thuật sau: 
- Bộ chuyển đổi công thức toán: Có thể bộ chuyển đổi từ công thức truy vấn 
do người dùng nhập vào thành tập các mục từ khóa tìm kiếm còn một số hạn chế, 
khiến bộ từ khóa sinh ra không giúp tìm kiếm được triệt để các công thức toán được 
lưu trong các văn bản. 
- Thuật toán đối sánh xấp xỉ mẫu: Có thể thuật toán đối sánh xấp xỉ chưa 
phát hiện được đầy đủ các chuỗi con của tập từ khóa xuất hiện trong chuỗi văn bản 
tìm kiếm khiến cho hiệu quả phát hiện được công thức toán trong văn bản chưa cao. 
Để khắc phục được những hạn chế này, luận án sẽ tiếp tục xem xét cải tiến 
hiệu quả của các bước chuyển đổi công thức toán về dạng đồng bộ và bước đối sánh 
xâu trong tìm kiếm chuỗi biểu diễn công thức toán trong văn bản. Đây là những 
hướng mở rộng đầy tiềm năng của luận án trong tương lai. 
4.6. Kết luận Chương 4 
Nội dung chương này đã trình bày việc thử nghiệm và đánh giá các mô hình 
đã đề xuất trong chương 2 và 3, bao gồm: mô hình thống nhất cách biểu diễn và lưu 
trữ công thức toán trong văn bản; phương pháp tìm kiếm văn bản chứa công thức 
toán dựa trên mô hình thống nhất biểu diễn và lưu trữ. 
Việc thử nghiệm đã đem lại một số kết quả đáng khích lệ. Kết quả của 
chương này đã được công bố trong các công trình số [3], số [4] và số [5]. 
Tuy nhiên, để áp dụng được vào môi trường thực tế, cần nhiều thời gian và 
công sức hơn nữa để xây dựng dữ liệu đủ lớn và xây dựng được các chức năng chi 
tiết, phức tạp như nghiệp vụ thực tế. 
87 
KẾT LUẬN 
Luận án đã được đề xuất từ nhu cầu thực tế và những hạn chế hiện nay về 
việc soạn thảo, lưu trữ và khai thác các tài liệu khoa học, đặc biệt là những tài liệu 
có chứa các công thức toán. Trên cơ sở nghiên cứu tổng quan, luận án đã đề xuất 
được các vấn đề nghiên cứu liên quan đến việc soạn thảo, lưu trữ, tìm kiếm các tài 
liệu khoa học trên máy tính. 
Các nghiên cứu trong luận án liên quan đến nhiều vấn đề như tiêu chuẩn lưu 
trữ, hệ soạn thảo cho phép nhập và sửa các công thức toán, giải pháp để chuyển đổi 
tài liệu có chứa công thức giữa các ứng dụng khác nhau, giải pháp để tìm kiếm tài 
liệu dựa trên công thức toán và xây dựng Semantic Web cho các tài liệu toán học . 
Luận án cũng đã trình bày các kết quả thử nghiệm nhằm đánh giá các giải 
pháp đề xuất và các kết quả này cho thấy những giải pháp đề xuất là hợp lý, khả thi 
và cho kết quả tốt. Những ứng dụng thử nghiệm cho thấy người sử dụng đã được 
cung cấp các giải pháp, công cụ hiệu quả và thuận lợi hơn nhiều khi soạn thảo, lưu 
trữ và tìm kiếm tài liệu dựa trên công thức toán. 
Những đóng góp chính của luận án có thể được tóm tắt trên các điểm chính 
như sau: 
1. Đề xuất được một không gian soạn thảo, lưu trữ thống nhất các công thức 
toán và dễ dàng chuyển đổi định dạng công thức sang các tiêu chuẩn lưu trữ khác 
nhau. 
2. Đề xuất và thử nghiệm thành công một hệ thống tìm kiếm tài liệu dựa trên 
công thức toán (văn bản hoặc Web) dựa trên ba thành phần: bộ sưu tập dữ liệu 
(crawler), lập chỉ mục (index) và tìm kiếm (search). 
3. Đề xuất và thử nghiệm thành công một hệ thống tìm kiếm các tài liệu toán 
học dựa trên Semantic Web. 
Những kết quả này có ý nghĩa khoa học và thực tiễn rõ ràng, đặc biệt trong 
lĩnh vực nghiên cứu và ứng dụng cho tiếng Việt. 
88 
Về mặt khoa học, các nghiên cứu này cho phép mở ra các hướng nghiên cứu 
mới về tiêu chuẩn lưu trữ, xử lý, khai thác các văn bản trên các hệ thống máy tính 
và mạng máy tính khác nhau. Đặc biệt, nghiên cứu xử lý các vấn đề phát sinh do 
các hệ điều hành, phần mềm ứng dụng sử dụng các tiêu chuẩn mã hóa và lưu trữ 
khác nhau. Ví dụ, để chuyển đổi một tài liệu nói chung hay một tài liệu toán học nói 
riêng giữa các phần mềm soạn thảo như Microsoft Word, OpenOffice, LaTeX,... 
Về mặt thực tiễn, luận án đã đề xuất và thử nghiệm thành công các công cụ 
cho phép soạn thảo, xử lý, tìm kiếm và chuyển đổi các tài liệu toán học; đã triển 
khai ở mức thử nghiệm một Semantic Web cho các tài liệu toán học và đã xây dựng 
một hệ thống tìm kiếm tài liệu dựa trên công thức toán (VNMathSearch). Những kết 
quả bước đầu này là cơ sở quan trọng để có thể tiếp tục thực hiện những nghiên cứu 
mới trong tương lai. 
Tuy nhiên, do phạm vị nghiên cứu phải giới hạn do hạn chế về thời gian nên 
vẫn còn một số vấn đề cần phải được tiếp tục nghiên cứu, thử nghiệm thêm. Trên cơ 
sở các nghiên cứu đã triển khai và các kết quả đã đạt được trong quá trình thực hiện 
luận án, luận án đề xuất một số hướng phát triển trong thời gian tới gồm: 
1. Tiếp tục nghiên cứu cập nhật các thông tin mới về các chuẩn lưu trữ (vì 
các tiêu chuẩn luôn thay đổi theo thời gian). Trên cơ sở đó, nghiên cứu chuyển đổi 
tự động các tài liệu được tạo ra từ các công cụ soạn thảo khác nhau (đặc biệt hiện 
nay các ứng dụng trên các thiết bị di động đang phát triển rất nhanh). 
2. Nghiên cứu phát triển các hệ thống tìm kiếm đa ngữ và xuyên ngữ (ví dụ: 
tìm một tài liệu hay công thức trên nhiều ngôn ngữ khác nhau hoặc nếu không tìm 
được trên ngôn ngữ này thì tiếp tục tìm kiếm trên các ngôn ngữ khác). 
Luận án tuy còn một số hạn chế nhất định nhưng đã cơ bản đáp ứng các mục 
tiêu nghiên cứu đặt ra. Những nội dung nghiên cứu đã mang lại những kết quả bước 
đầu, có độ tin cậy cao đối với các giải pháp đề xuất. Quan trọng hơn, những nghiên 
cứu trong luận án đã chỉ ra được những hướng phát triển mới tiềm năng cho các 
89 
nghiên cứu mới trong tương lai, đặc biệt là trong xử lý các văn bản tiếng Việt trong 
môi trường đa ngữ. 
90 
DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ 
[1] Tuan Cao Xuan, Hung Vo Trung, “VM-SEMWEB: A Semantic Web For 
Vietnamese Mathematical Documents”, International Journal of Engineering 
Research & Technology (IJERT), Vol. 4, Issue 04, May-2015. 
[2] Tuan Cao Xuan, Hung Vo Trung, “MathML for the Management of 
Mathematical Formula in Text Editor”, International Journal of Engineering 
Research & Technology (IJERT), Vol. 4, Issue 05, May-2015. 
[3] Tuan Cao Xuan, Linh Bui Khanh, Hung Vo Trung, Ha Nguyen Thi Thu, Tinh 
Dao Thanh, “Indexing Based on Topic Modeling and MATHML for Building 
Vietnamese Technical Document Retrival Effectively”, 4th International 
Conference, ICCASA 2015, Vung Tau, Vietnam, November 26-27, 2015 
[4] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà, 
“VNMATHSEARCH – Hệ thống tìm kiếm các tài liệu toán học bằng tiếng Việt”, 
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công 
nghệ thông tin (FAIR), pp. 768-775, 2015. 
[5] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, “Một môi trường 
thống nhất để biểu diễn, lưu trữ, soạn thảo và xử lý các công thức toán”, Tạp chí 
Khoa học và Công nghệ Đại học Đà Nẵng, pp. 64-69, 01/2017 
91 
TÀI LIỆU THAM KHẢO 
 Tiếng Việt 
[1]. Dang Tuan NGUYEN and Ha Quy-Tinh LUONG (2009), "Document 
Searching System based on Natural Language Query Processing for 
Vietnam Open Courseware Library," IJCSI International Journal of 
Computer Science Issues, vol. Vol. 6, no. No. 2, pp. 7-13. 
[2]. Le T.N., Vo T.H., , Cao X.T., Hoang T.M.L (2010), “Mathis - Hệ thống hỗ 
trợ tạo chú thích và tìm kiếm tài liệu khoa học,” Tạp chí Khoa học và 
Công nghệ Đại học Đà Nẵng, pp. 15-20. 
[3]. Thien Huu Nguyen, Vinh Quang Nguyen, and Ngoc Minh Thi Nguyen 
(2011), "An information extractionsystem for constructing knowledge 
bases from Vietnamese documents," in In Proceedings of the 28th Student 
Scientific Research Conference, pp 114-118, School of Information and 
Communication Technology, HUST, Hanoi, Vietnam 
 Tiếng Anh 
[4]. Alberto Apostolico, Zvi Galil (2013), Pattern Matching Algorithms, 
Oxford University Press, ISBN-13: 978-0195113679. 
[5]. C. Schenk (2016), MiKTeX Manual, MiKTeX Project Report, 
[6]. Chengxiang Zhai and John Lafferty, A study of smoothing methods for 
language models applied to Ad Hoc information retrieval, Proc. 24th 
Annu. Int. ACM SIGIR Conf. Res. Dev. Inf. Retr. - SIGIR ’01, pp. 334–
342, 2001. 
[7]. D. E. Knuth (1984), Computers and Typesetting, Addison-Wesley, ISBN 
0-201-13448-9. 
92 
[8]. David Carlisle, Patrick Ion, Robert Miner (2010), "Mathematical Markup 
Language (MathML) Version 2.0," in Second Edition. 
[9]. David Carlisle, Patrick Ion, Robert Miner (2014), Mathematical Markup 
Language (MathML) Version 3.0, W3C Recommendation. 
[10]. G. Nass, GES 2014: Symbolab takes the hassle out of the equation, 
MindCet Published. 
[11]. H. T. Thanh (2000), "Micro-typographic extensions to the TEX 
typesetting system," in TUGBoat, Volume 21, No. 4. 
[12]. Harmelen, Grigoris Antoniou and Frank Van (2004), "A Semantic Web 
Primer," in MIT Press. 
[13]. Djoerd Hiemstra and Vojkan Mihajlovic, A database approach to 
information retrieval: The remarkable relationship between language 
models and region models, 1005.4752, pp. 1–16, 2010. 
[14]. Irène Vatton, Vincent Quint, and al (2008), "Amaya User Manual," in 
NRIA and W3C Published, 
https://www.w3.org/Amaya/Distribution/manual.pdf. 
[15]. Jon M. Kleinberg, Authoritative sources in a hyperlinked environment, 
Journal of the ACM, vol. 46, no. 5. pp. 604–632, 1999. 
[16]. K. Foster (2001), "Mathtype 5 with mathML for the WWW," in IEEE 
Spectrum 38 (12): 64. 
[17]. K. M. Svore, P. H. Kanani, and N. Khan, How Good is a Span of Terms? 
Exploiting Proximity to Improve Web Retrieval, Proceedings of the 33rd 
international ACM SIGIR conference on Research and development in 
information retrieval, 2010, pp. 154–161. 
[18]. L. Lamport (1994), LaTeX: A document preparation system: User's guide 
93 
and reference, Addison-Wesley, ISBN 0-201-52983-1. 
[19]. L. Wood (1998), "Document Object Model Specification," in W3C 
Recommnedation. 
[20]. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd, 1 
Introduction and Motivation 2 A Ranking for Every Page on the Web, 
World Wide Web Internet Web Inf. Syst., vol. 54, no. 1999–66, pp. 1–17, 
1998. 
[21]. M. Kohlhase (2006), "OMDoc: An Open Markup Format for 
Mathematical Documents [version 1.2]," in Springer-Verlag GmbH 
[22]. Masakazu Suzuki, Fumikazu Tamari, Ryoji Fukuda, Seiichi Uchida, and 
Toshihiro Kanahori (2003), "Infty- an integrated OCR system for 
mathematical documents," in In Proceedings of ACM Symposium on 
Document Engineering 2003, pp 95–104. 
[23]. Michael Kohlhase, Bogdan A. Matican, and Corneliu (2012), 
"MathWebSearch 0.5 – Scaling," in Intelligent Computer, Conferences on 
Intelligent Computer, (Bremen, Germany. 
[24]. Michael Kohlhase, Bogdan A. Matican, Corneliu-Claudiu Prodescu 
(2012), MathWebSearch 0.5: Scaling an Open Formula Search Engine, 
Intelligent Computer Mathematics, Volume 7362 of the series Lecture 
Notes in Computer Science, pp 342-357. 
[25]. Michael McCandless, Erik Hatcher, and Otis Gospodnetić . Lucene in 
Action, Second Edition. Manning publications. July 2010 .ISBN 
9781933988177 
[26]. R. Dillet (2012), Wolfram Alpha Makes CrunchBase Data Computable 
Just In Time For Disrupt SF, TechCrunch Published. 
94 
[27]. R. Miner (2005), "The importance of mathml to mathematics 
communication", Notices of the AMS, vol. 52(5):532–538. 
[28]. Ralf Schenkel, Andreas Broschart, Seungwon Hwang, Martin Theobald, 
and Gerhard Weikum, Efficient Text Proximity Search, String Process. 
Inf. Retr., pp. 287–299, 2007. 
[29]. S. E. Robertson, The probability ranking in IR, Journal of 
Documentation, vol. 33, no. 4. pp. 294–304, 1977. 
[30]. G. Salton, A. Wong, and C. S. Yang, A vector space model for automatic 
indexing, Communications of the ACM, vol. 18, no. 11. pp. 613–620, 
1975. 
[31]. Scott Deerwester, George W. Furnas, Thomas K. Landauer, and Richard 
Harshman, Indexing by Latent Semantic Analysis, J. Am. Soc. Inf. Sci. 
Sci., 1990. 
[32]. Sucan, Michael Kohlhase and Ioan (2006), "A Search Engine for 
Mathematical Formulae," in Proceedings of Artificial Intelligence and 
Symbolic Computation, AISC’2006. 
[33]. T. Berners – Lee, J. Hendler, O. Lassila (2001), "The Semantic Web," in 
Scientific American, vol.248, pp 28 – 37. 
[34]. T. Berners-Lee (2001), "The Semantic Web," in Published by Scientific 
American. 
[35]. T. Kanahori, K. Tabata, W. Cong, F. Tamari and M. Suzuki (2000), "On-
Line Recognition of Mathematical Expressions Using Automatic 
Rewriting Method," in Proc. ICMI, Lecture Notes in Computer Science, 
Springer-Verlag, p.p 394–401. 
[36]. Tao Tao and ChengXiang Zhai, An exploration of proximity measures in 
95 
information retrieval, Proc. 30th Annu. Int. ACM SIGIR Conf. Res. Dev. 
Inf. retrieval, SIGIR 07, pp. 295–302, 2007. 
[37]. Toby Segaran, Colin Evans, Jamie Taylor (2009), "Programming The 
Semantic Web," in O’Reilly – Media. 
[38]. Vatton, Vincent Quint and Irène (1997), An introduction to Amaya, 
Journal World Wide Web Journal - Special issue: scripting languages: 
automating the Web, Volume 2 Issue 2, pp 39-46, O'Reilly & Associates, 
Inc. Sebastopol, CA, USA. 
[39]. Z39.59-1998, ANSI/NISO, AAP Math DTD, Standard for Electronic 
Manuscript Preparation and MarkUp, Washington, DC: Association of 
American Publishers. 
[40]. Zanibbi, R., and Blostein, D (2011), "Recognition and retrieval of 
mathematical expressions," in International Journal on Document 
Analysis and Recognition (IJDAR), pp. 1–27. 

File đính kèm:

  • pdfluan_an_nghien_cuu_phuong_phap_tim_kiem_tai_lieu_dua_tren_co.pdf
  • pdf2.Tom tat_Cao Xuan Tuan.pdf
  • pdf3.Trang thong tin LA Cao Xuan Tuan (TV).pdf
  • pdf4. Trang thong tin LA Cao Xuan Tuan (TA).pdf