Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào
Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language
Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh
vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN,
ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong
muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải
am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con
người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học,
của Khoa học Máy tính.
Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong
những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các
ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân
dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD)
theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào.
Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT)
nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng,
hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt
của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực
tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ
mọi hình thức, từ thương mại đến chính trị, quốc phòng. Đặc biệt số lượng văn bản
hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác
nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng. Nếu như trước đây,
VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì
ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ
liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự
gia tăng các VBHC
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VILAVONG SOUKSAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐÀ NẴNG, NĂM 2017 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VILAVONG SOUKSAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học : PGS. TS. PHAN HUY KHÁNH ĐÀ NẴNG, NĂM 2017 iii LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu khoa học của cá nhân tôi dưới sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh. Các dữ liệu, ví dụ và trích dẫn tham khảo trong luận án đảm bảo độ tin cậy, chuẩn xác và trung thực. Những kết quả đóng góp về mặt lý thuyết và ứng dụng của luận án chưa từng được ai công bố trong bất kỳ công trình nào khác cho đến nay. Tác giả luận án, VILAVONG SOUKSAN iv MỤC LỤC LỜI CAM ĐOAN ........................................................................................... iii MỤC LỤC ....................................................................................................... iv DANH MỤC CHỮ VIẾT TẮT .................................................................... vii DANH MỤC CÁC BẢNG ........................................................................... viii DANH MỤC CÁC HÌNH .............................................................................. ix MỞ ĐẦU ........................................................................................................... 1 1.Mục tiêu, đối tượng và phạm vi nghiên cứu .................................................. 3 2.Nhiệm vụ nghiên cứu và kết quả đạt được ..................................................... 4 3.Cấu trúc của luận án ....................................................................................... 4 4.Đóng góp của luận án ..................................................................................... 5 CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO ................................................. 6 1.1.TÌM HIỂU TIẾNG LÀO........................................................................... 6 1.1.1. Giới thiệu tiếng Lào ........................................................................................ 6 1.1.2. Nguồn gốc của tiếng Lào ................................................................................ 7 1.1.3. Những yếu tố ngữ pháp tiếng Lào .................................................................. 7 1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG ............... 12 1.2.1. So sánh bảng chữ cái .................................................................................... 13 1.2.2. So sánh cấu trúc âm tiết ................................................................................ 14 1.2.3. So sánh cấu trúc từ vựng .............................................................................. 14 1.2.4. So sánh cấu trúc câu ..................................................................................... 15 1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN ..................................... 16 1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào .................................................... 16 1.3.2. Thực trạng và thách thức trong xử lý tiếng Lào ........................................... 19 1.3.3. Đặt bài toán phân loại văn bản tiếng Lào ..................................................... 19 1.4.KẾT LUẬN CHƯƠNG 1 ........................................................................ 20 CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ .......... 21 2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN ...................... 21 2.1.1. Khái niệm văn bản .......................................................................................... 21 v 2.1.2. Khái niệm soạn thảo văn bản (STVB) ............................................................ 23 2.1.3. Xu thế soạn thảo văn bản hiện nay ................................................................. 24 2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN ..................................................... 24 2.2.1. Tìm hiểu bài toán phân loại văn bản .............................................................. 24 2.2.2. Quy trình giải quyết bài toán PLVB ............................................................... 25 2.2.3. Các phương pháp giải quyết bài toán PLVB .................................................. 27 2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN .................. 30 2.3.1. Tìm hiểu bài toán tách từ ................................................................................ 30 2.3.2. Các phương pháp tách từ ................................................................................ 31 2.3.3. Đánh giá hai phương pháp .............................................................................. 35 2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO .................................................. 37 2.4.1. Bài toán phân loại văn bản tiếng Lào ............................................................. 37 2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào ................................................ 38 2.4.3. Đề xuất giải pháp triển khai ........................................................................... 38 2.5.KẾT LUẬN CHƯƠNG 2 ........................................................................ 40 CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO ................................................................................................................ 41 3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP ................... 41 3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào ...................................................... 41 3.1.2. Xây dựng mô hình cấu trúc của từ đơn ......................................................... 42 3.1.3. Giải pháp nhận diện từ trong câu .................................................................. 47 3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN ........................... 50 3.2.1. Xây dựng vị từ và hàm ................................................................................. 50 3.2.2. Xây dựng cơ sở luật ...................................................................................... 53 3.2.3. Xây dựng máy suy diễn nhận diện từ đơn .................................................... 54 vi 3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ ................................................. 56 3.2.4. Xây dựng kho ngữ vựng tiếng Lào ............................................................... 56 3.3.2. Áp dụng phương pháp so khớp tối đa ........................................................... 59 3.3.3. Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng ...................... 59 3.4.KẾT LUẬN CHƯƠNG 3 ........................................................................ 62 CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ .......... 63 4.1.CHUẨN BỊ DỮ LIỆU .............................................................................. 63 4.1.1. Phân tích hiện trạng trường ĐH Champasak ................................................ 63 4.1.2. Thu thập dữ liệu HCVP tại trường ĐH Champasak ..................................... 64 4.1.3. Xây dựng kho văn bản HCVP của trường ĐH Champasak .......................... 65 4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM .......................................... 68 4.2.1. Xây dụng mô hình thử nghiệm ........................................................................ 68 4.2.2. Chuẩn bị cơ sở thử nghiệm ............................................................................. 68 4.2.3. Đề xuất PLVB sử dụng hai phương pháp SVM và RBF ................................ 71 4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................ 72 4.3.2. Thử nghiệm hai phương pháp tách từ CRF và MM ..................................... 73 4.3.3. Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng ....................... 75 4.3.4. Thử nghiệm phân loại văn bản ..................................................................... 76 4.4.KẾT LUẬN CHƯƠNG 4 ........................................................................ 80 KẾT LUẬN ..................................................................................................... 81 TÀI LIỆU THAM KHẢO ............................................................................. 84 vii DANH MỤC CHỮ VIẾT TẮT 1. Tiếng Anh STT Chữ viết tắt Nghĩa tiếng Anh Nghĩa tiếng Việt 1 CRF Conditional Random Fields Trường điều kiện ngẫu nhiên 2 CL Computational Linguistics Ngôn ngữ học tính toán 3 MM Maximum Matching So khớp tối đa 5 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên 7 RBF Radial BasisFunctions network Mạng hàm bán kính xuyên tâm cơ sở 8 SVM Support Vector Machine Máy vec tơ hỗ trợ 2. Tiếng Việt STT Chữ viết tắt Nghĩa 1 CHDCND Lào Cộng hoà Dân chủ Nhân dân Lào 2 CNTT Công nghệ Thông tin 3 CSDL Cơ sở dữ liệu 4 ĐHBK Đại học Bách Khoa 5 HCVP Hành chính văn phòng 6 MSD Máy suy diễn 7 NCKH Nghiên cứu Khoa học 8 NNTN Ngôn ngữ tự nhiên 9 NSD Người sử dụng 10 PLVB Phân loại văn bản 11 VBHC Văn bản hành chính 12 XL NNTN Xử lý ngôn ngữ tự nhiên viii DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 1.1. So sánh chữ cai. 13 1.2. So sánh cấu truc am tiết. 14 1.3. So sánh cấu trúc từ đơn. 14 1.4. So sánh cấu trúc câu. 16 4.1. Ví dụ một số từ hư trong tiếng lào. 67 4.2. Thử nghiệm phương pháp nhận diện từ đơn dùng cơ sở luật. 73 4.3. Kết quả tách từ sử dụng phương pháp mạng nơ ron. 74 4.4. Kết quả tách từ sử dụng phương pháp so khớp tối đa. 74 4.5. Tách từ sử dụng ba phương pháp CRF, MMS và dùng luật. 75 4.6. Kết quả PLVB tiếng Lào kết hợp SVM với CRF. 76 4.7. PLVB tiếng Lào kết hợp SVM với tách từ dựa cơ sở luật. 77 4.8. PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF. 77 4.9. PLVB tiếng Lào kết hợp RBF với tách từ sử dụng cơ sở luật. 78 4.10. Kết quả thực nghiệm PLVB tiếng Lào kết hợp tách từ. 78 ix DANH MỤC CÁC HÌNH Số hiệu hình Tên hình Trang 1.1. Cấu trúc ba tầng của chữ Lào. 10 1.2. Bàn phím gõ tiếng Lào 17 2.1. Mô hình hai giai đoạn phân loại văn bản. 26 2.2. Mô hình giai đoạn học máy. 27 2.3. Đồ thị vô hướng mô tả CRF 34 2.4. Mô hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào. 39 3.1. Cấu trúc từ đơn trong tiếng Lào. 42 3.2. Cấu trúc XML cho CSDL chữ cái tiếng Lào. 48 3.3. Mô hình nhận diện từ đơn tiếng Lào. 49 3.4. Cơ chế hoạt động của máy suy diễn nhận diện từ đơn. 56 3.5. Mô hình cập nhật dữ liệu cho kho ngữ vụng tiếng Lào. 58 3.6. Mô hình tách từ tiếng Lào dùng phương pháp so khớp tối đa. 59 3.7. Mô hình xử lý nhập nhằng khi tách từ tiếng Lào. 61 4.1. Mô hình triển khai thử nghiệm PLVB tiếng Lào. 68 4.2. Đồ thị so sánh kết quả thực nghiệm ba phương pháp tách từ. 75 4.3. Lược đồ so sánh kết quả thực nghiệm giữa mạn RBF và SVM 79 1 MỞ ĐẦU Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN, ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học, của Khoa học Máy tính. Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD) theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào. Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT) nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng, hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ mọi hình thức, từ thương mại đến chính trị, quốc phòng... Đặc biệt số lượng văn bản hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng. Nếu như trước đây, VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự gia tăng các VBHC. Với thực trạng khối lượng thông tin đồ sộ cần xử lý, một vấn đề lớn đặt ra là làm sao tổ chức và tìm kiếm thông tin một cách có hiệu quả ? Giải quyết bài toán phân loại thông tin/dữ liệu, cụ thể là phân loại hay phân lớp văn bản (PLVB), là một trong 2 những câu trả lời hợp lý. Dĩ nhiên việc phân loại bằng cách thủ công là điều không thể thực hiện, một khi thông tin trực tuyến không những có khối lượng lớn, mà còn không được kiểm soát, thậm chí thiếu chất lượng, thiếu độ tin cậy, kể cả bị sai lạc... Hướng giải quyết là nghiên cứu xây dựng một chương trình máy tính tự động phân loại. Hiện nay, tại trường Đại học Champasak, một trường Đại học tương đối lớn của nước Cộng hoà Dân chủ Nhân dân (CHDCND) Lào, diễn ra các hoạt động giao dịch hành chính, văn phòng rất khẩn trương và tấp nập. Hàng ngày, cán bộ viên chức bận rôn thực hiện phân loại, lưu trữ các VBHC xuất hiện mọi lúc mọi nơi, sau đó lại phải tìm kiếm, xử lý các văn bản đó. Việc phân loại thực tế là phân chia các văn bản theo đơn vị, theo lĩnh vực chuyên ngành đào tạo, khoa học công nghệ, kinh tế, pháp luật, văn hóa-xã hội, theo thể loại như : nghị định, quyết định, báo cáo, đơn từ..., v.v Hệ quả thường thấy là việc xử lý văn bản thủ công luôn gặp sai sót, nhầm lẫn và nhiều khi không kịp tiến độ yêu cầu. Từ nhu cầu thực tiễn cần đổi mới hiệu quả hoạt động hành chính văn phòng (HCVP) tại trường Đại học Champasak, luận án đã nhằm đến mục tiêu giải quyết bài toán PLVB tiếng Lào tự động trên cơ sở giải quyết bài toán XL NNTN cho tiếng Lào. Hiện nay ở Lào, có rất ít công trình nghiên cứu thuộc lĩnh vực XL NNTN được áp dụng thực tiễn. Luận án không tìm cách phân tích nguyên nhân của những hạn chế này. Tuy nhiên, có thể nêu ra một số nguyên nhân chính mà chúng tôi phải tìm cách khắc phục. Trước hết là thực trạng hoạt động khoa học công nghệ tại nước CHDCND Lào chưa thực sự phát triển, nếu so sánh với các nước trong khối ASEAN, hay so sánh với nước láng giềng Việt Nam. Điều này dẫn đến có rất ít chuyên gia về lĩnh vực ... n nay như máy vec tơ hỗ trợ SVM và mạng nơ ron RBF. Từ đó luận án đưa ra quyết định sử dụng các phương pháp PLVB này cho tiếng Lào. Từ nhu cầu thực tiễn đổi mới hoạt động hành chính ứng dụng CNTT, giải quyết vấn đề phân loại các VBHC của trường Đại học Champasack, tại nước CHDCND, luận án đã đề xuất giái pháp PLVB trên cơ sở giải quyết bài toán tách từ. Kết quả và cũng là đóng góp của luận án là triển khai các nội dung chính như sau : Tìm hiểu các đặc trưng ngữ pháp trong hệ thống ngữ pháp và chữ viết Lào, đề xuất xây dựng được mô hình cấu trúc từ đơn mang tính đặc thù của tiếng Lào. Từ đó, vận dụng xây dựng cơ sở luật và máy suy diễn cho phép nhận diện một từ đơn trong câu văn bản và xây dựng được kho ngữ liệu từ đơn tiếng Lào. Từ kho từ đơn đã có, chúng tôi đã tiến hành xây dựng kho từ vựng gồm các từ đơn, từ ghép và cụm từ, kết hợp kiểm tra sửa lỗi thủ công, phục vụ giải quyết bài toán tách từ tiếng Lào. Các kho ngữ vựng từ đơn và cụm từ tiếng Lào như vậy hiện vẫn chưa có, chưa được xây dựng theo định hướng mã nguồn mở từ trước tới nay. Để triển khai PLVB, chúng tôi đã tìm hiểu, phân tích thực tiễn các hoạt động phân loại, lưu trữ các loại VBHC khác nhau tại trường Đại học Champasak, từ đó thu thập, tổ chức lưu trữ mới các văn bản này để tạo ra một CSDL VBHC phục vụ các bước xây dựng kho ngữ liệu và thử nghiệm. Với mỗi văn bản vào từ CSDL VBHC, tiến hành bóc tách các từ tiếng Lào sử dụng phương pháp so khớp tối đa trên kho từ vựng, kết hợp xử lý nhập nhằng sử dụng cơ sở luật. Để tiến hành thử nghiệm, chúng tôi đã chuẩn bị đầy đủ các điều kiện cơ sở, môi trường và công cụ thử nghiệm, lựa chọn các phương pháp PLVB, tách từ và lựa chọn các tiêu chí, hay độ đo, để đánh giá kết quả. Sau đó, tiến hành thử nghiệm PLVB tiếng 82 Lào sử dụng hai phương pháp máy vec tơ hỗ trợ SVM và hàm bán kính cơ sở RBF, kết hợp thử nghiệm tách từ theo hai phương pháp trường điều kiện ngẫu nhiên và dựa cơ sở luật đã đề xuất. Các kết quả thử nghiệm PLVB và tách từ được đánh giá, so sánh thông qua các bảng và biểu đồ. - PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM và tách từ sử dụng trường điều kiện ngẫu nhiên CRF đạt được độ chính xác 92.73 % . - PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM và tách từ sử dụng cơ sở luật để xử lý nhập nhằng đạt được độ chính xác 93.41%. - PLVB sử dụng phương pháp mạng nơ ron RBF và tách từ sử dụng trường điều kiện ngẫu nhiên CRF đạt được độ chính xác 92.94%. - PLVB sử dụng phương pháp mạng nơ ron RBF và tách từ sử dụng cơ sở luật để xử lý nhập nhằng đạt được độ chính xác 93.82%. Có thể nhận định, giải pháp tách từ tiếng Lào đã đề xuất đã kết hơp giữa phương pháp khử bỏ nhập nhằng và các đặc trưng ngữ pháp của hệ viết Lào. Quá trình tách từ đã dựa vào kho ngữ vựng, thực tế đòi hỏi phải có kho ngữ liệu đủ lớn để tách từ hiệu quả. Những giải pháp mà chúng tôi đề xuất đã góp phần xử lý một phần các hiện tượng nhập nhằng trong văn bản tiếng Lào, cụ thể là xử lý nhập nhằng do đồng tự (hai từ có cùng ký tự). Giải pháp cũng là một đóng góp có ý nghĩa cho tiến trình xử lý tiếng Lào nói riêng, và XL NNTN nói chung, góp phần tiếp tục triển khai hoàn thiện bài toán xử lý PLVB tiếng Lào tự động. Mặc dù với dung lượng chưa đủ lớn trong các bước chạy thử nghiệm, nhưng triển vọng mở rộng kho ngữ vụng là có thể và khả thi. Mặt khác, để đạt được độ chính xác cao hơn, cần bổ sung các luật cho phép xử lý nhập nhằng một cách hiệu quả hơn. Các kết quả nghiên cứu này đã được công bố tại các công trình [1][2][3]. 2. Phân tích những mặt hạn chế Thông qua kết quả thực nghiệm cho thấy, khi kết hợp tách từ sử dụng giải pháp cơ sở luật để xử lý nhập nhằng, phương pháp mạng nơ ron RBF giải quyết bài toán PLVB cho kết quả tốt hơn (tuy không nhiều) bộ phân loại máy vec tơ hỗ trợ SVM. Các kết quả nghiên cứu này đã được công bố trên công trình [3]. Tuy nhiên, luận án vẫn còn một vài hạn chế sau : Các thử nghiệm sử dụng thuật toán máy vec tơ hỗ trợ SVM và mạng nơ ron RBF cho bài toán PLVB mới thử 83 nghiệm trên kho VBHC tiếng Lào chỉ thuần tuý văn bản, đơn ngữ, không chứa các thành phần đồ hoạ, công thức hay các thành phần đa tạp, multimedia Mặt khác, chúng tôi mới chỉ phân loại sáu chủ đề chính của trường Đại học Champasak như Nhân sự tiền lương, Đào tạo, Tuyển sinh, Tốt nghiệp, Đoàn-Đảng- Thanh niên và Công đoàn, mà chưa xử lý PLVB các thể loại thông dụng như Công văn, Thông báo, Báo cáo, Quy định, Quyết định, Kinh tế, Pháp luật hay PLVB theo những tiêu chí cụ thể khác của trường tuỳ theo yêu cầu thực tế. Kho văn bản HCVP cũng chưa thật lớn, chỉ mang tính thử nghiệm, do đó chúng tôi chưa đối sánh được kết quả thử nghiệm trên nhiều bộ dữ liệu khác nhau. Mặt khác chúng tôi cũng chưa vận dụng các thuật toán khác để chọn được phương pháp hợp lý nhất cho nhu cầu thực tiễn của trường Đại học Champasak. 3. Hướng phát triển luận án Hướng phát triển trước mắt của luận án là tìm cách khắc phục những mặt hạn chế liên quan đến các giải pháp và tiền trinh thử nghiệm PLVB đã đề xuất. Sau đó, tiếp tục đánh giá so sánh các kết quả thử nghiệm để tìm được phương pháp tối ưu, vận dụng hiệu quả tại trường Đại học Champasak, có thể mở rộng ứng dụng cho các trường Đại học khác trên nước CHDCND Lào. Trong tương lai, chúng tôi tiếp tục nghiên cứu mối quan hệ của kích thước ngữ liệu huấn luyện, mức độ cân bằng của ngữ liệu huấn luyện tác động lên hiệu quả của các phương pháp phân loại. Chúng tôi tiếp tục nghiên cứu giải quyết bài toán PLVB cho các văn bản đa ngữ, đa tạp (multimedia), đa lĩnh vực, có kích thước hay dung lượng lớn hơn và môi trường sử dụng linh hoạt hơn. Hơn nữa, chúng tôi cũng tiếp tục cải thiện độ chính xác của các phương pháp PLVB, tách từ tiếng Lào đã có được, thông qua việc cải thiện cơ sở luật, máy suy diễn và kết hợp thêm một số đặc trưng từ loại, cú pháp và ngữ nghĩa trong hệ việt tiếng Lào. 84 TÀI LIỆU THAM KHẢO 1. Tiếng Anh [1] Ch. Apté, Automated learning of decision rules for text categorization, in ACM Trans. Inf. Syst, July 1994. [2] Chr. M. Bishop, Pattern Recognition and Machine Learning, Springer 2007. [3] N. Chirawichitchai, Developing an effective Thai document categorization framework base on term relevance frequency weighting in Knowledge Engineering, 2010 8th International Conference on ICT, Nov 2010. [4] T. M. Cover and P. E. Hart, Nearest neighbor pattern classification, IEEE Trans. Inform. Theory, vol. IT-13, pp. 21-27, Jan. 1967. [5] J. F¨urnkranz, A Study Using n-gram Features for Text Categorization, in Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-98-30, 1998. [6] Mouton de Gruyter, A Grammar of Lao, Copyright 2007 by Walter de Gruyter Ch. P. Mekanavin, S. & B. Kijsirikul. [7] Meknavin S, Charoenpornsawat P, Kijsirikul B. Feature-Based Thai Words Segmentation. Proceedings of the Natural Language Processing Pacific Rim Symposium, p41-48. Phuket, Thailand, 1997. [8] H. X. Huan, D T. T. Hien, H. H. Tue, Training Interpolation Radial Basis Function Networks. Signal Processing, Vol. 87, Issue 11 2007, pp. 2708–2717, 2007. [9] D T. T. Hien, H. X. Huan, H. H. Tue, Local RBF Neural Networks for Interpolating Multivariate Functions. IEEE International Conference on Research, Innovation and Vision for the Future in Computing & Communications Technologies, ENST 2008 S 001, pp.70-75, 2008. [10] T. Joachims, Text categorization with suport vector machines : Learning with many relevant features. Proceedings of the 10th European Conference on Machine Learning, ECML '98, 1998. [11] W. Y. Ma, K. J. Chen, Introduction to CKIP Chinese Word Segmentation System for the First International Chinese Word Segmentation Bakeoff. Web: [12] N. C. Tu, N. T, Kien, P. X. Hieu, N. L. Minh, H. Q. Thuy. Vietnamese word segmentation with CRF and SVMs, An Investigation. In 20th Pacific Asia Conference on Language, Information and Computation (PACLIC 2006), Wuhan, China. 85 [13] H. P. Le, N. T. M. Huyen, A. Roussanaly, H. T. Vinh. A Hybrid Approach to Word Segmentation of Vietnamese Texts. Language and Automata Theory and Applications, Springer Edition, 2008 (web: https://hal.inria.fr/inria-00334761/PDF/LATA039.pdf). [14] D. Palmer. A Trainable Rule-based Algorithm for Word Segmentation The MITRE Corporation 202 Burlington Rd. Bedford, MA 01730, USA, 1996. [15] JC Platt, Sequential minimal optimization : A fast algorithm for training support vector machines, In Advances in Kernel Methods, Support Vector Learning, 1998. [16] H. Poovarawan, Ch. Wongchaisuwat, A Development of Algorithms for Thai Language Data Processing, Kasetsart University, Thailand, 2001. [17] M.J.D. Powell, Radial basis function methods for interpolation to functions of many variables, 2011. [18] S. Suebvisai, P. Charoenpornsawat, Thai Automatic Speech Recognition. Proceedings of ICASSP, Philadelphia, Pennsylvania, 2005. [19] N. Seresangtakul, A hybrid apapproach to lao word segmentation using longest syllable level matching with named entities recognition, in Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON), May 2013. [20] P.J. Tan and D.L. Dowe, MML Inference of Oblique Decision Trees, Lecture Notes in Artificial Intelligence (LNAI) 3339, Springer-Verlag, pp1082-1088, (2004). [21] Ah-Hwee Tan, Fon-Lin Lai. Text categorization, supervised learning, and domain knowledge integration. Proceedings of KDD-2000, Workshop on Text Mining, 2000 (Web: [22] C. H. A Tsai. Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 2000. [23] N. H. A. Tú, H. Kiem, Frequent subgraph-based approach for classifying vietnamese text documents. In Joaquim Filipe and José Cordeiro, editors, ICEIS, 2009. [24] J. Thaisungkhom, The document classification system based on the neural network, King Mongkut’s Institute of Technology North Bangkok, 2006 [25] S.Vanthanavong, LaoWS : Lao Word Segmentation Based on Conditional Random Fields, Conference on Human Language Technology for Development, Alexandria, Egypt, pp.2-5 May 2011. [26] V. Vapnik. The Nature of Statistical Learning Theory. SpringerVerlag, 1995. [27] Chan P. Wong. Chinese Word Segmentation Based on Maximum Matching and Word Binding Force. Proceedings of Coling 96, pp.200-203, 1996. 86 [28] P. Yang, Highperforming feature selection for text classification. Proceedings of the 11 th International Conference on Information and Knowledge Management, New York, 2002. [29] Các bài viết khác trên các trang web tiếng Anh về lĩnh vực xử lý ngôn ngữ tự nhiên, phân loại văn bản, tách từ và các công cụ xử lý. [30] T. Nomponkrang, C. Sanrach, The Comparison of Algorithms for Thai-Sentence Classification, International Journal of Information and Education Technology, Vol. 6, No. 10, October 2016. [31] Yaw-Huei Chen, P. Daowadung, Assessing Readability of Thai Text Using support vector machines, Maejo Int. J. Sci. Technol. 2015, 9(03), 355-369; doi: 10.14456/mijst.2015.27. [32] Satien Janpla, The Effectiveness of Automated Thai Documents Categorization Based on Machine Learning, Journal of Theoretical and Applied Information Technology, 10 A ugust 201 4. Vo l. 66 No.1 [33] T. Siriteerakula, V. Boonjingb , R. Gullayanona, Character Classification Framework Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research Article; doi: 10.2306/scienceasia1513-1874.2016.42.046. 2. Tiếng Việt [34] M. Alves, Khái quát các nghiên cứu ngôn ngữ học về nguồn gốc của tiếng Việt. Tạp chí Khoa học ĐHQGHN, Khoa học Xã hội và Nhân văn 24, tr. 187-202, 2008. [35] S. Duoangsopha, Xây dựng XD từ điển điện tử tin học Việt-Anh-Lào, Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS. Phan Huy Khánh, Đại Học Đà Nẵng, 2005. [36] T. C. Đệ, P. N. Khang, Phân loại văn bản với máy học vector hỗ trợ và cây quyết định, Tạp chí Khoa học 2012:21a 52-63, Trường Đại học Cần Thơ, tr. 52-63, 2012 [37] N. L. Giang, N. M. Hiển, Phân loại văn bản tiếng Việt với bộ phân loại véctơ hỗ trợ SVM. Tạp chí Bưu chính Viễn thông và CNTT, Số 15, tr. 66-75, 2005. [38] H. S. Hi, Ngữ pháp tiếng Khmer, Học viện Giáo dục Dân tộc. 2012. [39] N. T. T. Hòa, N.T. D. Thúy, T. T. A. Thư, V.T. Thảo, T. M. Phương, Nghiên cứu đặc trưng ngôn ngữ Việt-Lào để nâng cao hiệu quả dạy học tiếng Việt cho lưu học sinh Lào. Tạp chí Khoa học, trường Đại học Hà tĩnh, 2011. (Web: [40] D T. T. Hien, H. X. Huan, Thuật toán một pha huấn luyện nhanh mạng nội suy RBF với mốc cách đều. Kỷ yếu Hội thảo quốc gia lần thứ X : Các vấn đề chọn lọc 87 của CNTT, Đại Lải, tr. 532-542, 2007. [41] H. X. Huan, D T. T. Hien, Phương pháp lặp huấn luyện mạng nội suy RBF. Kỷ yếu Hội thảo Quốc gia lần thứ VIII : Các vấn đề chọn lọc của CNTT, Hải Phòng, tr. 314- 323, 2005. [42] V. Ketsilivong. Tích hợp các giải pháp cập nhật các kho ngữ liệu đa ngữ, ứng dụng cho tiếng Lào. Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS. Phan Huy Khánh, Đại Học Đà Nẵng (2006). [43] T. T. Oanh, Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt. Luận văn ThS, Người HD : PGS.TS. Hà Quang Thụy, trường ĐH Công nghệ, ĐHQG Hà Nội, 48 tr, 2008. [44] H. Q. Thắng, Đ. T. T. Phương, “Tiếp cận phương pháp học không giám sát trong học có giám sát với bài toán phân loại văn bản tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản trong mô hình vec tơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005. [45] Các bài viết khác trên các trang web tiếng Việt về lĩnh vực ngôn ngữ học, xử lý ngôn ngữ tự nhiên, phân loại văn bản, tách từ và các công cụ xử lý. Tiếng Lào [46] ພ ສ ລ ວ ນນ ຄ ດ ລ ວ ຊ ນມ ດທ ຍ ມ (Tiếng Lào và văn học lớp 8), Nhà Xuất bản Viện Nghiên cứu và Khoa học Giáo dục, Bộ Giáo dục Lào, 1997. [47] ວຍ ກອນພ ສ ລ ວ ຊ ນມ ດທ ຍ ມ (Ngữ pháp tiếng Lào Lớp 10), Nhà Xuất bản Bộ Giáo dục và Thể Thao Lào, 1980. [48] ວ ດຈ ນ ນ ກ ມພ ສ ລ ວ (Từ điển tiếng Lào), Web: http ://www.brothersoft.com/downloads/lao-dictionary.html. [49] Các bài viết khác trên các trang web tiếng Lào về ngôn ngữ, tiếng Lào. 88 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC [1] V. Souksan, PH.Khánh (2013). Khử bỏ nhập nhằng trong bài toán tách từ tiếng Lào. Tạp chí Khoa học&Công nghệ, Đại học Đà Nẵng, No.1(62), tr.113-119. [2] V. Souksan, PH.Khánh (2014), Tách từ tiếng Lào sử dụng kho ngữ vựng kết hợp với các đặc trưng ngữ pháp tiếng Lào. Kỷ yếu Hội thảo KHQG Lần thứ XVI. Số : 14-16/11/2014. Tr.61-68, Đà Nẵng 2014. [3] V. Souksan, PH.Khánh (2015). Comparision on some Machine Learning Methods for Lao Text. International Journal of Computer Science and Telecommunications, ISSN 2047-3338. Vol.6(7), pp.8-13, July 2015. 89 KẾT QUẢ TÌM KIẾM VỀ PHÂN LOẠI VĂN BẢN TIẾNG LÀO TRÊN MẠNG 90
File đính kèm:
- luan_an_nghien_cuu_cac_phuong_phap_tach_tu_phuc_vu_phan_loai.pdf