Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào

Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language

Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh

vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN,

ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong

muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải

am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con

người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học,

của Khoa học Máy tính.

Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong

những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các

ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân

dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD)

theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào.

Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT)

nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng,

hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt

của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực

tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ

mọi hình thức, từ thương mại đến chính trị, quốc phòng. Đặc biệt số lượng văn bản

hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác

nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng. Nếu như trước đây,

VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì

ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ

liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự

gia tăng các VBHC

pdf 99 trang dienloan 19240
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào
 BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 
VILAVONG SOUKSAN 
NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ 
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
ĐÀ NẴNG, NĂM 2017 
ii 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 
VILAVONG SOUKSAN 
NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ 
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO 
Chuyên ngành : KHOA HỌC MÁY TÍNH 
Mã số : 62.48.01.01 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Người hướng dẫn khoa học : PGS. TS. PHAN HUY KHÁNH 
ĐÀ NẴNG, NĂM 2017 
iii 
LỜI CAM ĐOAN 
Tôi cam đoan đây là công trình nghiên cứu khoa học của cá nhân tôi 
dưới sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh. 
Các dữ liệu, ví dụ và trích dẫn tham khảo trong luận án đảm bảo 
độ tin cậy, chuẩn xác và trung thực. 
Những kết quả đóng góp về mặt lý thuyết và ứng dụng của luận án 
chưa từng được ai công bố trong bất kỳ công trình nào khác cho đến nay. 
Tác giả luận án, 
VILAVONG SOUKSAN 
iv 
MỤC LỤC 
LỜI CAM ĐOAN ........................................................................................... iii 
MỤC LỤC ....................................................................................................... iv 
DANH MỤC CHỮ VIẾT TẮT .................................................................... vii 
DANH MỤC CÁC BẢNG ........................................................................... viii 
DANH MỤC CÁC HÌNH .............................................................................. ix 
MỞ ĐẦU ........................................................................................................... 1 
1.Mục tiêu, đối tượng và phạm vi nghiên cứu .................................................. 3 
2.Nhiệm vụ nghiên cứu và kết quả đạt được ..................................................... 4 
3.Cấu trúc của luận án ....................................................................................... 4 
4.Đóng góp của luận án ..................................................................................... 5 
CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO ................................................. 6 
1.1.TÌM HIỂU TIẾNG LÀO........................................................................... 6 
1.1.1. Giới thiệu tiếng Lào ........................................................................................ 6 
1.1.2. Nguồn gốc của tiếng Lào ................................................................................ 7 
1.1.3. Những yếu tố ngữ pháp tiếng Lào .................................................................. 7 
1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG ............... 12 
1.2.1. So sánh bảng chữ cái .................................................................................... 13 
1.2.2. So sánh cấu trúc âm tiết ................................................................................ 14 
1.2.3. So sánh cấu trúc từ vựng .............................................................................. 14 
1.2.4. So sánh cấu trúc câu ..................................................................................... 15 
1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN ..................................... 16 
1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào .................................................... 16 
1.3.2. Thực trạng và thách thức trong xử lý tiếng Lào ........................................... 19 
1.3.3. Đặt bài toán phân loại văn bản tiếng Lào ..................................................... 19 
1.4.KẾT LUẬN CHƯƠNG 1 ........................................................................ 20 
CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ .......... 21 
2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN ...................... 21 
2.1.1. Khái niệm văn bản .......................................................................................... 21 
v 
2.1.2. Khái niệm soạn thảo văn bản (STVB) ............................................................ 23 
2.1.3. Xu thế soạn thảo văn bản hiện nay ................................................................. 24 
2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN ..................................................... 24 
2.2.1. Tìm hiểu bài toán phân loại văn bản .............................................................. 24 
2.2.2. Quy trình giải quyết bài toán PLVB ............................................................... 25 
2.2.3. Các phương pháp giải quyết bài toán PLVB .................................................. 27 
2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN .................. 30 
2.3.1. Tìm hiểu bài toán tách từ ................................................................................ 30 
2.3.2. Các phương pháp tách từ ................................................................................ 31 
2.3.3. Đánh giá hai phương pháp .............................................................................. 35 
2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO .................................................. 37 
2.4.1. Bài toán phân loại văn bản tiếng Lào ............................................................. 37 
2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào ................................................ 38 
2.4.3. Đề xuất giải pháp triển khai ........................................................................... 38 
2.5.KẾT LUẬN CHƯƠNG 2 ........................................................................ 40 
CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG 
LÀO ................................................................................................................ 41 
3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP ................... 41 
3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào ...................................................... 41 
3.1.2. Xây dựng mô hình cấu trúc của từ đơn ......................................................... 42 
3.1.3. Giải pháp nhận diện từ trong câu .................................................................. 47 
3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN ........................... 50 
3.2.1. Xây dựng vị từ và hàm ................................................................................. 50 
3.2.2. Xây dựng cơ sở luật ...................................................................................... 53 
3.2.3. Xây dựng máy suy diễn nhận diện từ đơn .................................................... 54 
vi 
3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ ................................................. 56 
3.2.4. Xây dựng kho ngữ vựng tiếng Lào ............................................................... 56 
3.3.2. Áp dụng phương pháp so khớp tối đa ........................................................... 59 
3.3.3. Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng ...................... 59 
3.4.KẾT LUẬN CHƯƠNG 3 ........................................................................ 62 
CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ .......... 63 
4.1.CHUẨN BỊ DỮ LIỆU .............................................................................. 63 
4.1.1. Phân tích hiện trạng trường ĐH Champasak ................................................ 63 
4.1.2. Thu thập dữ liệu HCVP tại trường ĐH Champasak ..................................... 64 
4.1.3. Xây dựng kho văn bản HCVP của trường ĐH Champasak .......................... 65 
4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM .......................................... 68 
4.2.1. Xây dụng mô hình thử nghiệm ........................................................................ 68 
4.2.2. Chuẩn bị cơ sở thử nghiệm ............................................................................. 68 
4.2.3. Đề xuất PLVB sử dụng hai phương pháp SVM và RBF ................................ 71 
4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................ 72 
4.3.2. Thử nghiệm hai phương pháp tách từ CRF và MM ..................................... 73 
4.3.3. Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng ....................... 75 
4.3.4. Thử nghiệm phân loại văn bản ..................................................................... 76 
4.4.KẾT LUẬN CHƯƠNG 4 ........................................................................ 80 
KẾT LUẬN ..................................................................................................... 81 
TÀI LIỆU THAM KHẢO ............................................................................. 84 
vii 
DANH MỤC CHỮ VIẾT TẮT 
1. Tiếng Anh 
STT 
Chữ 
viết tắt 
Nghĩa tiếng Anh Nghĩa tiếng Việt 
1 CRF Conditional Random Fields Trường điều kiện ngẫu nhiên 
2 CL Computational Linguistics Ngôn ngữ học tính toán 
3 MM Maximum Matching So khớp tối đa 
5 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên 
7 RBF Radial BasisFunctions network Mạng hàm bán kính xuyên tâm cơ sở 
8 SVM Support Vector Machine Máy vec tơ hỗ trợ 
2. Tiếng Việt 
STT Chữ viết tắt Nghĩa 
1 CHDCND Lào Cộng hoà Dân chủ Nhân dân Lào 
2 CNTT Công nghệ Thông tin 
3 CSDL Cơ sở dữ liệu 
4 ĐHBK Đại học Bách Khoa 
5 HCVP Hành chính văn phòng 
6 MSD Máy suy diễn 
7 NCKH Nghiên cứu Khoa học 
8 NNTN Ngôn ngữ tự nhiên 
9 NSD Người sử dụng 
10 PLVB Phân loại văn bản 
11 VBHC Văn bản hành chính 
12 XL NNTN Xử lý ngôn ngữ tự nhiên 
viii 
DANH MỤC CÁC BẢNG 
Số hiệu 
bảng 
Tên bảng Trang 
1.1. So sánh chữ cai. 13 
1.2. So sánh cấu truc am tiết. 14 
1.3. So sánh cấu trúc từ đơn. 14 
1.4. So sánh cấu trúc câu. 16 
4.1. Ví dụ một số từ hư trong tiếng lào. 67 
4.2. Thử nghiệm phương pháp nhận diện từ đơn dùng cơ sở luật. 73 
4.3. Kết quả tách từ sử dụng phương pháp mạng nơ ron. 74 
4.4. Kết quả tách từ sử dụng phương pháp so khớp tối đa. 74 
4.5. Tách từ sử dụng ba phương pháp CRF, MMS và dùng luật. 75 
4.6. Kết quả PLVB tiếng Lào kết hợp SVM với CRF. 76 
4.7. PLVB tiếng Lào kết hợp SVM với tách từ dựa cơ sở luật. 77 
4.8. PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF. 77 
4.9. PLVB tiếng Lào kết hợp RBF với tách từ sử dụng cơ sở luật. 78 
4.10. Kết quả thực nghiệm PLVB tiếng Lào kết hợp tách từ. 78 
ix 
DANH MỤC CÁC HÌNH 
Số hiệu 
hình 
Tên hình Trang 
1.1. Cấu trúc ba tầng của chữ Lào. 10 
1.2. Bàn phím gõ tiếng Lào 17 
2.1. Mô hình hai giai đoạn phân loại văn bản. 26 
2.2. Mô hình giai đoạn học máy. 27 
2.3. Đồ thị vô hướng mô tả CRF 34 
2.4. Mô hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào. 39 
3.1. Cấu trúc từ đơn trong tiếng Lào. 42 
3.2. Cấu trúc XML cho CSDL chữ cái tiếng Lào. 48 
3.3. Mô hình nhận diện từ đơn tiếng Lào. 49 
3.4. Cơ chế hoạt động của máy suy diễn nhận diện từ đơn. 56 
3.5. Mô hình cập nhật dữ liệu cho kho ngữ vụng tiếng Lào. 58 
3.6. Mô hình tách từ tiếng Lào dùng phương pháp so khớp tối đa. 59 
3.7. Mô hình xử lý nhập nhằng khi tách từ tiếng Lào. 61 
4.1. Mô hình triển khai thử nghiệm PLVB tiếng Lào. 68 
4.2. Đồ thị so sánh kết quả thực nghiệm ba phương pháp tách từ. 75 
4.3. Lược đồ so sánh kết quả thực nghiệm giữa mạn RBF và SVM 79 
 1 
MỞ ĐẦU 
Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language 
Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh 
vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN, 
ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong 
muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải 
am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con 
người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học, 
của Khoa học Máy tính. 
Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong 
những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các 
ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân 
dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD) 
theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào. 
Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT) 
nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng, 
hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt 
của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực 
tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ 
mọi hình thức, từ thương mại đến chính trị, quốc phòng... Đặc biệt số lượng văn bản 
hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác 
nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng. Nếu như trước đây, 
VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì 
ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ 
liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự 
gia tăng các VBHC. 
Với thực trạng khối lượng thông tin đồ sộ cần xử lý, một vấn đề lớn đặt ra là 
làm sao tổ chức và tìm kiếm thông tin một cách có hiệu quả ? Giải quyết bài toán phân 
loại thông tin/dữ liệu, cụ thể là phân loại hay phân lớp văn bản (PLVB), là một trong 
 2 
những câu trả lời hợp lý. Dĩ nhiên việc phân loại bằng cách thủ công là điều không thể 
thực hiện, một khi thông tin trực tuyến không những có khối lượng lớn, mà còn không 
được kiểm soát, thậm chí thiếu chất lượng, thiếu độ tin cậy, kể cả bị sai lạc... Hướng 
giải quyết là nghiên cứu xây dựng một chương trình máy tính tự động phân loại. 
Hiện nay, tại trường Đại học Champasak, một trường Đại học tương đối lớn của 
nước Cộng hoà Dân chủ Nhân dân (CHDCND) Lào, diễn ra các hoạt động giao dịch 
hành chính, văn phòng rất khẩn trương và tấp nập. Hàng ngày, cán bộ viên chức bận rôn 
thực hiện phân loại, lưu trữ các VBHC xuất hiện mọi lúc mọi nơi, sau đó lại phải tìm 
kiếm, xử lý các văn bản đó. Việc phân loại thực tế là phân chia các văn bản theo đơn vị, 
theo lĩnh vực chuyên ngành đào tạo, khoa học công nghệ, kinh tế, pháp luật, văn hóa-xã 
hội, theo thể loại như : nghị định, quyết định, báo cáo, đơn từ..., v.v Hệ quả thường 
thấy là việc xử lý văn bản thủ công luôn gặp sai sót, nhầm lẫn và nhiều khi không kịp 
tiến độ yêu cầu. 
Từ nhu cầu thực tiễn cần đổi mới hiệu quả hoạt động hành chính văn phòng 
(HCVP) tại trường Đại học Champasak, luận án đã nhằm đến mục tiêu giải quyết bài 
toán PLVB tiếng Lào tự động trên cơ sở giải quyết bài toán XL NNTN cho tiếng Lào. 
Hiện nay ở Lào, có rất ít công trình nghiên cứu thuộc lĩnh vực XL NNTN được 
áp dụng thực tiễn. Luận án không tìm cách phân tích nguyên nhân của những hạn chế 
này. Tuy nhiên, có thể nêu ra một số nguyên nhân chính mà chúng tôi phải tìm cách khắc 
phục. Trước hết là thực trạng hoạt động khoa học công nghệ tại nước CHDCND Lào 
chưa thực sự phát triển, nếu so sánh với các nước trong khối ASEAN, hay so sánh với 
nước láng giềng Việt Nam. Điều này dẫn đến có rất ít chuyên gia về lĩnh vực  ... n nay 
như máy vec tơ hỗ trợ SVM và mạng nơ ron RBF. Từ đó luận án đưa ra quyết định 
sử dụng các phương pháp PLVB này cho tiếng Lào. 
Từ nhu cầu thực tiễn đổi mới hoạt động hành chính ứng dụng CNTT, giải quyết 
vấn đề phân loại các VBHC của trường Đại học Champasack, tại nước CHDCND, 
luận án đã đề xuất giái pháp PLVB trên cơ sở giải quyết bài toán tách từ. Kết quả và 
cũng là đóng góp của luận án là triển khai các nội dung chính như sau : 
Tìm hiểu các đặc trưng ngữ pháp trong hệ thống ngữ pháp và chữ viết Lào, đề 
xuất xây dựng được mô hình cấu trúc từ đơn mang tính đặc thù của tiếng Lào. Từ đó, 
vận dụng xây dựng cơ sở luật và máy suy diễn cho phép nhận diện một từ đơn trong 
câu văn bản và xây dựng được kho ngữ liệu từ đơn tiếng Lào. 
Từ kho từ đơn đã có, chúng tôi đã tiến hành xây dựng kho từ vựng gồm các từ 
đơn, từ ghép và cụm từ, kết hợp kiểm tra sửa lỗi thủ công, phục vụ giải quyết bài toán 
tách từ tiếng Lào. Các kho ngữ vựng từ đơn và cụm từ tiếng Lào như vậy hiện vẫn 
chưa có, chưa được xây dựng theo định hướng mã nguồn mở từ trước tới nay. 
Để triển khai PLVB, chúng tôi đã tìm hiểu, phân tích thực tiễn các hoạt động 
phân loại, lưu trữ các loại VBHC khác nhau tại trường Đại học Champasak, từ đó thu 
thập, tổ chức lưu trữ mới các văn bản này để tạo ra một CSDL VBHC phục vụ các 
bước xây dựng kho ngữ liệu và thử nghiệm. Với mỗi văn bản vào từ CSDL VBHC, 
tiến hành bóc tách các từ tiếng Lào sử dụng phương pháp so khớp tối đa trên kho từ 
vựng, kết hợp xử lý nhập nhằng sử dụng cơ sở luật. 
Để tiến hành thử nghiệm, chúng tôi đã chuẩn bị đầy đủ các điều kiện cơ sở, môi 
trường và công cụ thử nghiệm, lựa chọn các phương pháp PLVB, tách từ và lựa chọn 
các tiêu chí, hay độ đo, để đánh giá kết quả. Sau đó, tiến hành thử nghiệm PLVB tiếng 
 82 
Lào sử dụng hai phương pháp máy vec tơ hỗ trợ SVM và hàm bán kính cơ sở RBF, kết 
hợp thử nghiệm tách từ theo hai phương pháp trường điều kiện ngẫu nhiên và dựa cơ 
sở luật đã đề xuất. Các kết quả thử nghiệm PLVB và tách từ được đánh giá, so sánh 
thông qua các bảng và biểu đồ. 
- PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM và tách từ sử dụng 
trường điều kiện ngẫu nhiên CRF đạt được độ chính xác 92.73 % . 
- PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM và tách từ sử dụng cơ 
sở luật để xử lý nhập nhằng đạt được độ chính xác 93.41%. 
- PLVB sử dụng phương pháp mạng nơ ron RBF và tách từ sử dụng 
trường điều kiện ngẫu nhiên CRF đạt được độ chính xác 92.94%. 
- PLVB sử dụng phương pháp mạng nơ ron RBF và tách từ sử dụng cơ sở luật 
để xử lý nhập nhằng đạt được độ chính xác 93.82%. 
Có thể nhận định, giải pháp tách từ tiếng Lào đã đề xuất đã kết hơp giữa 
phương pháp khử bỏ nhập nhằng và các đặc trưng ngữ pháp của hệ viết Lào. Quá trình 
tách từ đã dựa vào kho ngữ vựng, thực tế đòi hỏi phải có kho ngữ liệu đủ lớn để tách 
từ hiệu quả. Những giải pháp mà chúng tôi đề xuất đã góp phần xử lý một phần các 
hiện tượng nhập nhằng trong văn bản tiếng Lào, cụ thể là xử lý nhập nhằng do đồng tự 
(hai từ có cùng ký tự). Giải pháp cũng là một đóng góp có ý nghĩa cho tiến trình xử lý 
tiếng Lào nói riêng, và XL NNTN nói chung, góp phần tiếp tục triển khai hoàn thiện 
bài toán xử lý PLVB tiếng Lào tự động. 
Mặc dù với dung lượng chưa đủ lớn trong các bước chạy thử nghiệm, nhưng 
triển vọng mở rộng kho ngữ vụng là có thể và khả thi. Mặt khác, để đạt được độ chính 
xác cao hơn, cần bổ sung các luật cho phép xử lý nhập nhằng một cách hiệu quả hơn. 
Các kết quả nghiên cứu này đã được công bố tại các công trình [1][2][3]. 
2. Phân tích những mặt hạn chế 
Thông qua kết quả thực nghiệm cho thấy, khi kết hợp tách từ sử dụng giải pháp 
cơ sở luật để xử lý nhập nhằng, phương pháp mạng nơ ron RBF giải quyết bài toán 
PLVB cho kết quả tốt hơn (tuy không nhiều) bộ phân loại máy vec tơ hỗ trợ SVM. Các 
kết quả nghiên cứu này đã được công bố trên công trình [3]. 
Tuy nhiên, luận án vẫn còn một vài hạn chế sau : Các thử nghiệm sử dụng 
thuật toán máy vec tơ hỗ trợ SVM và mạng nơ ron RBF cho bài toán PLVB mới thử 
 83 
nghiệm trên kho VBHC tiếng Lào chỉ thuần tuý văn bản, đơn ngữ, không chứa các 
thành phần đồ hoạ, công thức hay các thành phần đa tạp, multimedia 
Mặt khác, chúng tôi mới chỉ phân loại sáu chủ đề chính của trường Đại học 
Champasak như Nhân sự tiền lương, Đào tạo, Tuyển sinh, Tốt nghiệp, Đoàn-Đảng-
Thanh niên và Công đoàn, mà chưa xử lý PLVB các thể loại thông dụng như Công 
văn, Thông báo, Báo cáo, Quy định, Quyết định, Kinh tế, Pháp luật hay PLVB theo 
những tiêu chí cụ thể khác của trường tuỳ theo yêu cầu thực tế. 
Kho văn bản HCVP cũng chưa thật lớn, chỉ mang tính thử nghiệm, do đó 
chúng tôi chưa đối sánh được kết quả thử nghiệm trên nhiều bộ dữ liệu khác nhau. 
Mặt khác chúng tôi cũng chưa vận dụng các thuật toán khác để chọn được phương 
pháp hợp lý nhất cho nhu cầu thực tiễn của trường Đại học Champasak. 
3. Hướng phát triển luận án 
Hướng phát triển trước mắt của luận án là tìm cách khắc phục những mặt hạn 
chế liên quan đến các giải pháp và tiền trinh thử nghiệm PLVB đã đề xuất. Sau đó, 
tiếp tục đánh giá so sánh các kết quả thử nghiệm để tìm được phương pháp tối ưu, vận 
dụng hiệu quả tại trường Đại học Champasak, có thể mở rộng ứng dụng cho các 
trường Đại học khác trên nước CHDCND Lào. 
Trong tương lai, chúng tôi tiếp tục nghiên cứu mối quan hệ của kích thước ngữ 
liệu huấn luyện, mức độ cân bằng của ngữ liệu huấn luyện tác động lên hiệu quả của 
các phương pháp phân loại. Chúng tôi tiếp tục nghiên cứu giải quyết bài toán PLVB 
cho các văn bản đa ngữ, đa tạp (multimedia), đa lĩnh vực, có kích thước hay dung 
lượng lớn hơn và môi trường sử dụng linh hoạt hơn. Hơn nữa, chúng tôi cũng tiếp tục 
cải thiện độ chính xác của các phương pháp PLVB, tách từ tiếng Lào đã có được, 
thông qua việc cải thiện cơ sở luật, máy suy diễn và kết hợp thêm một số đặc trưng từ 
loại, cú pháp và ngữ nghĩa trong hệ việt tiếng Lào. 
 84 
TÀI LIỆU THAM KHẢO 
1. Tiếng Anh 
[1] Ch. Apté, Automated learning of decision rules for text categorization, in ACM 
Trans. Inf. Syst, July 1994. 
[2] Chr. M. Bishop, Pattern Recognition and Machine Learning, Springer 2007. 
[3] N. Chirawichitchai, Developing an effective Thai document categorization framework 
base on term relevance frequency weighting in Knowledge Engineering, 2010 8th 
International Conference on ICT, Nov 2010. 
[4] T. M. Cover and P. E. Hart, Nearest neighbor pattern classification, IEEE Trans. 
Inform. Theory, vol. IT-13, pp. 21-27, Jan. 1967. 
[5] J. F¨urnkranz, A Study Using n-gram Features for Text Categorization, in Austrian 
Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-98-30, 1998. 
[6] Mouton de Gruyter, A Grammar of Lao, Copyright 2007 by Walter de Gruyter Ch. P. 
Mekanavin, S. & B. Kijsirikul. 
[7] Meknavin S, Charoenpornsawat P, Kijsirikul B. Feature-Based Thai Words 
Segmentation. Proceedings of the Natural Language Processing Pacific Rim 
Symposium, p41-48. Phuket, Thailand, 1997. 
[8] H. X. Huan, D T. T. Hien, H. H. Tue, Training Interpolation Radial Basis Function 
Networks. Signal Processing, Vol. 87, Issue 11 2007, pp. 2708–2717, 2007. 
[9] D T. T. Hien, H. X. Huan, H. H. Tue, Local RBF Neural Networks for Interpolating 
Multivariate Functions. IEEE International Conference on Research, Innovation and 
Vision for the Future in Computing & Communications Technologies, ENST 2008 S 
001, pp.70-75, 2008. 
[10] T. Joachims, Text categorization with suport vector machines : Learning with many 
relevant features. Proceedings of the 10th European Conference on Machine 
Learning, ECML '98, 1998. 
[11] W. Y. Ma, K. J. Chen, Introduction to CKIP Chinese Word Segmentation System for 
the First International Chinese Word Segmentation Bakeoff. Web: 
[12] N. C. Tu, N. T, Kien, P. X. Hieu, N. L. Minh, H. Q. Thuy. Vietnamese word 
segmentation with CRF and SVMs, An Investigation. In 20th Pacific Asia Conference 
on Language, Information and Computation (PACLIC 2006), Wuhan, China. 
 85 
[13] H. P. Le, N. T. M. Huyen, A. Roussanaly, H. T. Vinh. A Hybrid Approach to Word 
Segmentation of Vietnamese Texts. Language and Automata Theory and Applications, 
Springer Edition, 2008 
(web: https://hal.inria.fr/inria-00334761/PDF/LATA039.pdf). 
[14] D. Palmer. A Trainable Rule-based Algorithm for Word Segmentation The MITRE 
Corporation 202 Burlington Rd. Bedford, MA 01730, USA, 1996. 
[15] JC Platt, Sequential minimal optimization : A fast algorithm for training support 
vector machines, In Advances in Kernel Methods, Support Vector Learning, 1998. 
[16] H. Poovarawan, Ch. Wongchaisuwat, A Development of Algorithms for Thai 
Language Data Processing, Kasetsart University, Thailand, 2001. 
[17] M.J.D. Powell, Radial basis function methods for interpolation to functions of many 
variables, 2011. 
[18] S. Suebvisai, P. Charoenpornsawat, Thai Automatic Speech Recognition. Proceedings 
of ICASSP, Philadelphia, Pennsylvania, 2005. 
[19] N. Seresangtakul, A hybrid apapproach to lao word segmentation using longest 
syllable level matching with named entities recognition, in Electrical 
Engineering/Electronics, Computer, Telecommunications and Information 
Technology (ECTI-CON), May 2013. 
[20] P.J. Tan and D.L. Dowe, MML Inference of Oblique Decision Trees, Lecture Notes in 
Artificial Intelligence (LNAI) 3339, Springer-Verlag, pp1082-1088, (2004). 
[21] Ah-Hwee Tan, Fon-Lin Lai. Text categorization, supervised learning, and domain 
knowledge integration. Proceedings of KDD-2000, Workshop on Text Mining, 2000 
(Web:  
[22] C. H. A Tsai. Word Identification System for Mandarin Chinese Text Based on Two 
Variants of the Maximum Matching Algorithm, 2000. 
[23] N. H. A. Tú, H. Kiem, Frequent subgraph-based approach for classifying vietnamese 
text documents. In Joaquim Filipe and José Cordeiro, editors, ICEIS, 2009. 
[24] J. Thaisungkhom, The document classification system based on the neural network, 
King Mongkut’s Institute of Technology North Bangkok, 2006 
[25] S.Vanthanavong, LaoWS : Lao Word Segmentation Based on Conditional Random 
Fields, Conference on Human Language Technology for Development, Alexandria, 
Egypt, pp.2-5 May 2011. 
[26] V. Vapnik. The Nature of Statistical Learning Theory. SpringerVerlag, 1995. 
[27] Chan P. Wong. Chinese Word Segmentation Based on Maximum Matching and Word 
Binding Force. Proceedings of Coling 96, pp.200-203, 1996. 
 86 
[28] P. Yang, Highperforming feature selection for text classification. Proceedings of the 
11
th
 International Conference on Information and Knowledge Management, New 
York, 2002. 
[29] Các bài viết khác trên các trang web tiếng Anh về lĩnh vực xử lý ngôn ngữ tự nhiên, 
phân loại văn bản, tách từ và các công cụ xử lý. 
[30] T. Nomponkrang, C. Sanrach, The Comparison of Algorithms for Thai-Sentence 
Classification, International Journal of Information and Education Technology, Vol. 
6, No. 10, October 2016. 
[31] Yaw-Huei Chen, P. Daowadung, Assessing Readability of Thai Text Using 
support vector machines, Maejo Int. J. Sci. Technol. 2015, 9(03), 355-369; doi: 
10.14456/mijst.2015.27. 
[32] Satien Janpla, The Effectiveness of Automated Thai Documents Categorization Based 
on Machine Learning, Journal of Theoretical and Applied Information Technology, 
10 A ugust 201 4. Vo l. 66 No.1 
[33] T. Siriteerakula, V. Boonjingb , R. Gullayanona, Character Classification Framework 
Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research 
Article; doi: 10.2306/scienceasia1513-1874.2016.42.046. 
2. Tiếng Việt 
[34] M. Alves, Khái quát các nghiên cứu ngôn ngữ học về nguồn gốc của tiếng Việt. Tạp 
chí Khoa học ĐHQGHN, Khoa học Xã hội và Nhân văn 24, tr. 187-202, 2008. 
[35] S. Duoangsopha, Xây dựng XD từ điển điện tử tin học Việt-Anh-Lào, Luận văn 
Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS. Phan Huy Khánh, Đại Học 
Đà Nẵng, 2005. 
[36] T. C. Đệ, P. N. Khang, Phân loại văn bản với máy học vector hỗ trợ và cây quyết 
định, Tạp chí Khoa học 2012:21a 52-63, Trường Đại học Cần Thơ, tr. 52-63, 2012 
[37] N. L. Giang, N. M. Hiển, Phân loại văn bản tiếng Việt với bộ phân loại véctơ hỗ trợ 
SVM. Tạp chí Bưu chính Viễn thông và CNTT, Số 15, tr. 66-75, 2005. 
[38] H. S. Hi, Ngữ pháp tiếng Khmer, Học viện Giáo dục Dân tộc. 2012. 
[39] N. T. T. Hòa, N.T. D. Thúy, T. T. A. Thư, V.T. Thảo, T. M. Phương, Nghiên cứu đặc 
trưng ngôn ngữ Việt-Lào để nâng cao hiệu quả dạy học tiếng Việt cho lưu học sinh 
Lào. Tạp chí Khoa học, trường Đại học Hà tĩnh, 2011. 
(Web:  
[40] D T. T. Hien, H. X. Huan, Thuật toán một pha huấn luyện nhanh mạng nội suy RBF 
với mốc cách đều. Kỷ yếu Hội thảo quốc gia lần thứ X : Các vấn đề chọn lọc 
 87 
của CNTT, Đại Lải, tr. 532-542, 2007. 
[41] H. X. Huan, D T. T. Hien, Phương pháp lặp huấn luyện mạng nội suy RBF. Kỷ yếu 
Hội thảo Quốc gia lần thứ VIII : Các vấn đề chọn lọc của CNTT, Hải Phòng, tr. 314-
323, 2005. 
[42] V. Ketsilivong. Tích hợp các giải pháp cập nhật các kho ngữ liệu đa ngữ, ứng dụng 
cho tiếng Lào. Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS. Phan Huy 
Khánh, Đại Học Đà Nẵng (2006). 
[43] T. T. Oanh, Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng 
Việt. Luận văn ThS, Người HD : PGS.TS. Hà Quang Thụy, trường ĐH Công nghệ, 
ĐHQG Hà Nội, 48 tr, 2008. 
[44] H. Q. Thắng, Đ. T. T. Phương, “Tiếp cận phương pháp học không giám sát trong học 
có giám sát với bài toán phân loại văn bản tiếng Việt và đề xuất cải tiến công thức 
tính độ liên quan giữa hai văn bản trong mô hình vec tơ”, Kỷ yếu Hội thảo 
ICT.rda’04, trang 251-261, Hà Nội 2005. 
[45] Các bài viết khác trên các trang web tiếng Việt về lĩnh vực ngôn ngữ học, xử lý ngôn 
ngữ tự nhiên, phân loại văn bản, tách từ và các công cụ xử lý. 
Tiếng Lào 
[46] ພ ສ ລ ວ ນນ ຄ ດ ລ ວ ຊ ນມ ດທ ຍ ມ (Tiếng Lào và văn học lớp 8), Nhà Xuất bản 
Viện Nghiên cứu và Khoa học Giáo dục, Bộ Giáo dục Lào, 1997. 
[47] ວຍ ກອນພ ສ ລ ວ ຊ ນມ ດທ ຍ ມ (Ngữ pháp tiếng Lào Lớp 10), 
Nhà Xuất bản Bộ Giáo dục và Thể Thao Lào, 1980. 
[48] ວ ດຈ ນ ນ ກ ມພ ສ ລ ວ (Từ điển tiếng Lào), 
Web: http ://www.brothersoft.com/downloads/lao-dictionary.html. 
[49] Các bài viết khác trên các trang web tiếng Lào về ngôn ngữ, tiếng Lào. 
 88 
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC 
[1] V. Souksan, PH.Khánh (2013). Khử bỏ nhập nhằng trong bài toán tách từ tiếng 
Lào. Tạp chí Khoa học&Công nghệ, Đại học Đà Nẵng, No.1(62), tr.113-119. 
[2] V. Souksan, PH.Khánh (2014), Tách từ tiếng Lào sử dụng kho ngữ vựng kết hợp 
với các đặc trưng ngữ pháp tiếng Lào. Kỷ yếu Hội thảo KHQG Lần thứ XVI. 
Số : 14-16/11/2014. Tr.61-68, Đà Nẵng 2014. 
[3] V. Souksan, PH.Khánh (2015). Comparision on some Machine Learning 
Methods for Lao Text. International Journal of Computer Science and 
Telecommunications, ISSN 2047-3338. Vol.6(7), pp.8-13, July 2015. 
 89 
KẾT QUẢ TÌM KIẾM VỀ PHÂN LOẠI VĂN BẢN TIẾNG LÀO 
TRÊN MẠNG 
 90 

File đính kèm:

  • pdfluan_an_nghien_cuu_cac_phuong_phap_tach_tu_phuc_vu_phan_loai.pdf