Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào

Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language

Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh

vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN,

ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong

muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải

am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con

người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học,

của Khoa học Máy tính.

Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong

những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các

ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân

dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD)

theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào.

Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT)

nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng,

hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt

của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực

tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ

mọi hình thức, từ thương mại đến chính trị, quốc phòng. Đặc biệt số lượng văn bản

hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác

nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng. Nếu như trước đây,

VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì

ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ

liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự

gia tăng các VBHC

99 trang dienloan 29540

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VILAVONG SOUKSAN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO
LUẬN ÁN TIẾN SĨ KỸ THUẬT
ĐÀ NẴNG, NĂM 2017
ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VILAVONG SOUKSAN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học : PGS. TS. PHAN HUY KHÁNH
ĐÀ NẴNG, NĂM 2017
iii
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu khoa học của cá nhân tôi
dưới sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh.
Các dữ liệu, ví dụ và trích dẫn tham khảo trong luận án đảm bảo
độ tin cậy, chuẩn xác và trung thực.
Những kết quả đóng góp về mặt lý thuyết và ứng dụng của luận án
chưa từng được ai công bố trong bất kỳ công trình nào khác cho đến nay.
Tác giả luận án,
VILAVONG SOUKSAN
iv
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................... iii
MỤC LỤC ....................................................................................................... iv
DANH MỤC CHỮ VIẾT TẮT .................................................................... vii
DANH MỤC CÁC BẢNG ........................................................................... viii
DANH MỤC CÁC HÌNH .............................................................................. ix
MỞ ĐẦU ........................................................................................................... 1
1.Mục tiêu, đối tượng và phạm vi nghiên cứu .................................................. 3
2.Nhiệm vụ nghiên cứu và kết quả đạt được ..................................................... 4
3.Cấu trúc của luận án ....................................................................................... 4
4.Đóng góp của luận án ..................................................................................... 5
CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO ................................................. 6
1.1.TÌM HIỂU TIẾNG LÀO........................................................................... 6
1.1.1. Giới thiệu tiếng Lào ........................................................................................ 6
1.1.2. Nguồn gốc của tiếng Lào ................................................................................ 7
1.1.3. Những yếu tố ngữ pháp tiếng Lào .................................................................. 7
1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG ............... 12
1.2.1. So sánh bảng chữ cái .................................................................................... 13
1.2.2. So sánh cấu trúc âm tiết ................................................................................ 14
1.2.3. So sánh cấu trúc từ vựng .............................................................................. 14
1.2.4. So sánh cấu trúc câu ..................................................................................... 15
1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN ..................................... 16
1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào .................................................... 16
1.3.2. Thực trạng và thách thức trong xử lý tiếng Lào ........................................... 19
1.3.3. Đặt bài toán phân loại văn bản tiếng Lào ..................................................... 19
1.4.KẾT LUẬN CHƯƠNG 1 ........................................................................ 20
CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ .......... 21
2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN ...................... 21
2.1.1. Khái niệm văn bản .......................................................................................... 21
v
2.1.2. Khái niệm soạn thảo văn bản (STVB) ............................................................ 23
2.1.3. Xu thế soạn thảo văn bản hiện nay ................................................................. 24
2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN ..................................................... 24
2.2.1. Tìm hiểu bài toán phân loại văn bản .............................................................. 24
2.2.2. Quy trình giải quyết bài toán PLVB ............................................................... 25
2.2.3. Các phương pháp giải quyết bài toán PLVB .................................................. 27
2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN .................. 30
2.3.1. Tìm hiểu bài toán tách từ ................................................................................ 30
2.3.2. Các phương pháp tách từ ................................................................................ 31
2.3.3. Đánh giá hai phương pháp .............................................................................. 35
2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO .................................................. 37
2.4.1. Bài toán phân loại văn bản tiếng Lào ............................................................. 37
2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào ................................................ 38
2.4.3. Đề xuất giải pháp triển khai ........................................................................... 38
2.5.KẾT LUẬN CHƯƠNG 2 ........................................................................ 40
CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG
LÀO ................................................................................................................ 41
3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP ................... 41
3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào ...................................................... 41
3.1.2. Xây dựng mô hình cấu trúc của từ đơn ......................................................... 42
3.1.3. Giải pháp nhận diện từ trong câu .................................................................. 47
3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN ........................... 50
3.2.1. Xây dựng vị từ và hàm ................................................................................. 50
3.2.2. Xây dựng cơ sở luật ...................................................................................... 53
3.2.3. Xây dựng máy suy diễn nhận diện từ đơn .................................................... 54
vi
3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ ................................................. 56
3.2.4. Xây dựng kho ngữ vựng tiếng Lào ............................................................... 56
3.3.2. Áp dụng phương pháp so khớp tối đa ........................................................... 59
3.3.3. Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng ...................... 59
3.4.KẾT LUẬN CHƯƠNG 3 ........................................................................ 62
CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ .......... 63
4.1.CHUẨN BỊ DỮ LIỆU .............................................................................. 63
4.1.1. Phân tích hiện trạng trường ĐH Champasak ................................................ 63
4.1.2. Thu thập dữ liệu HCVP tại trường ĐH Champasak ..................................... 64
4.1.3. Xây dựng kho văn bản HCVP của trường ĐH Champasak .......................... 65
4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM .......................................... 68
4.2.1. Xây dụng mô hình thử nghiệm ........................................................................ 68
4.2.2. Chuẩn bị cơ sở thử nghiệm ............................................................................. 68
4.2.3. Đề xuất PLVB sử dụng hai phương pháp SVM và RBF ................................ 71
4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................ 72
4.3.2. Thử nghiệm hai phương pháp tách từ CRF và MM ..................................... 73
4.3.3. Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng ....................... 75
4.3.4. Thử nghiệm phân loại văn bản ..................................................................... 76
4.4.KẾT LUẬN CHƯƠNG 4 ........................................................................ 80
KẾT LUẬN ..................................................................................................... 81
TÀI LIỆU THAM KHẢO ............................................................................. 84
vii
DANH MỤC CHỮ VIẾT TẮT
1. Tiếng Anh
STT
Chữ
viết tắt
Nghĩa tiếng Anh Nghĩa tiếng Việt
1 CRF Conditional Random Fields Trường điều kiện ngẫu nhiên
2 CL Computational Linguistics Ngôn ngữ học tính toán
3 MM Maximum Matching So khớp tối đa
5 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
7 RBF Radial BasisFunctions network Mạng hàm bán kính xuyên tâm cơ sở
8 SVM Support Vector Machine Máy vec tơ hỗ trợ
2. Tiếng Việt
STT Chữ viết tắt Nghĩa
1 CHDCND Lào Cộng hoà Dân chủ Nhân dân Lào
2 CNTT Công nghệ Thông tin
3 CSDL Cơ sở dữ liệu
4 ĐHBK Đại học Bách Khoa
5 HCVP Hành chính văn phòng
6 MSD Máy suy diễn
7 NCKH Nghiên cứu Khoa học
8 NNTN Ngôn ngữ tự nhiên
9 NSD Người sử dụng
10 PLVB Phân loại văn bản
11 VBHC Văn bản hành chính
12 XL NNTN Xử lý ngôn ngữ tự nhiên
viii
DANH MỤC CÁC BẢNG
Số hiệu
bảng
Tên bảng Trang
1.1. So sánh chữ cai. 13
1.2. So sánh cấu truc am tiết. 14
1.3. So sánh cấu trúc từ đơn. 14
1.4. So sánh cấu trúc câu. 16
4.1. Ví dụ một số từ hư trong tiếng lào. 67
4.2. Thử nghiệm phương pháp nhận diện từ đơn dùng cơ sở luật. 73
4.3. Kết quả tách từ sử dụng phương pháp mạng nơ ron. 74
4.4. Kết quả tách từ sử dụng phương pháp so khớp tối đa. 74
4.5. Tách từ sử dụng ba phương pháp CRF, MMS và dùng luật. 75
4.6. Kết quả PLVB tiếng Lào kết hợp SVM với CRF. 76
4.7. PLVB tiếng Lào kết hợp SVM với tách từ dựa cơ sở luật. 77
4.8. PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF. 77
4.9. PLVB tiếng Lào kết hợp RBF với tách từ sử dụng cơ sở luật. 78
4.10. Kết quả thực nghiệm PLVB tiếng Lào kết hợp tách từ. 78
ix
DANH MỤC CÁC HÌNH
Số hiệu
hình
Tên hình Trang
1.1. Cấu trúc ba tầng của chữ Lào. 10
1.2. Bàn phím gõ tiếng Lào 17
2.1. Mô hình hai giai đoạn phân loại văn bản. 26
2.2. Mô hình giai đoạn học máy. 27
2.3. Đồ thị vô hướng mô tả CRF 34
2.4. Mô hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào. 39
3.1. Cấu trúc từ đơn trong tiếng Lào. 42
3.2. Cấu trúc XML cho CSDL chữ cái tiếng Lào. 48
3.3. Mô hình nhận diện từ đơn tiếng Lào. 49
3.4. Cơ chế hoạt động của máy suy diễn nhận diện từ đơn. 56
3.5. Mô hình cập nhật dữ liệu cho kho ngữ vụng tiếng Lào. 58
3.6. Mô hình tách từ tiếng Lào dùng phương pháp so khớp tối đa. 59
3.7. Mô hình xử lý nhập nhằng khi tách từ tiếng Lào. 61
4.1. Mô hình triển khai thử nghiệm PLVB tiếng Lào. 68
4.2. Đồ thị so sánh kết quả thực nghiệm ba phương pháp tách từ. 75
4.3. Lược đồ so sánh kết quả thực nghiệm giữa mạn RBF và SVM 79
1
MỞ ĐẦU
Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language
Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh
vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN,
ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong
muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải
am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con
người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học,
của Khoa học Máy tính.
Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong
những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các
ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân
dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD)
theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào.
Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT)
nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng,
hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt
của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực
tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ
mọi hình thức, từ thương mại đến chính trị, quốc phòng... Đặc biệt số lượng văn bản
hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác
nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng. Nếu như trước đây,
VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì
ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ
liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự
gia tăng các VBHC.
Với thực trạng khối lượng thông tin đồ sộ cần xử lý, một vấn đề lớn đặt ra là
làm sao tổ chức và tìm kiếm thông tin một cách có hiệu quả ? Giải quyết bài toán phân
loại thông tin/dữ liệu, cụ thể là phân loại hay phân lớp văn bản (PLVB), là một trong
2
những câu trả lời hợp lý. Dĩ nhiên việc phân loại bằng cách thủ công là điều không thể
thực hiện, một khi thông tin trực tuyến không những có khối lượng lớn, mà còn không
được kiểm soát, thậm chí thiếu chất lượng, thiếu độ tin cậy, kể cả bị sai lạc... Hướng
giải quyết là nghiên cứu xây dựng một chương trình máy tính tự động phân loại.
Hiện nay, tại trường Đại học Champasak, một trường Đại học tương đối lớn của
nước Cộng hoà Dân chủ Nhân dân (CHDCND) Lào, diễn ra các hoạt động giao dịch
hành chính, văn phòng rất khẩn trương và tấp nập. Hàng ngày, cán bộ viên chức bận rôn
thực hiện phân loại, lưu trữ các VBHC xuất hiện mọi lúc mọi nơi, sau đó lại phải tìm
kiếm, xử lý các văn bản đó. Việc phân loại thực tế là phân chia các văn bản theo đơn vị,
theo lĩnh vực chuyên ngành đào tạo, khoa học công nghệ, kinh tế, pháp luật, văn hóa-xã
hội, theo thể loại như : nghị định, quyết định, báo cáo, đơn từ..., v.v Hệ quả thường
thấy là việc xử lý văn bản thủ công luôn gặp sai sót, nhầm lẫn và nhiều khi không kịp
tiến độ yêu cầu.
Từ nhu cầu thực tiễn cần đổi mới hiệu quả hoạt động hành chính văn phòng
(HCVP) tại trường Đại học Champasak, luận án đã nhằm đến mục tiêu giải quyết bài
toán PLVB tiếng Lào tự động trên cơ sở giải quyết bài toán XL NNTN cho tiếng Lào.
Hiện nay ở Lào, có rất ít công trình nghiên cứu thuộc lĩnh vực XL NNTN được
áp dụng thực tiễn. Luận án không tìm cách phân tích nguyên nhân của những hạn chế
này. Tuy nhiên, có thể nêu ra một số nguyên nhân chính mà chúng tôi phải tìm cách khắc
phục. Trước hết là thực trạng hoạt động khoa học công nghệ tại nước CHDCND Lào
chưa thực sự phát triển, nếu so sánh với các nước trong khối ASEAN, hay so sánh với
nước láng giềng Việt Nam. Điều này dẫn đến có rất ít chuyên gia về lĩnh vực ... n nay
như máy vec tơ hỗ trợ SVM và mạng nơ ron RBF. Từ đó luận án đưa ra quyết định
sử dụng các phương pháp PLVB này cho tiếng Lào.
Từ nhu cầu thực tiễn đổi mới hoạt động hành chính ứng dụng CNTT, giải quyết
vấn đề phân loại các VBHC của trường Đại học Champasack, tại nước CHDCND,
luận án đã đề xuất giái pháp PLVB trên cơ sở giải quyết bài toán tách từ. Kết quả và
cũng là đóng góp của luận án là triển khai các nội dung chính như sau :
Tìm hiểu các đặc trưng ngữ pháp trong hệ thống ngữ pháp và chữ viết Lào, đề
xuất xây dựng được mô hình cấu trúc từ đơn mang tính đặc thù của tiếng Lào. Từ đó,
vận dụng xây dựng cơ sở luật và máy suy diễn cho phép nhận diện một từ đơn trong
câu văn bản và xây dựng được kho ngữ liệu từ đơn tiếng Lào.
Từ kho từ đơn đã có, chúng tôi đã tiến hành xây dựng kho từ vựng gồm các từ
đơn, từ ghép và cụm từ, kết hợp kiểm tra sửa lỗi thủ công, phục vụ giải quyết bài toán
tách từ tiếng Lào. Các kho ngữ vựng từ đơn và cụm từ tiếng Lào như vậy hiện vẫn
chưa có, chưa được xây dựng theo định hướng mã nguồn mở từ trước tới nay.
Để triển khai PLVB, chúng tôi đã tìm hiểu, phân tích thực tiễn các hoạt động
phân loại, lưu trữ các loại VBHC khác nhau tại trường Đại học Champasak, từ đó thu
thập, tổ chức lưu trữ mới các văn bản này để tạo ra một CSDL VBHC phục vụ các
bước xây dựng kho ngữ liệu và thử nghiệm. Với mỗi văn bản vào từ CSDL VBHC,
tiến hành bóc tách các từ tiếng Lào sử dụng phương pháp so khớp tối đa trên kho từ
vựng, kết hợp xử lý nhập nhằng sử dụng cơ sở luật.
Để tiến hành thử nghiệm, chúng tôi đã chuẩn bị đầy đủ các điều kiện cơ sở, môi
trường và công cụ thử nghiệm, lựa chọn các phương pháp PLVB, tách từ và lựa chọn
các tiêu chí, hay độ đo, để đánh giá kết quả. Sau đó, tiến hành thử nghiệm PLVB tiếng
82
Lào sử dụng hai phương pháp máy vec tơ hỗ trợ SVM và hàm bán kính cơ sở RBF, kết
hợp thử nghiệm tách từ theo hai phương pháp trường điều kiện ngẫu nhiên và dựa cơ
sở luật đã đề xuất. Các kết quả thử nghiệm PLVB và tách từ được đánh giá, so sánh
thông qua các bảng và biểu đồ.
- PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM và tách từ sử dụng
trường điều kiện ngẫu nhiên CRF đạt được độ chính xác 92.73 % .
- PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM và tách từ sử dụng cơ
sở luật để xử lý nhập nhằng đạt được độ chính xác 93.41%.
- PLVB sử dụng phương pháp mạng nơ ron RBF và tách từ sử dụng
trường điều kiện ngẫu nhiên CRF đạt được độ chính xác 92.94%.
- PLVB sử dụng phương pháp mạng nơ ron RBF và tách từ sử dụng cơ sở luật
để xử lý nhập nhằng đạt được độ chính xác 93.82%.
Có thể nhận định, giải pháp tách từ tiếng Lào đã đề xuất đã kết hơp giữa
phương pháp khử bỏ nhập nhằng và các đặc trưng ngữ pháp của hệ viết Lào. Quá trình
tách từ đã dựa vào kho ngữ vựng, thực tế đòi hỏi phải có kho ngữ liệu đủ lớn để tách
từ hiệu quả. Những giải pháp mà chúng tôi đề xuất đã góp phần xử lý một phần các
hiện tượng nhập nhằng trong văn bản tiếng Lào, cụ thể là xử lý nhập nhằng do đồng tự
(hai từ có cùng ký tự). Giải pháp cũng là một đóng góp có ý nghĩa cho tiến trình xử lý
tiếng Lào nói riêng, và XL NNTN nói chung, góp phần tiếp tục triển khai hoàn thiện
bài toán xử lý PLVB tiếng Lào tự động.
Mặc dù với dung lượng chưa đủ lớn trong các bước chạy thử nghiệm, nhưng
triển vọng mở rộng kho ngữ vụng là có thể và khả thi. Mặt khác, để đạt được độ chính
xác cao hơn, cần bổ sung các luật cho phép xử lý nhập nhằng một cách hiệu quả hơn.
Các kết quả nghiên cứu này đã được công bố tại các công trình [1][2][3].
2. Phân tích những mặt hạn chế
Thông qua kết quả thực nghiệm cho thấy, khi kết hợp tách từ sử dụng giải pháp
cơ sở luật để xử lý nhập nhằng, phương pháp mạng nơ ron RBF giải quyết bài toán
PLVB cho kết quả tốt hơn (tuy không nhiều) bộ phân loại máy vec tơ hỗ trợ SVM. Các
kết quả nghiên cứu này đã được công bố trên công trình [3].
Tuy nhiên, luận án vẫn còn một vài hạn chế sau : Các thử nghiệm sử dụng
thuật toán máy vec tơ hỗ trợ SVM và mạng nơ ron RBF cho bài toán PLVB mới thử
83
nghiệm trên kho VBHC tiếng Lào chỉ thuần tuý văn bản, đơn ngữ, không chứa các
thành phần đồ hoạ, công thức hay các thành phần đa tạp, multimedia
Mặt khác, chúng tôi mới chỉ phân loại sáu chủ đề chính của trường Đại học
Champasak như Nhân sự tiền lương, Đào tạo, Tuyển sinh, Tốt nghiệp, Đoàn-Đảng-
Thanh niên và Công đoàn, mà chưa xử lý PLVB các thể loại thông dụng như Công
văn, Thông báo, Báo cáo, Quy định, Quyết định, Kinh tế, Pháp luật hay PLVB theo
những tiêu chí cụ thể khác của trường tuỳ theo yêu cầu thực tế.
Kho văn bản HCVP cũng chưa thật lớn, chỉ mang tính thử nghiệm, do đó
chúng tôi chưa đối sánh được kết quả thử nghiệm trên nhiều bộ dữ liệu khác nhau.
Mặt khác chúng tôi cũng chưa vận dụng các thuật toán khác để chọn được phương
pháp hợp lý nhất cho nhu cầu thực tiễn của trường Đại học Champasak.
3. Hướng phát triển luận án
Hướng phát triển trước mắt của luận án là tìm cách khắc phục những mặt hạn
chế liên quan đến các giải pháp và tiền trinh thử nghiệm PLVB đã đề xuất. Sau đó,
tiếp tục đánh giá so sánh các kết quả thử nghiệm để tìm được phương pháp tối ưu, vận
dụng hiệu quả tại trường Đại học Champasak, có thể mở rộng ứng dụng cho các
trường Đại học khác trên nước CHDCND Lào.
Trong tương lai, chúng tôi tiếp tục nghiên cứu mối quan hệ của kích thước ngữ
liệu huấn luyện, mức độ cân bằng của ngữ liệu huấn luyện tác động lên hiệu quả của
các phương pháp phân loại. Chúng tôi tiếp tục nghiên cứu giải quyết bài toán PLVB
cho các văn bản đa ngữ, đa tạp (multimedia), đa lĩnh vực, có kích thước hay dung
lượng lớn hơn và môi trường sử dụng linh hoạt hơn. Hơn nữa, chúng tôi cũng tiếp tục
cải thiện độ chính xác của các phương pháp PLVB, tách từ tiếng Lào đã có được,
thông qua việc cải thiện cơ sở luật, máy suy diễn và kết hợp thêm một số đặc trưng từ
loại, cú pháp và ngữ nghĩa trong hệ việt tiếng Lào.
84
TÀI LIỆU THAM KHẢO
1. Tiếng Anh
[1] Ch. Apté, Automated learning of decision rules for text categorization, in ACM
Trans. Inf. Syst, July 1994.
[2] Chr. M. Bishop, Pattern Recognition and Machine Learning, Springer 2007.
[3] N. Chirawichitchai, Developing an effective Thai document categorization framework
base on term relevance frequency weighting in Knowledge Engineering, 2010 8th
International Conference on ICT, Nov 2010.
[4] T. M. Cover and P. E. Hart, Nearest neighbor pattern classification, IEEE Trans.
Inform. Theory, vol. IT-13, pp. 21-27, Jan. 1967.
[5] J. F¨urnkranz, A Study Using n-gram Features for Text Categorization, in Austrian
Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-98-30, 1998.
[6] Mouton de Gruyter, A Grammar of Lao, Copyright 2007 by Walter de Gruyter Ch. P.
Mekanavin, S. & B. Kijsirikul.
[7] Meknavin S, Charoenpornsawat P, Kijsirikul B. Feature-Based Thai Words
Segmentation. Proceedings of the Natural Language Processing Pacific Rim
Symposium, p41-48. Phuket, Thailand, 1997.
[8] H. X. Huan, D T. T. Hien, H. H. Tue, Training Interpolation Radial Basis Function
Networks. Signal Processing, Vol. 87, Issue 11 2007, pp. 2708–2717, 2007.
[9] D T. T. Hien, H. X. Huan, H. H. Tue, Local RBF Neural Networks for Interpolating
Multivariate Functions. IEEE International Conference on Research, Innovation and
Vision for the Future in Computing & Communications Technologies, ENST 2008 S
001, pp.70-75, 2008.
[10] T. Joachims, Text categorization with suport vector machines : Learning with many
relevant features. Proceedings of the 10th European Conference on Machine
Learning, ECML '98, 1998.
[11] W. Y. Ma, K. J. Chen, Introduction to CKIP Chinese Word Segmentation System for
the First International Chinese Word Segmentation Bakeoff. Web:
[12] N. C. Tu, N. T, Kien, P. X. Hieu, N. L. Minh, H. Q. Thuy. Vietnamese word
segmentation with CRF and SVMs, An Investigation. In 20th Pacific Asia Conference
on Language, Information and Computation (PACLIC 2006), Wuhan, China.
85
[13] H. P. Le, N. T. M. Huyen, A. Roussanaly, H. T. Vinh. A Hybrid Approach to Word
Segmentation of Vietnamese Texts. Language and Automata Theory and Applications,
Springer Edition, 2008
(web: https://hal.inria.fr/inria-00334761/PDF/LATA039.pdf).
[14] D. Palmer. A Trainable Rule-based Algorithm for Word Segmentation The MITRE
Corporation 202 Burlington Rd. Bedford, MA 01730, USA, 1996.
[15] JC Platt, Sequential minimal optimization : A fast algorithm for training support
vector machines, In Advances in Kernel Methods, Support Vector Learning, 1998.
[16] H. Poovarawan, Ch. Wongchaisuwat, A Development of Algorithms for Thai
Language Data Processing, Kasetsart University, Thailand, 2001.
[17] M.J.D. Powell, Radial basis function methods for interpolation to functions of many
variables, 2011.
[18] S. Suebvisai, P. Charoenpornsawat, Thai Automatic Speech Recognition. Proceedings
of ICASSP, Philadelphia, Pennsylvania, 2005.
[19] N. Seresangtakul, A hybrid apapproach to lao word segmentation using longest
syllable level matching with named entities recognition, in Electrical
Engineering/Electronics, Computer, Telecommunications and Information
Technology (ECTI-CON), May 2013.
[20] P.J. Tan and D.L. Dowe, MML Inference of Oblique Decision Trees, Lecture Notes in
Artificial Intelligence (LNAI) 3339, Springer-Verlag, pp1082-1088, (2004).
[21] Ah-Hwee Tan, Fon-Lin Lai. Text categorization, supervised learning, and domain
knowledge integration. Proceedings of KDD-2000, Workshop on Text Mining, 2000
(Web:
[22] C. H. A Tsai. Word Identification System for Mandarin Chinese Text Based on Two
Variants of the Maximum Matching Algorithm, 2000.
[23] N. H. A. Tú, H. Kiem, Frequent subgraph-based approach for classifying vietnamese
text documents. In Joaquim Filipe and José Cordeiro, editors, ICEIS, 2009.
[24] J. Thaisungkhom, The document classification system based on the neural network,
King Mongkut’s Institute of Technology North Bangkok, 2006
[25] S.Vanthanavong, LaoWS : Lao Word Segmentation Based on Conditional Random
Fields, Conference on Human Language Technology for Development, Alexandria,
Egypt, pp.2-5 May 2011.
[26] V. Vapnik. The Nature of Statistical Learning Theory. SpringerVerlag, 1995.
[27] Chan P. Wong. Chinese Word Segmentation Based on Maximum Matching and Word
Binding Force. Proceedings of Coling 96, pp.200-203, 1996.
86
[28] P. Yang, Highperforming feature selection for text classification. Proceedings of the
11
th
International Conference on Information and Knowledge Management, New
York, 2002.
[29] Các bài viết khác trên các trang web tiếng Anh về lĩnh vực xử lý ngôn ngữ tự nhiên,
phân loại văn bản, tách từ và các công cụ xử lý.
[30] T. Nomponkrang, C. Sanrach, The Comparison of Algorithms for Thai-Sentence
Classification, International Journal of Information and Education Technology, Vol.
6, No. 10, October 2016.
[31] Yaw-Huei Chen, P. Daowadung, Assessing Readability of Thai Text Using
support vector machines, Maejo Int. J. Sci. Technol. 2015, 9(03), 355-369; doi:
10.14456/mijst.2015.27.
[32] Satien Janpla, The Effectiveness of Automated Thai Documents Categorization Based
on Machine Learning, Journal of Theoretical and Applied Information Technology,
10 A ugust 201 4. Vo l. 66 No.1
[33] T. Siriteerakula, V. Boonjingb , R. Gullayanona, Character Classification Framework
Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research
Article; doi: 10.2306/scienceasia1513-1874.2016.42.046.
2. Tiếng Việt
[34] M. Alves, Khái quát các nghiên cứu ngôn ngữ học về nguồn gốc của tiếng Việt. Tạp
chí Khoa học ĐHQGHN, Khoa học Xã hội và Nhân văn 24, tr. 187-202, 2008.
[35] S. Duoangsopha, Xây dựng XD từ điển điện tử tin học Việt-Anh-Lào, Luận văn
Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS. Phan Huy Khánh, Đại Học
Đà Nẵng, 2005.
[36] T. C. Đệ, P. N. Khang, Phân loại văn bản với máy học vector hỗ trợ và cây quyết
định, Tạp chí Khoa học 2012:21a 52-63, Trường Đại học Cần Thơ, tr. 52-63, 2012
[37] N. L. Giang, N. M. Hiển, Phân loại văn bản tiếng Việt với bộ phân loại véctơ hỗ trợ
SVM. Tạp chí Bưu chính Viễn thông và CNTT, Số 15, tr. 66-75, 2005.
[38] H. S. Hi, Ngữ pháp tiếng Khmer, Học viện Giáo dục Dân tộc. 2012.
[39] N. T. T. Hòa, N.T. D. Thúy, T. T. A. Thư, V.T. Thảo, T. M. Phương, Nghiên cứu đặc
trưng ngôn ngữ Việt-Lào để nâng cao hiệu quả dạy học tiếng Việt cho lưu học sinh
Lào. Tạp chí Khoa học, trường Đại học Hà tĩnh, 2011.
(Web:
[40] D T. T. Hien, H. X. Huan, Thuật toán một pha huấn luyện nhanh mạng nội suy RBF
với mốc cách đều. Kỷ yếu Hội thảo quốc gia lần thứ X : Các vấn đề chọn lọc
87
của CNTT, Đại Lải, tr. 532-542, 2007.
[41] H. X. Huan, D T. T. Hien, Phương pháp lặp huấn luyện mạng nội suy RBF. Kỷ yếu
Hội thảo Quốc gia lần thứ VIII : Các vấn đề chọn lọc của CNTT, Hải Phòng, tr. 314-
323, 2005.
[42] V. Ketsilivong. Tích hợp các giải pháp cập nhật các kho ngữ liệu đa ngữ, ứng dụng
cho tiếng Lào. Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS. Phan Huy
Khánh, Đại Học Đà Nẵng (2006).
[43] T. T. Oanh, Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng
Việt. Luận văn ThS, Người HD : PGS.TS. Hà Quang Thụy, trường ĐH Công nghệ,
ĐHQG Hà Nội, 48 tr, 2008.
[44] H. Q. Thắng, Đ. T. T. Phương, “Tiếp cận phương pháp học không giám sát trong học
có giám sát với bài toán phân loại văn bản tiếng Việt và đề xuất cải tiến công thức
tính độ liên quan giữa hai văn bản trong mô hình vec tơ”, Kỷ yếu Hội thảo
ICT.rda’04, trang 251-261, Hà Nội 2005.
[45] Các bài viết khác trên các trang web tiếng Việt về lĩnh vực ngôn ngữ học, xử lý ngôn
ngữ tự nhiên, phân loại văn bản, tách từ và các công cụ xử lý.
Tiếng Lào
[46] ພ ສ ລ ວ ນນ ຄ ດ ລ ວ ຊ ນມ ດທ ຍ ມ (Tiếng Lào và văn học lớp 8), Nhà Xuất bản
Viện Nghiên cứu và Khoa học Giáo dục, Bộ Giáo dục Lào, 1997.
[47] ວຍ ກອນພ ສ ລ ວ ຊ ນມ ດທ ຍ ມ (Ngữ pháp tiếng Lào Lớp 10),
Nhà Xuất bản Bộ Giáo dục và Thể Thao Lào, 1980.
[48] ວ ດຈ ນ ນ ກ ມພ ສ ລ ວ (Từ điển tiếng Lào),
Web: http ://www.brothersoft.com/downloads/lao-dictionary.html.
[49] Các bài viết khác trên các trang web tiếng Lào về ngôn ngữ, tiếng Lào.
88
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC
[1] V. Souksan, PH.Khánh (2013). Khử bỏ nhập nhằng trong bài toán tách từ tiếng
Lào. Tạp chí Khoa học&Công nghệ, Đại học Đà Nẵng, No.1(62), tr.113-119.
[2] V. Souksan, PH.Khánh (2014), Tách từ tiếng Lào sử dụng kho ngữ vựng kết hợp
với các đặc trưng ngữ pháp tiếng Lào. Kỷ yếu Hội thảo KHQG Lần thứ XVI.
Số : 14-16/11/2014. Tr.61-68, Đà Nẵng 2014.
[3] V. Souksan, PH.Khánh (2015). Comparision on some Machine Learning
Methods for Lao Text. International Journal of Computer Science and
Telecommunications, ISSN 2047-3338. Vol.6(7), pp.8-13, July 2015.
89
KẾT QUẢ TÌM KIẾM VỀ PHÂN LOẠI VĂN BẢN TIẾNG LÀO
TRÊN MẠNG
90

File đính kèm:

luan_an_nghien_cuu_cac_phuong_phap_tach_tu_phuc_vu_phan_loai.pdf