Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản Tiếng Việt

Hiện nay, cùng với sự phát triển chung của khoa học kỹ thuật và công nghệ

thông tin đã đem đến cho con người khả năng tiếp cận với tri thức khoa học một

cách nhanh chóng, cụ thể như: thư viện điện tử, cổng thông tin điện tử, báo mạng,

các ứng dụng tìm kiếm , đã giúp con người thuận tiện hơn trong việc trao đổi, cập

nhật thông tin trên toàn cầu thông qua mạng Internet.

Tuy nhiên, với quá trình trao đổi và cập nhật thông tin một cách nhanh chóng,

khối lượng thông tin được lưu trữ (dưới dạng tài liệu số) ngày càng tăng nên gặp

phải khó khăn trong việc sắp xếp phân loại. Phân loại văn bản là một bước quan

trọng nhằm giúp cho việc xử lý hiệu quả hơn. Nếu thực hiện quá trình phân loại

bằng thủ công sẽ tốn thiều thời gian và chi phí. Vì vậy, thực hiện việc phân loại tự

động văn băn số hiện nay là một vấn đề cấp thiết.

Để phân loại văn bản số, nhiều phương pháp phân loại đã được đề xuất dựa trên

mô hình không gian véc tơ. Từ mô hình này, các mô hình xác suất được xây dựng

thông qua việc học máy nhằm mục đích phân loại tự động. Máy véc tơ hỗ trợ

(SVM) là một trong những công cụ phân loại tự động hữu hiệu, là dạng chuẩn nhận

dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán

phân loại nhị phân và được các nhà nghiên cứu trong lĩnh vực học máy đánh giá

cao. Tuy nhiên, để áp dụng vào phân loại văn bản tiếng Việt số, việc sử dụng mô

hình không gian véc tơ thường không đem lại hiệu quả cao bởi ngôn ngữ tiếng Việt

khá phức tạp. Rất nhiều từ đồng âm khác nghĩa và cũng có rất nhiều từ khi so sánh

trên ký tự thì khác nhau hoàn toàn nhưng lại có cùng ý nghĩa khi phân loại. Điều

này dẫn đến, ví dụ trong không gian véc tơ, hai văn bản chứa các từ đồng âm khác

nghĩa sẽ có khoảng cách nhỏ cho dù nội dung hoàn toàn khác nhau. Điều này dẫn

đến việc phân loại không thành công.

pdf 142 trang dienloan 18600
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản Tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản Tiếng Việt

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản Tiếng Việt
i 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 
VÕ DUY THANH 
NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT 
HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC 
PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Đà Nẵng - 2017 
ii 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 
VÕ DUY THANH 
NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT 
HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC 
PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 
 Chuyên ngành : KHOA HỌC MÁY TÍNH 
 Mã số : 62 48 01 01 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Người hướng dẫn khoa học: 
1. PGS.TS. Võ Trung Hùng 
2. PGS.TS. Đoàn Văn Ban 
Đà Nẵng - 2017 
i 
LỜI CAM ĐOAN 
Tôi tên là Võ Duy Thanh. Tôi xin cam đoan đây là công trình nghiên cứu do 
tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là 
trung thực và chưa được công bố bởi bất kỳ tác giả nào hay trong bất kỳ công trình 
khoa học nào khác. 
Tác giả Luận án 
 Võ Duy Thanh 
ii 
MỤC LỤC 
LỜI CAM ĐOAN ................................................................................................... i 
MỤC LỤC .............................................................................................................. ii 
DANH MỤC CÁC TỪ VIẾT TẮT ..................................................................... vi 
DANH MỤC HÌNH VẼ....................................................................................... vii 
DANH MỤC BẢNG ............................................................................................. ix 
MỞ ĐẦU ................................................................................................................. 1 
Chương 1. NGHIÊN CỨU TỔNG QUAN .......................................................... 9 
1.1. Học máy ............................................................................................................ 9 
1.1.1. Khái niệm ............................................................................................. 9 
1.1.2. Ứng dụng của học máy ........................................................................ 9 
1.1.3. Các dạng dữ liệu trong học máy ........................................................ 11 
1.2. Các phương pháp học máy .............................................................................. 13 
1.2.1. Học có giám sát .................................................................................. 13 
1.2.2. Học không giám sát ........................................................................... 15 
1.2.3. Học bán giám sát ................................................................................ 16 
1.2.4. Học tăng cường .................................................................................. 16 
1.2.5. Học sâu ............................................................................................... 17 
1.3. Tổng quan về học bán giám sát ....................................................................... 21 
1.3.1. Một số phương pháp học bán giám sát .............................................. 23 
1.3.2. Thuật toán học có giám sát SVM và bán giám sát SVM ................... 34 
1.3.3. Huấn luyện SVM ............................................................................... 38 
1.3.4. SVM trong phân lớp văn bản ............................................................. 39 
1.3.5. Bán giám sát SVM và phân lớp trang Web ....................................... 40 
iii 
1.3.6. Thuật toán phân lớp văn bản điển hình .............................................. 41 
1.4. Phân loại văn bản ............................................................................................ 43 
1.4.1. Văn bản .............................................................................................. 43 
1.4.2. Biểu diễn văn bản bằng véc tơ ........................................................... 44 
1.4.3. Phân loại văn bản ............................................................................... 46 
1.5. Đề xuất nghiên cứu ......................................................................................... 49 
1.6. Tiểu kết chương .............................................................................................. 51 
Chương 2. XÂY DỰNG KHO DỮ LIỆU .......................................................... 53 
2.1. Giới thiệu kho dữ liệu phân loại văn bản tiếng Việt ....................................... 53 
2.2. Tổng quan về kho dữ liệu ............................................................................... 54 
2.2.1. Khái niệm kho dữ liệu ........................................................................ 54 
2.2.2. Đặc điểm của kho dữ liệu .................................................................. 55 
2.2.3. Mục đích của kho dữ liệu ................................................................... 56 
2.2.4. Kiến trúc kho dữ liệu ......................................................................... 57 
2.3. Phân tích yêu cầu ............................................................................................ 60 
2.3.1. Xây dựng kho ..................................................................................... 60 
2.3.2. Khai thác kho ..................................................................................... 62 
2.3.3. Cập nhật kho ...................................................................................... 63 
2.4. Phân tích và đặc tả dữ liệu .............................................................................. 63 
2.5. Giải pháp xây dựng kho .................................................................................. 64 
2.5.1. Đề xuất mô hình tổng quát ................................................................. 64 
2.5.2. Quá trình xây dựng kho dữ liệu ......................................................... 64 
2.5.3. Quy trình của chương trình phân loại văn bản .................................. 65 
2.5.4. Sử dụng thuật toán Naïve Bayes để phân loại văn bản ..................... 70 
iv 
2.5.5. Định dạng đầu ra của dữ liệu trong kho ............................................. 73 
2.6. Kết quả kho dữ liệu thử nghiệm và đánh giá .................................................. 76 
2.6.1. Kết quả kho dữ liệu thử nghiệm ........................................................ 76 
2.6.2. Đánh giá kho dữ liệu .......................................................................... 76 
2.7. Tiểu kết chương .............................................................................................. 76 
Chương 3. PHÂN LOẠI VĂN BẢN DỰA TRÊN MÔ HÌNH CỰ LY 
TRẮC ĐỊA...78 
3.1. Mô hình cự ly trắc địa trên máy véc tơ hỗ trợ ................................................ 78 
3.1.1. Mô hình cự ly trắc địa ........................................................................ 78 
3.1.2. Kỹ thuật phân cụm đa dạng sử dụng cự ly trắc địa ............................ 82 
3.1.3. Phương pháp tính toán cự ly trắc địa ................................................. 83 
3.1.4. Hàm nhân trong máy véc tơ hỗ trợ sử dụng cự ly trắc địa ................ 85 
3.2. Phương pháp phân loại văn bản dựa trên mô hình cự ly trắc địa ................... 86 
3.3. Thực nghiệm phân loại văn bản dựa trên mô hình cự ly trắc địa ................... 87 
3.3.1. Phát triển chương trình ứng dụng ...................................................... 87 
3.3.2. Chuẩn bị dữ liệu ................................................................................. 87 
3.3.3. Triển khai chương trình ..................................................................... 89 
3.3.4. Kết quả thực nghiệm .......................................................................... 90 
3.4. Tiểu kết chương .............................................................................................. 95 
Chương 4. RÚT GỌN SỐ CHIỀU VÉC TƠ DỰA TRÊN ĐỒ THỊ 
DENDROGRAM. ....................................................................................................... 96 
4.1. Giới thiệu ........................................................................................................ 96 
4.1.1. Định nghĩa đồ thị Dendrogram .......................................................... 96 
4.1.2. Giải pháp đề xuất ............................................................................... 97 
v 
4.2. Xây dựng đồ thị Dendrogram từ dữ liệu Wikipedia ..................................... 101 
4.2.1. Thuật toán xử lý Wikipedia ............................................................. 101 
4.2.2. Thuật toán xử lý từ điển ................................................................... 103 
4.2.3. Thuật toán tính toán ma trận P tần số xuất hiện chung .................... 104 
4.2.4. Thuật toán xây dựng đồ thị Dendrogram ......................................... 105 
4.2.5. Triển khai phân cụm ........................................................................ 105 
4.2.6. Thử nghiệm ...................................................................................... 107 
4.3. Áp dụng véc tơ rút gọn vào phân loại văn bản ............................................. 112 
4.3.1. Dữ liệu đầu vào ................................................................................ 112 
4.3.2. Kết quả thực nghiệm ........................................................................ 112 
4.4. Tiểu kết chương ............................................................................................ 117 
KẾT LUẬN ........................................................................................................ 118 
CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ ....................................... 121 
TÀI LIỆU THAM KHẢO................................................................................. 122 
vi 
DANH MỤC CÁC TỪ VIẾT TẮT 
ANN Artificial Neural Network (Mạng nơ ron nhân tạo) 
CRFs Conditional Random Fields 
DM Data Marts (Kho dữ liệu chủ đề) 
DWH Data WareHouse (Kho dữ liệu) 
GD Geodesic Distance (Cự li trắc địa) 
IDF Inverse Document Frequency (Tần số nghịch đảo văn bản) 
IID Independently and Identically Distributed (phân phối độc lập và 
phân bố tương tự) 
ISOMAP Isometric Feature Mapping (Lập bản đồ đặc trưng đều Metric) 
KNN K - Nearest Neighbor (K láng giềng gần nhất) 
LDA Linear Discriminant Analysis (Phân tích biệt thức tuyến tính) 
MDP Markov decision process (Quy trình quyết định Markov) 
MEM Maximum Entropy Markov Model (Mô hình Markov cực đại hóa 
entropy) 
NB Naĩve Bayes 
NLP Natural Language Proscessing (Xử lý ngôn ngữ tự nhiên) 
SVM Support vector Machine (Máy véc tơ hỗ trợ) 
S3VM Semi-Supervised Support Vector Machine (bán giám sát dựa trên 
máy véc tơ hỗ trợ) 
TF Term frequency (tần suất của từ) 
RBF Radial Basis Funcions (Hàm cơ sở Radial) 
VC Vapnik-Chervonenkis (Khoảng cách VC) 
vii 
DANH MỤC HÌNH VẼ 
Hình 1.1 Siêu phẳng cực đại 26 
Hình 1.2 Biểu diễn trực quan của thiết lập Self-training 28 
Hình 1.3 Sơ đồ biểu diễn trực quan thiết lập Co-training 30 
Hình 1.4 Siêu mặt tối ưu và biên 36 
Hình 1.5 Véc tơ đặc trưng biểu diễn văn bản mẫu 46 
Hình 1.6 Mô hình tổng quát của hệ thống phân loại văn bản 49 
Hình 1.7 Mô hình phân lớp văn bản 50 
Hình 1.8 Mô hình đề xuất phân lớp văn bản sử dụng Self-training 51 
Hình 2.1 Kiến trúc DWH cơ bản 58 
Hình 2.2 Kiến trúc DWH với khu vực xử lý 58 
Hình 2.3 Kiến trúc DWH với khu vự xử lý và kho dữ liệu chủ đề 59 
Hình 2.4 Mô hình đề xuất tổng quát kho dữ liệu 64 
Hình 2.5 Quy trình phân loại văn bản 66 
Hình 2.6 Mô hình không gian véc tơ 3 chiều 70 
Hình 3.1 Cự ly Euclid và cự ly trắc địa 79 
Hình 3.2 Mô hình đề xuất 79 
Hình 3.3 Mô hình đề xuất phân loại văn bản dựa trên cự ly trắc địa 87 
Hình 3.4 Giá trị trung bình và độ lệch chuẩn của tỷ lệ phân loại 94 
Hình 4.1. Đồ thị Dendrogram 96 
Hình 4.2 Ví dụ về đồ thị Dendrogram 101 
viii 
Hình 4.3 Lưu đồ thuật toán xử lý tập tin dữ liệu Wikipedia 103 
Hình 4.4 Sơ đồ thuật toán xử lý từ điển 104 
Hình 4.5 Ví dụ cho việc cắt đồ thị Dendrogram, kết quả nhận được 3 cụm 107 
Hình 4.6 Số lượng cặp từ theo tần số xuất hiện chung 108 
Hình 4.7 Số lượng nhóm phụ thuộc phân cụm trên đồ thị Dendrogram 109 
Hình 4.8 Kết quả phân cụm với Dendrogram 109 
Hình 4.9 Một ví dụ khác thể hiện những từ liên quan đến âm nhạc 110 
Hình 4.10 Một ví dụ đồ thị Dendrogram cho các từ 110 
Hình 4.11 Ví dụ đồ thị Dendrogram cho các từ thuộc chủ đề y học 111 
Hình 4.12 Dung lượng lưu trữ véc tơ phụ thuộc vào số lượng từ 114 
Hình 4.13 Đồ thị thể hiện thời gian gán nhãn của 5 lần huấn luyện 115 
Hình 4.14 Thời gian phân loại văn bản trung bình của 5 lần huấn luyện 115 
Hình 4.15 Đồ thị thể hiện độ phân loại của 5 lần HL theo tỷ lệ phân cụm 116 
Hình 4.16 Đồ thị thể hiện sự thay đổi của kết quả theo tỷ lệ phân loại 116 
ix 
DANH MỤC BẢNG 
Bảng 2.1 Dữ liệu thô tải về 61 
Bảng 2.2 Dữ liệu huấn luyện 72 
Bảng 2.3 Kết quả kho dữ liệu thử nghiệm 76 
Bảng 3.1 Thống kê số tập tin trong kho dữ liệu 88 
Bảng 3.2 Kết quả phân loại lần 1 sử dụng SVM 91 
Bảng 3.3 Kết quả phân loại lần 1 sử dụng SVM với mô hình cự ly trắc địa 91 
Bảng 3.4 Kết quả phân loại lần 2 sử dụng SVM 92 
Bảng 3.5 Kết quả phân loại lần 2 sử dụng SVM với mô hình cự ly trắc địa 92 
Bảng 3.6 Kết quả phân loại lần 3 sử dụng SVM 92 
Bảng 3.7 Kết quả phân loại lần 3 sử dụng SVM với mô hình cự ly trắc địa 93 
Bảng 3.8 Kết quả phân loại lần 4 sử dụng SVM 93 
Bảng 3.9 Kết quả phân loại lần 4 sử dụng SVM với mô hình cự ly trắc địa 93 
Bảng 3.10 Kết quả phân loại lần 5 sử dụng SVM 94 
Bảng 3.11 Kết quả phân loại lần 5 sử dụng SVM với mô hình cự ly trắc địa 94 
Bảng 4.1 Dữ liệu huấn luyện, kiểm thử 112
1 
MỞ ĐẦU 
1. Lý do chọn đề tài 
Hiện nay, cùng với sự phát triển chung của khoa học kỹ thuật và công nghệ 
thông tin đã đem đến cho con người khả năng tiếp cận với tri thức khoa học một 
cách nhanh chóng, cụ thể như: thư viện điện tử, cổng thông tin điện tử, báo mạng, 
các ứng dụng tìm kiếm, đã giúp con người thuận tiện hơn trong việc trao đổi, cập 
nhật thông tin trên toàn cầu thông qua mạng Internet. 
Tuy nhiên, với quá trình trao đổi và cập nhật thông tin một cách nhanh chóng, 
khối lượng thông tin được lưu trữ (dưới dạng tài liệu số) ngày càng tăng nên gặp 
phải khó khăn trong việc sắp xếp phân loại. Phân loại văn bản là một bước quan 
trọng nhằm giúp cho việc xử lý hiệu quả hơn. Nếu thực hiện quá trình phân loại 
bằng thủ công sẽ tốn thiều thời gian và chi phí. Vì vậy, thực hiện việc phân loại tự 
động văn băn số hiện nay là một vấn đề cấp thiết. 
Để phân loại văn bản số, nhiều phương pháp phân loại đã được đề xuất dựa trên 
mô hình không gian véc tơ. Từ mô hình này, các mô hình xác suất được xây dựng 
thông qua việc học máy nhằm mục đích phân loại tự động. Máy véc tơ hỗ trợ 
(SVM) là một trong những công cụ phân loại tự động hữu hiệu, là dạng chuẩn nhận 
dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán 
phân loại nhị phân và được các nhà nghiên cứu trong lĩnh vực học máy đánh giá 
cao. Tuy nh ...  
dung chính của khối thông điệp trên diễn đàn thảo luận“, Tạp chí phát triển 
khoa học công nghệ, Tập 11, số 05, pp. 21-32. 
[23] Fazakis, Nikos. et al. (2015). "Self-Trained LMT for Semi-supervised 
Learning". Computational Intelligence and Neuroscience. 2016: 1–
13. doi:10.1155/2016/3057481. 
[24] Feil. B and Abonyi. J. (2007), “Geodesic Distance Based Fuzzy Clustering“, 
Lecture Notes in Computer Science, Soft Computing in Industrial 
Applications 39, pp. 50-59. 
[25] Giang Nguyễn Linh và Nguyễn Mạnh Hiển. (2006), “Phân loại văn bản tiếng 
Việt với bộ phân loại véc tơ hỗ trợSVM“, Tạp chí CNTT&TT. 
[26] Glenn Fung and O. L. Mangasarian. (2001), “Semi-supervised Support Vector 
Machines for Unlabeled Data Classification“, Optimization Methods and 
Software, pp. 1-14. 
[27] Goh. A. (2011), Riemannian manifold clustering and dimensionality reduction 
for vision-based analysis. Machine Learning for Vision-Based Motion 
Analysis: Theory and Techniques, Springer-Verlag: pp. 27-53. 
[28] Hamel. L. (2008), Knowledge Discovery With Support vector machines. 
University of Rhode Island, ISBN 978-0-470-37192-3. 
[29] Houda benbrahim. (2011), “Fuzzy Semi-supervised Support Vector 
Machines“, Machine Learning and Data Mining in Pattern Recognition, of the 
series Lecture Notes in Computer Science, 7th International Conference, 
MLDM, New York, USA, Vol 6871, pp. 127-139. 
[30] Hung Nguyen. et al. (2005), “Internet and Genetics Algorithm-based Text 
Categorization for Documents in Vietnamese“, Proceedings of 4th IEEE 
International Conference on Computer Science - Research, Innovation and 
Visio. 
[31] J. Kim. et al. (2007), “Soft Geodesic Kernel K-means“, Proc. ICASSP20072, 
pp 429-432. 
125 
[32] Jafar Tanha. et al. (2015), “Semi-supervised Self-training for decision tree 
classifiers“, International Journal of Machine Learning and Cybernetics, pp. 
1–16. 
[33] Jason D.M Rennie (2001), Improving Multi-class Text Classification with 
Naive Bayes, Submitted to the Department of Electrical Engineering and 
Computer Sciencein partial fulfillment of the requirements for the degree of 
Master of Science. 
[34] Jason Weston. et al. (2008). “Deep learning via semi-supervised embedding”, 
Proceeding ICML '08 Proceedings of the 25th international conference on 
Machine learning, Helsinki, Finland, July 05-09, 2008, ACM New York, NY, 
USA ©2008, ISBN: 978-1-60558-205-4 doi>10.1145/1390156.1390303, 
Pages 1168-1175. 
[35] Jin Chen. et al. (2009), “Constructing Overview + Detail Dendrogram – 
Matrix Views“, IEEE Trans Vis Comput Graph. Nov-Dec, pp. 889-896. 
[36] Joachims, T. (1999), “Transductive inference for text classification using 
support véc tơ machines“, Proc. 16th International Conf. on Machine 
Learning. Morgan Kaufmann, San Francisco, CA, pp. 200–209. 
[37] Joachims, T. (1997), “A probabilistic analysis of the Rocchio algorithm with 
TF-IDF for text categorization”, ICML 97 Proceedings of the Fourteenth 
International Conference on Machine Learning, pp 143-151. 
[38] Joachims, T. (1998), “Text Categorization with Support Vector Machines: 
Learning with Many Relevant Features“, In European Conference on Machine 
Learning (ECML), pp. 137-142. 
[39] Joachims, T. (2003), “Transductive learning via spectral graph partitioning”. 
In Proceeding of. The Twentieth International Conference on Machine 
Learning (ICML2003), 290-297. 
[40] Jones. R. (2005), Learning to extract entities from labeled and unlabeled text. 
(Technical Report CMU-LTI-05-191) School of Computer Science, Carnegie 
Mellon University, Pittsburgh, PA 15213. Doctoral Dissertation. 
126 
[41] Kristin. et al. (1998), “Semi-supervised Support Vector Machines“, Advances 
in neural information processing systems, pp. 368-374. 
[42] Lang, K. (1995). “Newsweeder: Learning to filter netnews”. In Machine 
Learning: Proceeding of th Twelfth International Conference (ICML-95), pp. 
331-339. 
[43] Le, Hong Phuong. et al, (2008). “A Hybrid Approach to Word Segmentation 
of Vietnamese Texts”. 2nd International Conference on Language and 
Automata Theory and Applications - LATA 2008, Mar, Tarragona, Spain. 
Springer Berlin / Heidelberg, 5196, pp. 240-249. 
[44] Levy, Omer; Goldberg, Yoav (2014). Neural Word Embedding as Implicit 
Matrix Factorization. NIPS, pp. 1-9. 
[45] Lewis, D. D., & Gale, W. A. (1994). “A sequential algorithm for training text 
classiers”. In SIGIR '94: Proceedings of the Seventeenth Annual International 
ACM SIGIR Conference on Research and Development in Information 
Retrieval, pp. 3-12. 
[46] Lewis, D. D, & Knowles, K. A. (1997). “Threading electronic mail: A 
preliminary study”. Information Processing and Management, 33 (2), 209-217. 
[47] Li Cunhe and Wu Chenggang. (2010), “A new semi-supervised support vector 
machine learning algorithm based on active learning“, Future Computer and 
Communication (ICFCC), 2nd International Conference on Vol: 3, pp. 638-
641. 
[48] Liqun Qi and Houyuan Jiang, (1997). “Semismooth Karush-Kuhn-Tucker 
Equations and Convergence Analysis of Newton and Quasi-Newton Methods 
for Solving These Equations”, Mathematics of Operations Research, Vol. 22, 
No. 2 (May, 1997), pp. 301-325. 
[49] McCallum. A and Nigam. K. (1998), “A comparison of event models for naïve 
bayes text classification“, AAAI-98 Workshop on “Learning for Text 
Categorization”, Press, pp 335-343. 
[50] Min Song. et al. (2011), “Combining active learning and semi-supervised 
127 
learning techniques to extract protein interaction sentences“, BMC 
Bioinformatics, December, pp. 1471-1480. 
[51] Mitchells. T. (2006), The discipline of machine learning, Technical Report 
CMU-ML- 06-108, Carnegie Mellon University, pp. 1-7. 
[52] M.-L. Zhang and Z.-H. Zhou. (2011), “CoTrade: confident co-training with 
data editing,” IEEE Transactions on Systems, Man, and Cybernetics, Part B: 
Cybernetics, vol. 41, no. 6, pp. 1612–1626 
[53] M. Iggane. (2012). “Self-training using a k-nearest neighbor as a base 
classifier reinforced by support vector machines”. International Journal of 
Computer Applications, vol. 56, no. 6, pp. 43–46. 
[54] Mohamed Farouk Abdel Hady. et al. (2010), “Semi-supervised learning for 
tree-structured ensembles of RBF networks with Co-training“, Neural 
Networks, The 18th International Conference on Artificial Neural Networks, 
ICANN, Vol 23, Issue 4, May, pp. 497–509 
[55] Nikos, Fazakis. et al. (2016), ”Self-trained LMT for semisupervised learning”, 
Journal Computational Intelligence and Neuroscience Volume 2016, January 
2016 Article No. 10, Hindawi Publishing Corp. New York, NY, United 
States doi>10.1155/2016/3057481. pp. 1-13. 
[56] Neil D. Lawrence and Michael I. Jordan. (2004), “Semi-supervised Learning 
via Gaussian Processes“, Neutral Information Processing Systems 17, pp. 
753-760. 
[57] Nguyen, Cam Tu. et al, (2006). “Vietnamese word segmentation with CRFs 
and SVMs: An investigation”. In 20th Pacific Asia Conference on Language, 
Information and Computation (PACLIC), pp. 215-222. 
[58] Nguyễn Ngọc Bình. (2004), “Dùng lý thuyết tập thô và các kỹ thuật khác để 
phân loại, phân cụm văn bản tiếng Việt“, Kỷ yếu hội thảo ICT.rda’04. Hà nội. 
[59] Nigam. K. (2001), Using unlabeled data to improve text classification. 
Technical Report CMU-CS-01-126. Carnegie Mellon University. Doctoral 
Dissertation. 
128 
[60] Nigam. K. et al. (2000), Text classification from labeled and unlabeled 
documents using EM. Machine Learning, pp. 103–134. 
[61] Pham. M. T and K. Tachibana. (2013), “An Algorithm for Fuzzy Clustering 
Based on Conformal Geometric Algebra“, Knowledge and Systems 
Engineering Advances in Intelligent Systems and Computing 245, pp. 83-94. 
[62] Pazzani, M. J. et al. (1996). “Syskill & Webert: Identifying interesting Web 
sites”. In Proceedings of the Thirteenth National Conference on Artificial 
Intelligence (AAAI-96), pp. 54-59. 
[63] Ratnaparkhi A. (1997), “A Simple Introduction to Maximum Entropy Model 
For Natural Language Processing”. In Technical Report 97-08 Institute for 
Reseach In Cognitive Science University of Pensylvania, pp. 1-11. 
[64] Riloff, E and R. Jones. (1999). “Learning dictionaries for information 
extraction by multi-level bootstrapping”. In Proceedings of the 6th national 
conference on Artificial intelligence, Orlando, Florida, United States. AAAI, 
pp 474–479. 
[65] Renaud Blanch. et al. (2015). “Dendrogramix: a Hybrid Tree-Matrix 
Visualization Technique to Support Interactive Exploration of Dendrograms”, 
To appear in IEEE Transactions on Visualization and Computer Graphics 
(Proceedings of PacificVis 2015) pp. 31-38. 
[66] Rosie Jones, et al. (1999), “Bootstrapping for text learning Tasks”, IJCAI-99 
Workshop on Text Mining: Foundations, Techniques and Applications, pp. 
52-63. 
[67] R. Souvenir and R. Pless. (2005), “Manifold clustering“, IEEE International 
Conference on Computer Vision I: pp. 648–653. 
[68] Sahami, M. et al. (1998). “A Baysian approach to _ltering junk e-mail”. In 
AAAI-98 Workshop on Learning for Text Categorization. Tech. rep. WS-98-
05, AAAI Press.  
[69] S. Poria. et al. (2012), “Fuzzy clustering for semi-supervised learning - Case 
study: Construction of an emotion lexicon“, Proceedings of MICAI, pp. 73-86. 
129 
[70] Seege. M. (2001), Learning with labeled and unlabeled data. Technical 
Report. University of Edinburgh. 
[71] Shavlik, J., & Eliassi-Rad, T. (1998). “Intelligent agents for web-based tasks: 
An advice-taking approach”. In AAAI-98 Workshop on Learning for Text 
Categorization. Tech. rep. WS-98-05, AAAI Press. 
[72] Shifei Ding. et al. (2015), “An overview on semi-supervised support vector 
machine“, in Neural Computing and Applications, pp. 1-10. 
[73] Sidorov Grigori and Velasquez Francisco. et al. (2009), “Syntactic n-Grams as 
Machine Learning Features for Natural Language Processing“, Expert 
Systems with Applications 41 (3), pp. 853–860. 
[74] Sidorov Grigori. et al. (2012), “Syntactic Dependency-based n-grams as 
Classification Features“, LNAI 7630, pp. 1–11. 
[75] Stamatis Karlos. Et al. (2016). “A Semisupervised Cascade Classification 
Algorithm”, Applied Computational Intelligence and Soft Computing, 
Volume 2016, Article ID 5919717, 14 pages, 
[76] S. Sun and F. Jin. (2011). “Robust co-training”. International Journal of 
Pattern Recognition and Artificial Intelligence, vol. 25, no. 7, pp. 1113–1126. 
[77] Steven J. Benson and Jone J. Moré, (2001). “A Limited Memory Variable 
Metric Method In Subspace for Bound-constrained Optimization Problem”. In 
Preprint ANL/MCS, P909-0901. 
[78] Susana Eyheramendy, et al. (2003), “On the Naive Bayes Model for Text 
Classification”. In Proceedings of the ninth international workshop on 
Artifcial Intelligence & Statistics, eds, C.M. Bishop and B.J. Frey. 
[79] Thắng Huỳnh Quyết và Đinh Thị Thu Phương. (2005), “Tiếp cận phương 
pháp học không giám sát trong học có giám sát với bài toán phân lớp văn bản 
tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản 
trong mô hình véc tơ“, Kỷ yếu Hội thảo ICT.rda’04, pp. 251-261. 
130 
[80] Tongguang Ni. et al. (2015), “Locality Preserving Semi-Supervised Support 
Vector Machine“, Journal of information Science and Engineering 31, pp. 
2009-2024. 
[81] Trần Cao Đệ và Phạm Nguyên Khang. (2012), “Phân loại với máy học vector 
hỗ trợ và cây quyết định“, Tạp chí khoa học Trường Đại học Cần Thơ, 21a, 
pp. 52-63. 
[82] Trần Mai Vũ. et al. (2008), “Độ tương đồng ngữ nghĩa giữa hai câu và áp dụng 
vào bài toán sử dụng tóm tắt đa văn bản để đánh giá chất lượng phân cụm dữ 
liệu trên máy tìm kiếm VNSEN“, Hội thảo CN Thông tin Truyền thông lần thứ 
nhất (ICTFIT08) ĐHKHTN, ĐHQG TP HCM, pp. 94-102. 
[83] Triguero Isaac. et al. (2013), Self-labeled techniques for semi-supervised 
learning: taxonomy, software and empirical study. Knowledge and 
Information Systems 42 (2): pp. 245–284. 
[84] Van Nguyen. et al. (2014), “Kernel-based semi-supervised learning for 
novelty detection“, International Joint Conference on Neural Networks 
(IJCNN), Conference Location, July. pp: 4129 - 4136. 
[85] Vipin Kumar. et al. (2010), “Optimizing F-Measure with Support Vector 
Machines“, Proceedings of the 16 International, Florida, Articial Intellegence 
Reseach Society Conference, pp. 356-360. 
[86] Vu Cong Duy Hoang. et al. (2007), “A Comparative Study on Vietnamese 
Text Classification Methods“, Research, Innovation and Vision for the Future, 
IEEE International Conference on, pp. 267-273. 
[87] Xiaojin Zhu. (2008), Semi-Supervised Learning Literature Survey. Computer 
Sciences TR 1530, University of Wisconsin, Last modified on July. 
[88] Yarowsky, D. (1995), "Unsupervised Word Sense Disambiguation Rivaling 
Supervised Methods". Proceedings of the 33rd Annual Meeting of the 
Association for Computational Linguistics. Cambridge, MA, pp. 189–196. 
[89] Y. Wang and S. Chen. (2013), “Safety-aware semi-supervised classification“, 
IEEE Transaction on Neural Network and Learning System, Vol. 24, pp. 
1763-1772. 
131 
[90] [76]Yu, H. et al. (2003). “Text classification from positive and unlabeled 
documents”. In O. Frieder, J. et al. (Eds.), CIKM 2003: Proceedings of the 
Twelfth ACM International Conference on Information and Knowledge 
Management. pp. 232-239 
[91] Yitan Li. Et al. (2015). “Word Embedding Revisited: A New Representation 
Learning and Explicit Matrix Factorization Perspective”. Proceedings of the 
Twenty-Fourth international joint conference on Artificial Intelligence (IJCAI 
2015). pp 3650-3656. 
[92] Yun Jin. et al. (2011), “A Semi-Supervised Learning Algorithm Based on 
Modified Self-training SVM“, in Journal of Computers 6, pp.1438-1443. 
[93] Yves Grandvalet and Yoshua Bengio. (2005), “Semi-supervised Learning by 
Entropy Minimization“, Advances in neutral information processing systems 
17, pp. 1-8. 
[94] Z. H. Zhou. et al. (2007), “Semi-supervised learning with very few labeled 
training examples“, in Proceedings of the 22nd Conference on Artificial 
Intelligence and the 19th Innovative Applications of Artificial Intelligence 
Conference (AAAI '07), pp. 675-680. 
[95] Zhu. et al. (2009), introduction to semi-supervised learning. Morgan & 
Claypool. ISBN 9781598295481. 
[96] Zhou, D., Huang, J., & Scholkopf, B. (2005). “Learning from labeled and 
unlabeled data on a directed graph”. ICML05, 22nd International Conference 
on Machine Learning. Bonn, Germany. 
[97] Zhou, Z.-H., & Li, M. (2005). “Semi-supervised regression with co-training”. 
International Joint Conference on Artificial Intelligence (IJCAI). 
[98] Zhu, X. (2005). “Semi-supervised learning with graphs”. Doctoral 
dissertation, Carnegie Mellon University (mã số CMU-LTI-05-192). 
[99] Piyush Rai. (2011). Semi-supervised learning, CS5350/6350: Machine 
Learning, November 8, 2011. 

File đính kèm:

  • pdfluan_an_nghien_cuu_ung_dung_ky_thuat_hoc_ban_giam_sat_vao_li.pdf