Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản Tiếng Việt
Hiện nay, cùng với sự phát triển chung của khoa học kỹ thuật và công nghệ
thông tin đã đem đến cho con người khả năng tiếp cận với tri thức khoa học một
cách nhanh chóng, cụ thể như: thư viện điện tử, cổng thông tin điện tử, báo mạng,
các ứng dụng tìm kiếm , đã giúp con người thuận tiện hơn trong việc trao đổi, cập
nhật thông tin trên toàn cầu thông qua mạng Internet.
Tuy nhiên, với quá trình trao đổi và cập nhật thông tin một cách nhanh chóng,
khối lượng thông tin được lưu trữ (dưới dạng tài liệu số) ngày càng tăng nên gặp
phải khó khăn trong việc sắp xếp phân loại. Phân loại văn bản là một bước quan
trọng nhằm giúp cho việc xử lý hiệu quả hơn. Nếu thực hiện quá trình phân loại
bằng thủ công sẽ tốn thiều thời gian và chi phí. Vì vậy, thực hiện việc phân loại tự
động văn băn số hiện nay là một vấn đề cấp thiết.
Để phân loại văn bản số, nhiều phương pháp phân loại đã được đề xuất dựa trên
mô hình không gian véc tơ. Từ mô hình này, các mô hình xác suất được xây dựng
thông qua việc học máy nhằm mục đích phân loại tự động. Máy véc tơ hỗ trợ
(SVM) là một trong những công cụ phân loại tự động hữu hiệu, là dạng chuẩn nhận
dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán
phân loại nhị phân và được các nhà nghiên cứu trong lĩnh vực học máy đánh giá
cao. Tuy nhiên, để áp dụng vào phân loại văn bản tiếng Việt số, việc sử dụng mô
hình không gian véc tơ thường không đem lại hiệu quả cao bởi ngôn ngữ tiếng Việt
khá phức tạp. Rất nhiều từ đồng âm khác nghĩa và cũng có rất nhiều từ khi so sánh
trên ký tự thì khác nhau hoàn toàn nhưng lại có cùng ý nghĩa khi phân loại. Điều
này dẫn đến, ví dụ trong không gian véc tơ, hai văn bản chứa các từ đồng âm khác
nghĩa sẽ có khoảng cách nhỏ cho dù nội dung hoàn toàn khác nhau. Điều này dẫn
đến việc phân loại không thành công.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản Tiếng Việt
i BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VÕ DUY THANH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2017 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VÕ DUY THANH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: 1. PGS.TS. Võ Trung Hùng 2. PGS.TS. Đoàn Văn Ban Đà Nẵng - 2017 i LỜI CAM ĐOAN Tôi tên là Võ Duy Thanh. Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và chưa được công bố bởi bất kỳ tác giả nào hay trong bất kỳ công trình khoa học nào khác. Tác giả Luận án Võ Duy Thanh ii MỤC LỤC LỜI CAM ĐOAN ................................................................................................... i MỤC LỤC .............................................................................................................. ii DANH MỤC CÁC TỪ VIẾT TẮT ..................................................................... vi DANH MỤC HÌNH VẼ....................................................................................... vii DANH MỤC BẢNG ............................................................................................. ix MỞ ĐẦU ................................................................................................................. 1 Chương 1. NGHIÊN CỨU TỔNG QUAN .......................................................... 9 1.1. Học máy ............................................................................................................ 9 1.1.1. Khái niệm ............................................................................................. 9 1.1.2. Ứng dụng của học máy ........................................................................ 9 1.1.3. Các dạng dữ liệu trong học máy ........................................................ 11 1.2. Các phương pháp học máy .............................................................................. 13 1.2.1. Học có giám sát .................................................................................. 13 1.2.2. Học không giám sát ........................................................................... 15 1.2.3. Học bán giám sát ................................................................................ 16 1.2.4. Học tăng cường .................................................................................. 16 1.2.5. Học sâu ............................................................................................... 17 1.3. Tổng quan về học bán giám sát ....................................................................... 21 1.3.1. Một số phương pháp học bán giám sát .............................................. 23 1.3.2. Thuật toán học có giám sát SVM và bán giám sát SVM ................... 34 1.3.3. Huấn luyện SVM ............................................................................... 38 1.3.4. SVM trong phân lớp văn bản ............................................................. 39 1.3.5. Bán giám sát SVM và phân lớp trang Web ....................................... 40 iii 1.3.6. Thuật toán phân lớp văn bản điển hình .............................................. 41 1.4. Phân loại văn bản ............................................................................................ 43 1.4.1. Văn bản .............................................................................................. 43 1.4.2. Biểu diễn văn bản bằng véc tơ ........................................................... 44 1.4.3. Phân loại văn bản ............................................................................... 46 1.5. Đề xuất nghiên cứu ......................................................................................... 49 1.6. Tiểu kết chương .............................................................................................. 51 Chương 2. XÂY DỰNG KHO DỮ LIỆU .......................................................... 53 2.1. Giới thiệu kho dữ liệu phân loại văn bản tiếng Việt ....................................... 53 2.2. Tổng quan về kho dữ liệu ............................................................................... 54 2.2.1. Khái niệm kho dữ liệu ........................................................................ 54 2.2.2. Đặc điểm của kho dữ liệu .................................................................. 55 2.2.3. Mục đích của kho dữ liệu ................................................................... 56 2.2.4. Kiến trúc kho dữ liệu ......................................................................... 57 2.3. Phân tích yêu cầu ............................................................................................ 60 2.3.1. Xây dựng kho ..................................................................................... 60 2.3.2. Khai thác kho ..................................................................................... 62 2.3.3. Cập nhật kho ...................................................................................... 63 2.4. Phân tích và đặc tả dữ liệu .............................................................................. 63 2.5. Giải pháp xây dựng kho .................................................................................. 64 2.5.1. Đề xuất mô hình tổng quát ................................................................. 64 2.5.2. Quá trình xây dựng kho dữ liệu ......................................................... 64 2.5.3. Quy trình của chương trình phân loại văn bản .................................. 65 2.5.4. Sử dụng thuật toán Naïve Bayes để phân loại văn bản ..................... 70 iv 2.5.5. Định dạng đầu ra của dữ liệu trong kho ............................................. 73 2.6. Kết quả kho dữ liệu thử nghiệm và đánh giá .................................................. 76 2.6.1. Kết quả kho dữ liệu thử nghiệm ........................................................ 76 2.6.2. Đánh giá kho dữ liệu .......................................................................... 76 2.7. Tiểu kết chương .............................................................................................. 76 Chương 3. PHÂN LOẠI VĂN BẢN DỰA TRÊN MÔ HÌNH CỰ LY TRẮC ĐỊA...78 3.1. Mô hình cự ly trắc địa trên máy véc tơ hỗ trợ ................................................ 78 3.1.1. Mô hình cự ly trắc địa ........................................................................ 78 3.1.2. Kỹ thuật phân cụm đa dạng sử dụng cự ly trắc địa ............................ 82 3.1.3. Phương pháp tính toán cự ly trắc địa ................................................. 83 3.1.4. Hàm nhân trong máy véc tơ hỗ trợ sử dụng cự ly trắc địa ................ 85 3.2. Phương pháp phân loại văn bản dựa trên mô hình cự ly trắc địa ................... 86 3.3. Thực nghiệm phân loại văn bản dựa trên mô hình cự ly trắc địa ................... 87 3.3.1. Phát triển chương trình ứng dụng ...................................................... 87 3.3.2. Chuẩn bị dữ liệu ................................................................................. 87 3.3.3. Triển khai chương trình ..................................................................... 89 3.3.4. Kết quả thực nghiệm .......................................................................... 90 3.4. Tiểu kết chương .............................................................................................. 95 Chương 4. RÚT GỌN SỐ CHIỀU VÉC TƠ DỰA TRÊN ĐỒ THỊ DENDROGRAM. ....................................................................................................... 96 4.1. Giới thiệu ........................................................................................................ 96 4.1.1. Định nghĩa đồ thị Dendrogram .......................................................... 96 4.1.2. Giải pháp đề xuất ............................................................................... 97 v 4.2. Xây dựng đồ thị Dendrogram từ dữ liệu Wikipedia ..................................... 101 4.2.1. Thuật toán xử lý Wikipedia ............................................................. 101 4.2.2. Thuật toán xử lý từ điển ................................................................... 103 4.2.3. Thuật toán tính toán ma trận P tần số xuất hiện chung .................... 104 4.2.4. Thuật toán xây dựng đồ thị Dendrogram ......................................... 105 4.2.5. Triển khai phân cụm ........................................................................ 105 4.2.6. Thử nghiệm ...................................................................................... 107 4.3. Áp dụng véc tơ rút gọn vào phân loại văn bản ............................................. 112 4.3.1. Dữ liệu đầu vào ................................................................................ 112 4.3.2. Kết quả thực nghiệm ........................................................................ 112 4.4. Tiểu kết chương ............................................................................................ 117 KẾT LUẬN ........................................................................................................ 118 CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ ....................................... 121 TÀI LIỆU THAM KHẢO................................................................................. 122 vi DANH MỤC CÁC TỪ VIẾT TẮT ANN Artificial Neural Network (Mạng nơ ron nhân tạo) CRFs Conditional Random Fields DM Data Marts (Kho dữ liệu chủ đề) DWH Data WareHouse (Kho dữ liệu) GD Geodesic Distance (Cự li trắc địa) IDF Inverse Document Frequency (Tần số nghịch đảo văn bản) IID Independently and Identically Distributed (phân phối độc lập và phân bố tương tự) ISOMAP Isometric Feature Mapping (Lập bản đồ đặc trưng đều Metric) KNN K - Nearest Neighbor (K láng giềng gần nhất) LDA Linear Discriminant Analysis (Phân tích biệt thức tuyến tính) MDP Markov decision process (Quy trình quyết định Markov) MEM Maximum Entropy Markov Model (Mô hình Markov cực đại hóa entropy) NB Naĩve Bayes NLP Natural Language Proscessing (Xử lý ngôn ngữ tự nhiên) SVM Support vector Machine (Máy véc tơ hỗ trợ) S3VM Semi-Supervised Support Vector Machine (bán giám sát dựa trên máy véc tơ hỗ trợ) TF Term frequency (tần suất của từ) RBF Radial Basis Funcions (Hàm cơ sở Radial) VC Vapnik-Chervonenkis (Khoảng cách VC) vii DANH MỤC HÌNH VẼ Hình 1.1 Siêu phẳng cực đại 26 Hình 1.2 Biểu diễn trực quan của thiết lập Self-training 28 Hình 1.3 Sơ đồ biểu diễn trực quan thiết lập Co-training 30 Hình 1.4 Siêu mặt tối ưu và biên 36 Hình 1.5 Véc tơ đặc trưng biểu diễn văn bản mẫu 46 Hình 1.6 Mô hình tổng quát của hệ thống phân loại văn bản 49 Hình 1.7 Mô hình phân lớp văn bản 50 Hình 1.8 Mô hình đề xuất phân lớp văn bản sử dụng Self-training 51 Hình 2.1 Kiến trúc DWH cơ bản 58 Hình 2.2 Kiến trúc DWH với khu vực xử lý 58 Hình 2.3 Kiến trúc DWH với khu vự xử lý và kho dữ liệu chủ đề 59 Hình 2.4 Mô hình đề xuất tổng quát kho dữ liệu 64 Hình 2.5 Quy trình phân loại văn bản 66 Hình 2.6 Mô hình không gian véc tơ 3 chiều 70 Hình 3.1 Cự ly Euclid và cự ly trắc địa 79 Hình 3.2 Mô hình đề xuất 79 Hình 3.3 Mô hình đề xuất phân loại văn bản dựa trên cự ly trắc địa 87 Hình 3.4 Giá trị trung bình và độ lệch chuẩn của tỷ lệ phân loại 94 Hình 4.1. Đồ thị Dendrogram 96 Hình 4.2 Ví dụ về đồ thị Dendrogram 101 viii Hình 4.3 Lưu đồ thuật toán xử lý tập tin dữ liệu Wikipedia 103 Hình 4.4 Sơ đồ thuật toán xử lý từ điển 104 Hình 4.5 Ví dụ cho việc cắt đồ thị Dendrogram, kết quả nhận được 3 cụm 107 Hình 4.6 Số lượng cặp từ theo tần số xuất hiện chung 108 Hình 4.7 Số lượng nhóm phụ thuộc phân cụm trên đồ thị Dendrogram 109 Hình 4.8 Kết quả phân cụm với Dendrogram 109 Hình 4.9 Một ví dụ khác thể hiện những từ liên quan đến âm nhạc 110 Hình 4.10 Một ví dụ đồ thị Dendrogram cho các từ 110 Hình 4.11 Ví dụ đồ thị Dendrogram cho các từ thuộc chủ đề y học 111 Hình 4.12 Dung lượng lưu trữ véc tơ phụ thuộc vào số lượng từ 114 Hình 4.13 Đồ thị thể hiện thời gian gán nhãn của 5 lần huấn luyện 115 Hình 4.14 Thời gian phân loại văn bản trung bình của 5 lần huấn luyện 115 Hình 4.15 Đồ thị thể hiện độ phân loại của 5 lần HL theo tỷ lệ phân cụm 116 Hình 4.16 Đồ thị thể hiện sự thay đổi của kết quả theo tỷ lệ phân loại 116 ix DANH MỤC BẢNG Bảng 2.1 Dữ liệu thô tải về 61 Bảng 2.2 Dữ liệu huấn luyện 72 Bảng 2.3 Kết quả kho dữ liệu thử nghiệm 76 Bảng 3.1 Thống kê số tập tin trong kho dữ liệu 88 Bảng 3.2 Kết quả phân loại lần 1 sử dụng SVM 91 Bảng 3.3 Kết quả phân loại lần 1 sử dụng SVM với mô hình cự ly trắc địa 91 Bảng 3.4 Kết quả phân loại lần 2 sử dụng SVM 92 Bảng 3.5 Kết quả phân loại lần 2 sử dụng SVM với mô hình cự ly trắc địa 92 Bảng 3.6 Kết quả phân loại lần 3 sử dụng SVM 92 Bảng 3.7 Kết quả phân loại lần 3 sử dụng SVM với mô hình cự ly trắc địa 93 Bảng 3.8 Kết quả phân loại lần 4 sử dụng SVM 93 Bảng 3.9 Kết quả phân loại lần 4 sử dụng SVM với mô hình cự ly trắc địa 93 Bảng 3.10 Kết quả phân loại lần 5 sử dụng SVM 94 Bảng 3.11 Kết quả phân loại lần 5 sử dụng SVM với mô hình cự ly trắc địa 94 Bảng 4.1 Dữ liệu huấn luyện, kiểm thử 112 1 MỞ ĐẦU 1. Lý do chọn đề tài Hiện nay, cùng với sự phát triển chung của khoa học kỹ thuật và công nghệ thông tin đã đem đến cho con người khả năng tiếp cận với tri thức khoa học một cách nhanh chóng, cụ thể như: thư viện điện tử, cổng thông tin điện tử, báo mạng, các ứng dụng tìm kiếm, đã giúp con người thuận tiện hơn trong việc trao đổi, cập nhật thông tin trên toàn cầu thông qua mạng Internet. Tuy nhiên, với quá trình trao đổi và cập nhật thông tin một cách nhanh chóng, khối lượng thông tin được lưu trữ (dưới dạng tài liệu số) ngày càng tăng nên gặp phải khó khăn trong việc sắp xếp phân loại. Phân loại văn bản là một bước quan trọng nhằm giúp cho việc xử lý hiệu quả hơn. Nếu thực hiện quá trình phân loại bằng thủ công sẽ tốn thiều thời gian và chi phí. Vì vậy, thực hiện việc phân loại tự động văn băn số hiện nay là một vấn đề cấp thiết. Để phân loại văn bản số, nhiều phương pháp phân loại đã được đề xuất dựa trên mô hình không gian véc tơ. Từ mô hình này, các mô hình xác suất được xây dựng thông qua việc học máy nhằm mục đích phân loại tự động. Máy véc tơ hỗ trợ (SVM) là một trong những công cụ phân loại tự động hữu hiệu, là dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán phân loại nhị phân và được các nhà nghiên cứu trong lĩnh vực học máy đánh giá cao. Tuy nh ... dung chính của khối thông điệp trên diễn đàn thảo luận“, Tạp chí phát triển khoa học công nghệ, Tập 11, số 05, pp. 21-32. [23] Fazakis, Nikos. et al. (2015). "Self-Trained LMT for Semi-supervised Learning". Computational Intelligence and Neuroscience. 2016: 1– 13. doi:10.1155/2016/3057481. [24] Feil. B and Abonyi. J. (2007), “Geodesic Distance Based Fuzzy Clustering“, Lecture Notes in Computer Science, Soft Computing in Industrial Applications 39, pp. 50-59. [25] Giang Nguyễn Linh và Nguyễn Mạnh Hiển. (2006), “Phân loại văn bản tiếng Việt với bộ phân loại véc tơ hỗ trợSVM“, Tạp chí CNTT&TT. [26] Glenn Fung and O. L. Mangasarian. (2001), “Semi-supervised Support Vector Machines for Unlabeled Data Classification“, Optimization Methods and Software, pp. 1-14. [27] Goh. A. (2011), Riemannian manifold clustering and dimensionality reduction for vision-based analysis. Machine Learning for Vision-Based Motion Analysis: Theory and Techniques, Springer-Verlag: pp. 27-53. [28] Hamel. L. (2008), Knowledge Discovery With Support vector machines. University of Rhode Island, ISBN 978-0-470-37192-3. [29] Houda benbrahim. (2011), “Fuzzy Semi-supervised Support Vector Machines“, Machine Learning and Data Mining in Pattern Recognition, of the series Lecture Notes in Computer Science, 7th International Conference, MLDM, New York, USA, Vol 6871, pp. 127-139. [30] Hung Nguyen. et al. (2005), “Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese“, Proceedings of 4th IEEE International Conference on Computer Science - Research, Innovation and Visio. [31] J. Kim. et al. (2007), “Soft Geodesic Kernel K-means“, Proc. ICASSP20072, pp 429-432. 125 [32] Jafar Tanha. et al. (2015), “Semi-supervised Self-training for decision tree classifiers“, International Journal of Machine Learning and Cybernetics, pp. 1–16. [33] Jason D.M Rennie (2001), Improving Multi-class Text Classification with Naive Bayes, Submitted to the Department of Electrical Engineering and Computer Sciencein partial fulfillment of the requirements for the degree of Master of Science. [34] Jason Weston. et al. (2008). “Deep learning via semi-supervised embedding”, Proceeding ICML '08 Proceedings of the 25th international conference on Machine learning, Helsinki, Finland, July 05-09, 2008, ACM New York, NY, USA ©2008, ISBN: 978-1-60558-205-4 doi>10.1145/1390156.1390303, Pages 1168-1175. [35] Jin Chen. et al. (2009), “Constructing Overview + Detail Dendrogram – Matrix Views“, IEEE Trans Vis Comput Graph. Nov-Dec, pp. 889-896. [36] Joachims, T. (1999), “Transductive inference for text classification using support véc tơ machines“, Proc. 16th International Conf. on Machine Learning. Morgan Kaufmann, San Francisco, CA, pp. 200–209. [37] Joachims, T. (1997), “A probabilistic analysis of the Rocchio algorithm with TF-IDF for text categorization”, ICML 97 Proceedings of the Fourteenth International Conference on Machine Learning, pp 143-151. [38] Joachims, T. (1998), “Text Categorization with Support Vector Machines: Learning with Many Relevant Features“, In European Conference on Machine Learning (ECML), pp. 137-142. [39] Joachims, T. (2003), “Transductive learning via spectral graph partitioning”. In Proceeding of. The Twentieth International Conference on Machine Learning (ICML2003), 290-297. [40] Jones. R. (2005), Learning to extract entities from labeled and unlabeled text. (Technical Report CMU-LTI-05-191) School of Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213. Doctoral Dissertation. 126 [41] Kristin. et al. (1998), “Semi-supervised Support Vector Machines“, Advances in neural information processing systems, pp. 368-374. [42] Lang, K. (1995). “Newsweeder: Learning to filter netnews”. In Machine Learning: Proceeding of th Twelfth International Conference (ICML-95), pp. 331-339. [43] Le, Hong Phuong. et al, (2008). “A Hybrid Approach to Word Segmentation of Vietnamese Texts”. 2nd International Conference on Language and Automata Theory and Applications - LATA 2008, Mar, Tarragona, Spain. Springer Berlin / Heidelberg, 5196, pp. 240-249. [44] Levy, Omer; Goldberg, Yoav (2014). Neural Word Embedding as Implicit Matrix Factorization. NIPS, pp. 1-9. [45] Lewis, D. D., & Gale, W. A. (1994). “A sequential algorithm for training text classiers”. In SIGIR '94: Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 3-12. [46] Lewis, D. D, & Knowles, K. A. (1997). “Threading electronic mail: A preliminary study”. Information Processing and Management, 33 (2), 209-217. [47] Li Cunhe and Wu Chenggang. (2010), “A new semi-supervised support vector machine learning algorithm based on active learning“, Future Computer and Communication (ICFCC), 2nd International Conference on Vol: 3, pp. 638- 641. [48] Liqun Qi and Houyuan Jiang, (1997). “Semismooth Karush-Kuhn-Tucker Equations and Convergence Analysis of Newton and Quasi-Newton Methods for Solving These Equations”, Mathematics of Operations Research, Vol. 22, No. 2 (May, 1997), pp. 301-325. [49] McCallum. A and Nigam. K. (1998), “A comparison of event models for naïve bayes text classification“, AAAI-98 Workshop on “Learning for Text Categorization”, Press, pp 335-343. [50] Min Song. et al. (2011), “Combining active learning and semi-supervised 127 learning techniques to extract protein interaction sentences“, BMC Bioinformatics, December, pp. 1471-1480. [51] Mitchells. T. (2006), The discipline of machine learning, Technical Report CMU-ML- 06-108, Carnegie Mellon University, pp. 1-7. [52] M.-L. Zhang and Z.-H. Zhou. (2011), “CoTrade: confident co-training with data editing,” IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, vol. 41, no. 6, pp. 1612–1626 [53] M. Iggane. (2012). “Self-training using a k-nearest neighbor as a base classifier reinforced by support vector machines”. International Journal of Computer Applications, vol. 56, no. 6, pp. 43–46. [54] Mohamed Farouk Abdel Hady. et al. (2010), “Semi-supervised learning for tree-structured ensembles of RBF networks with Co-training“, Neural Networks, The 18th International Conference on Artificial Neural Networks, ICANN, Vol 23, Issue 4, May, pp. 497–509 [55] Nikos, Fazakis. et al. (2016), ”Self-trained LMT for semisupervised learning”, Journal Computational Intelligence and Neuroscience Volume 2016, January 2016 Article No. 10, Hindawi Publishing Corp. New York, NY, United States doi>10.1155/2016/3057481. pp. 1-13. [56] Neil D. Lawrence and Michael I. Jordan. (2004), “Semi-supervised Learning via Gaussian Processes“, Neutral Information Processing Systems 17, pp. 753-760. [57] Nguyen, Cam Tu. et al, (2006). “Vietnamese word segmentation with CRFs and SVMs: An investigation”. In 20th Pacific Asia Conference on Language, Information and Computation (PACLIC), pp. 215-222. [58] Nguyễn Ngọc Bình. (2004), “Dùng lý thuyết tập thô và các kỹ thuật khác để phân loại, phân cụm văn bản tiếng Việt“, Kỷ yếu hội thảo ICT.rda’04. Hà nội. [59] Nigam. K. (2001), Using unlabeled data to improve text classification. Technical Report CMU-CS-01-126. Carnegie Mellon University. Doctoral Dissertation. 128 [60] Nigam. K. et al. (2000), Text classification from labeled and unlabeled documents using EM. Machine Learning, pp. 103–134. [61] Pham. M. T and K. Tachibana. (2013), “An Algorithm for Fuzzy Clustering Based on Conformal Geometric Algebra“, Knowledge and Systems Engineering Advances in Intelligent Systems and Computing 245, pp. 83-94. [62] Pazzani, M. J. et al. (1996). “Syskill & Webert: Identifying interesting Web sites”. In Proceedings of the Thirteenth National Conference on Artificial Intelligence (AAAI-96), pp. 54-59. [63] Ratnaparkhi A. (1997), “A Simple Introduction to Maximum Entropy Model For Natural Language Processing”. In Technical Report 97-08 Institute for Reseach In Cognitive Science University of Pensylvania, pp. 1-11. [64] Riloff, E and R. Jones. (1999). “Learning dictionaries for information extraction by multi-level bootstrapping”. In Proceedings of the 6th national conference on Artificial intelligence, Orlando, Florida, United States. AAAI, pp 474–479. [65] Renaud Blanch. et al. (2015). “Dendrogramix: a Hybrid Tree-Matrix Visualization Technique to Support Interactive Exploration of Dendrograms”, To appear in IEEE Transactions on Visualization and Computer Graphics (Proceedings of PacificVis 2015) pp. 31-38. [66] Rosie Jones, et al. (1999), “Bootstrapping for text learning Tasks”, IJCAI-99 Workshop on Text Mining: Foundations, Techniques and Applications, pp. 52-63. [67] R. Souvenir and R. Pless. (2005), “Manifold clustering“, IEEE International Conference on Computer Vision I: pp. 648–653. [68] Sahami, M. et al. (1998). “A Baysian approach to _ltering junk e-mail”. In AAAI-98 Workshop on Learning for Text Categorization. Tech. rep. WS-98- 05, AAAI Press. [69] S. Poria. et al. (2012), “Fuzzy clustering for semi-supervised learning - Case study: Construction of an emotion lexicon“, Proceedings of MICAI, pp. 73-86. 129 [70] Seege. M. (2001), Learning with labeled and unlabeled data. Technical Report. University of Edinburgh. [71] Shavlik, J., & Eliassi-Rad, T. (1998). “Intelligent agents for web-based tasks: An advice-taking approach”. In AAAI-98 Workshop on Learning for Text Categorization. Tech. rep. WS-98-05, AAAI Press. [72] Shifei Ding. et al. (2015), “An overview on semi-supervised support vector machine“, in Neural Computing and Applications, pp. 1-10. [73] Sidorov Grigori and Velasquez Francisco. et al. (2009), “Syntactic n-Grams as Machine Learning Features for Natural Language Processing“, Expert Systems with Applications 41 (3), pp. 853–860. [74] Sidorov Grigori. et al. (2012), “Syntactic Dependency-based n-grams as Classification Features“, LNAI 7630, pp. 1–11. [75] Stamatis Karlos. Et al. (2016). “A Semisupervised Cascade Classification Algorithm”, Applied Computational Intelligence and Soft Computing, Volume 2016, Article ID 5919717, 14 pages, [76] S. Sun and F. Jin. (2011). “Robust co-training”. International Journal of Pattern Recognition and Artificial Intelligence, vol. 25, no. 7, pp. 1113–1126. [77] Steven J. Benson and Jone J. Moré, (2001). “A Limited Memory Variable Metric Method In Subspace for Bound-constrained Optimization Problem”. In Preprint ANL/MCS, P909-0901. [78] Susana Eyheramendy, et al. (2003), “On the Naive Bayes Model for Text Classification”. In Proceedings of the ninth international workshop on Artifcial Intelligence & Statistics, eds, C.M. Bishop and B.J. Frey. [79] Thắng Huỳnh Quyết và Đinh Thị Thu Phương. (2005), “Tiếp cận phương pháp học không giám sát trong học có giám sát với bài toán phân lớp văn bản tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản trong mô hình véc tơ“, Kỷ yếu Hội thảo ICT.rda’04, pp. 251-261. 130 [80] Tongguang Ni. et al. (2015), “Locality Preserving Semi-Supervised Support Vector Machine“, Journal of information Science and Engineering 31, pp. 2009-2024. [81] Trần Cao Đệ và Phạm Nguyên Khang. (2012), “Phân loại với máy học vector hỗ trợ và cây quyết định“, Tạp chí khoa học Trường Đại học Cần Thơ, 21a, pp. 52-63. [82] Trần Mai Vũ. et al. (2008), “Độ tương đồng ngữ nghĩa giữa hai câu và áp dụng vào bài toán sử dụng tóm tắt đa văn bản để đánh giá chất lượng phân cụm dữ liệu trên máy tìm kiếm VNSEN“, Hội thảo CN Thông tin Truyền thông lần thứ nhất (ICTFIT08) ĐHKHTN, ĐHQG TP HCM, pp. 94-102. [83] Triguero Isaac. et al. (2013), Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study. Knowledge and Information Systems 42 (2): pp. 245–284. [84] Van Nguyen. et al. (2014), “Kernel-based semi-supervised learning for novelty detection“, International Joint Conference on Neural Networks (IJCNN), Conference Location, July. pp: 4129 - 4136. [85] Vipin Kumar. et al. (2010), “Optimizing F-Measure with Support Vector Machines“, Proceedings of the 16 International, Florida, Articial Intellegence Reseach Society Conference, pp. 356-360. [86] Vu Cong Duy Hoang. et al. (2007), “A Comparative Study on Vietnamese Text Classification Methods“, Research, Innovation and Vision for the Future, IEEE International Conference on, pp. 267-273. [87] Xiaojin Zhu. (2008), Semi-Supervised Learning Literature Survey. Computer Sciences TR 1530, University of Wisconsin, Last modified on July. [88] Yarowsky, D. (1995), "Unsupervised Word Sense Disambiguation Rivaling Supervised Methods". Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA, pp. 189–196. [89] Y. Wang and S. Chen. (2013), “Safety-aware semi-supervised classification“, IEEE Transaction on Neural Network and Learning System, Vol. 24, pp. 1763-1772. 131 [90] [76]Yu, H. et al. (2003). “Text classification from positive and unlabeled documents”. In O. Frieder, J. et al. (Eds.), CIKM 2003: Proceedings of the Twelfth ACM International Conference on Information and Knowledge Management. pp. 232-239 [91] Yitan Li. Et al. (2015). “Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective”. Proceedings of the Twenty-Fourth international joint conference on Artificial Intelligence (IJCAI 2015). pp 3650-3656. [92] Yun Jin. et al. (2011), “A Semi-Supervised Learning Algorithm Based on Modified Self-training SVM“, in Journal of Computers 6, pp.1438-1443. [93] Yves Grandvalet and Yoshua Bengio. (2005), “Semi-supervised Learning by Entropy Minimization“, Advances in neutral information processing systems 17, pp. 1-8. [94] Z. H. Zhou. et al. (2007), “Semi-supervised learning with very few labeled training examples“, in Proceedings of the 22nd Conference on Artificial Intelligence and the 19th Innovative Applications of Artificial Intelligence Conference (AAAI '07), pp. 675-680. [95] Zhu. et al. (2009), introduction to semi-supervised learning. Morgan & Claypool. ISBN 9781598295481. [96] Zhou, D., Huang, J., & Scholkopf, B. (2005). “Learning from labeled and unlabeled data on a directed graph”. ICML05, 22nd International Conference on Machine Learning. Bonn, Germany. [97] Zhou, Z.-H., & Li, M. (2005). “Semi-supervised regression with co-training”. International Joint Conference on Artificial Intelligence (IJCAI). [98] Zhu, X. (2005). “Semi-supervised learning with graphs”. Doctoral dissertation, Carnegie Mellon University (mã số CMU-LTI-05-192). [99] Piyush Rai. (2011). Semi-supervised learning, CS5350/6350: Machine Learning, November 8, 2011.
File đính kèm:
- luan_an_nghien_cuu_ung_dung_ky_thuat_hoc_ban_giam_sat_vao_li.pdf