Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản Tiếng Việt

Hiện nay, cùng với sự phát triển chung của khoa học kỹ thuật và công nghệ

thông tin đã đem đến cho con người khả năng tiếp cận với tri thức khoa học một

cách nhanh chóng, cụ thể như: thư viện điện tử, cổng thông tin điện tử, báo mạng,

các ứng dụng tìm kiếm , đã giúp con người thuận tiện hơn trong việc trao đổi, cập

nhật thông tin trên toàn cầu thông qua mạng Internet.

Tuy nhiên, với quá trình trao đổi và cập nhật thông tin một cách nhanh chóng,

khối lượng thông tin được lưu trữ (dưới dạng tài liệu số) ngày càng tăng nên gặp

phải khó khăn trong việc sắp xếp phân loại. Phân loại văn bản là một bước quan

trọng nhằm giúp cho việc xử lý hiệu quả hơn. Nếu thực hiện quá trình phân loại

bằng thủ công sẽ tốn thiều thời gian và chi phí. Vì vậy, thực hiện việc phân loại tự

động văn băn số hiện nay là một vấn đề cấp thiết.

Để phân loại văn bản số, nhiều phương pháp phân loại đã được đề xuất dựa trên

mô hình không gian véc tơ. Từ mô hình này, các mô hình xác suất được xây dựng

thông qua việc học máy nhằm mục đích phân loại tự động. Máy véc tơ hỗ trợ

(SVM) là một trong những công cụ phân loại tự động hữu hiệu, là dạng chuẩn nhận

dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán

phân loại nhị phân và được các nhà nghiên cứu trong lĩnh vực học máy đánh giá

cao. Tuy nhiên, để áp dụng vào phân loại văn bản tiếng Việt số, việc sử dụng mô

hình không gian véc tơ thường không đem lại hiệu quả cao bởi ngôn ngữ tiếng Việt

khá phức tạp. Rất nhiều từ đồng âm khác nghĩa và cũng có rất nhiều từ khi so sánh

trên ký tự thì khác nhau hoàn toàn nhưng lại có cùng ý nghĩa khi phân loại. Điều

này dẫn đến, ví dụ trong không gian véc tơ, hai văn bản chứa các từ đồng âm khác

nghĩa sẽ có khoảng cách nhỏ cho dù nội dung hoàn toàn khác nhau. Điều này dẫn

đến việc phân loại không thành công.

142 trang dienloan 15240

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản Tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản Tiếng Việt

i
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VÕ DUY THANH
NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT
HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC
PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng - 2017
ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VÕ DUY THANH
NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT
HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC
PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 62 48 01 01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
1. PGS.TS. Võ Trung Hùng
2. PGS.TS. Đoàn Văn Ban
Đà Nẵng - 2017
i
LỜI CAM ĐOAN
Tôi tên là Võ Duy Thanh. Tôi xin cam đoan đây là công trình nghiên cứu do
tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là
trung thực và chưa được công bố bởi bất kỳ tác giả nào hay trong bất kỳ công trình
khoa học nào khác.
Tác giả Luận án
Võ Duy Thanh
ii
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................... i
MỤC LỤC .............................................................................................................. ii
DANH MỤC CÁC TỪ VIẾT TẮT ..................................................................... vi
DANH MỤC HÌNH VẼ....................................................................................... vii
DANH MỤC BẢNG ............................................................................................. ix
MỞ ĐẦU ................................................................................................................. 1
Chương 1. NGHIÊN CỨU TỔNG QUAN .......................................................... 9
1.1. Học máy ............................................................................................................ 9
1.1.1. Khái niệm ............................................................................................. 9
1.1.2. Ứng dụng của học máy ........................................................................ 9
1.1.3. Các dạng dữ liệu trong học máy ........................................................ 11
1.2. Các phương pháp học máy .............................................................................. 13
1.2.1. Học có giám sát .................................................................................. 13
1.2.2. Học không giám sát ........................................................................... 15
1.2.3. Học bán giám sát ................................................................................ 16
1.2.4. Học tăng cường .................................................................................. 16
1.2.5. Học sâu ............................................................................................... 17
1.3. Tổng quan về học bán giám sát ....................................................................... 21
1.3.1. Một số phương pháp học bán giám sát .............................................. 23
1.3.2. Thuật toán học có giám sát SVM và bán giám sát SVM ................... 34
1.3.3. Huấn luyện SVM ............................................................................... 38
1.3.4. SVM trong phân lớp văn bản ............................................................. 39
1.3.5. Bán giám sát SVM và phân lớp trang Web ....................................... 40
iii
1.3.6. Thuật toán phân lớp văn bản điển hình .............................................. 41
1.4. Phân loại văn bản ............................................................................................ 43
1.4.1. Văn bản .............................................................................................. 43
1.4.2. Biểu diễn văn bản bằng véc tơ ........................................................... 44
1.4.3. Phân loại văn bản ............................................................................... 46
1.5. Đề xuất nghiên cứu ......................................................................................... 49
1.6. Tiểu kết chương .............................................................................................. 51
Chương 2. XÂY DỰNG KHO DỮ LIỆU .......................................................... 53
2.1. Giới thiệu kho dữ liệu phân loại văn bản tiếng Việt ....................................... 53
2.2. Tổng quan về kho dữ liệu ............................................................................... 54
2.2.1. Khái niệm kho dữ liệu ........................................................................ 54
2.2.2. Đặc điểm của kho dữ liệu .................................................................. 55
2.2.3. Mục đích của kho dữ liệu ................................................................... 56
2.2.4. Kiến trúc kho dữ liệu ......................................................................... 57
2.3. Phân tích yêu cầu ............................................................................................ 60
2.3.1. Xây dựng kho ..................................................................................... 60
2.3.2. Khai thác kho ..................................................................................... 62
2.3.3. Cập nhật kho ...................................................................................... 63
2.4. Phân tích và đặc tả dữ liệu .............................................................................. 63
2.5. Giải pháp xây dựng kho .................................................................................. 64
2.5.1. Đề xuất mô hình tổng quát ................................................................. 64
2.5.2. Quá trình xây dựng kho dữ liệu ......................................................... 64
2.5.3. Quy trình của chương trình phân loại văn bản .................................. 65
2.5.4. Sử dụng thuật toán Naïve Bayes để phân loại văn bản ..................... 70
iv
2.5.5. Định dạng đầu ra của dữ liệu trong kho ............................................. 73
2.6. Kết quả kho dữ liệu thử nghiệm và đánh giá .................................................. 76
2.6.1. Kết quả kho dữ liệu thử nghiệm ........................................................ 76
2.6.2. Đánh giá kho dữ liệu .......................................................................... 76
2.7. Tiểu kết chương .............................................................................................. 76
Chương 3. PHÂN LOẠI VĂN BẢN DỰA TRÊN MÔ HÌNH CỰ LY
TRẮC ĐỊA...78
3.1. Mô hình cự ly trắc địa trên máy véc tơ hỗ trợ ................................................ 78
3.1.1. Mô hình cự ly trắc địa ........................................................................ 78
3.1.2. Kỹ thuật phân cụm đa dạng sử dụng cự ly trắc địa ............................ 82
3.1.3. Phương pháp tính toán cự ly trắc địa ................................................. 83
3.1.4. Hàm nhân trong máy véc tơ hỗ trợ sử dụng cự ly trắc địa ................ 85
3.2. Phương pháp phân loại văn bản dựa trên mô hình cự ly trắc địa ................... 86
3.3. Thực nghiệm phân loại văn bản dựa trên mô hình cự ly trắc địa ................... 87
3.3.1. Phát triển chương trình ứng dụng ...................................................... 87
3.3.2. Chuẩn bị dữ liệu ................................................................................. 87
3.3.3. Triển khai chương trình ..................................................................... 89
3.3.4. Kết quả thực nghiệm .......................................................................... 90
3.4. Tiểu kết chương .............................................................................................. 95
Chương 4. RÚT GỌN SỐ CHIỀU VÉC TƠ DỰA TRÊN ĐỒ THỊ
DENDROGRAM. ....................................................................................................... 96
4.1. Giới thiệu ........................................................................................................ 96
4.1.1. Định nghĩa đồ thị Dendrogram .......................................................... 96
4.1.2. Giải pháp đề xuất ............................................................................... 97
v
4.2. Xây dựng đồ thị Dendrogram từ dữ liệu Wikipedia ..................................... 101
4.2.1. Thuật toán xử lý Wikipedia ............................................................. 101
4.2.2. Thuật toán xử lý từ điển ................................................................... 103
4.2.3. Thuật toán tính toán ma trận P tần số xuất hiện chung .................... 104
4.2.4. Thuật toán xây dựng đồ thị Dendrogram ......................................... 105
4.2.5. Triển khai phân cụm ........................................................................ 105
4.2.6. Thử nghiệm ...................................................................................... 107
4.3. Áp dụng véc tơ rút gọn vào phân loại văn bản ............................................. 112
4.3.1. Dữ liệu đầu vào ................................................................................ 112
4.3.2. Kết quả thực nghiệm ........................................................................ 112
4.4. Tiểu kết chương ............................................................................................ 117
KẾT LUẬN ........................................................................................................ 118
CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ ....................................... 121
TÀI LIỆU THAM KHẢO................................................................................. 122
vi
DANH MỤC CÁC TỪ VIẾT TẮT
ANN Artificial Neural Network (Mạng nơ ron nhân tạo)
CRFs Conditional Random Fields
DM Data Marts (Kho dữ liệu chủ đề)
DWH Data WareHouse (Kho dữ liệu)
GD Geodesic Distance (Cự li trắc địa)
IDF Inverse Document Frequency (Tần số nghịch đảo văn bản)
IID Independently and Identically Distributed (phân phối độc lập và
phân bố tương tự)
ISOMAP Isometric Feature Mapping (Lập bản đồ đặc trưng đều Metric)
KNN K - Nearest Neighbor (K láng giềng gần nhất)
LDA Linear Discriminant Analysis (Phân tích biệt thức tuyến tính)
MDP Markov decision process (Quy trình quyết định Markov)
MEM Maximum Entropy Markov Model (Mô hình Markov cực đại hóa
entropy)
NB Naĩve Bayes
NLP Natural Language Proscessing (Xử lý ngôn ngữ tự nhiên)
SVM Support vector Machine (Máy véc tơ hỗ trợ)
S3VM Semi-Supervised Support Vector Machine (bán giám sát dựa trên
máy véc tơ hỗ trợ)
TF Term frequency (tần suất của từ)
RBF Radial Basis Funcions (Hàm cơ sở Radial)
VC Vapnik-Chervonenkis (Khoảng cách VC)
vii
DANH MỤC HÌNH VẼ
Hình 1.1 Siêu phẳng cực đại 26
Hình 1.2 Biểu diễn trực quan của thiết lập Self-training 28
Hình 1.3 Sơ đồ biểu diễn trực quan thiết lập Co-training 30
Hình 1.4 Siêu mặt tối ưu và biên 36
Hình 1.5 Véc tơ đặc trưng biểu diễn văn bản mẫu 46
Hình 1.6 Mô hình tổng quát của hệ thống phân loại văn bản 49
Hình 1.7 Mô hình phân lớp văn bản 50
Hình 1.8 Mô hình đề xuất phân lớp văn bản sử dụng Self-training 51
Hình 2.1 Kiến trúc DWH cơ bản 58
Hình 2.2 Kiến trúc DWH với khu vực xử lý 58
Hình 2.3 Kiến trúc DWH với khu vự xử lý và kho dữ liệu chủ đề 59
Hình 2.4 Mô hình đề xuất tổng quát kho dữ liệu 64
Hình 2.5 Quy trình phân loại văn bản 66
Hình 2.6 Mô hình không gian véc tơ 3 chiều 70
Hình 3.1 Cự ly Euclid và cự ly trắc địa 79
Hình 3.2 Mô hình đề xuất 79
Hình 3.3 Mô hình đề xuất phân loại văn bản dựa trên cự ly trắc địa 87
Hình 3.4 Giá trị trung bình và độ lệch chuẩn của tỷ lệ phân loại 94
Hình 4.1. Đồ thị Dendrogram 96
Hình 4.2 Ví dụ về đồ thị Dendrogram 101
viii
Hình 4.3 Lưu đồ thuật toán xử lý tập tin dữ liệu Wikipedia 103
Hình 4.4 Sơ đồ thuật toán xử lý từ điển 104
Hình 4.5 Ví dụ cho việc cắt đồ thị Dendrogram, kết quả nhận được 3 cụm 107
Hình 4.6 Số lượng cặp từ theo tần số xuất hiện chung 108
Hình 4.7 Số lượng nhóm phụ thuộc phân cụm trên đồ thị Dendrogram 109
Hình 4.8 Kết quả phân cụm với Dendrogram 109
Hình 4.9 Một ví dụ khác thể hiện những từ liên quan đến âm nhạc 110
Hình 4.10 Một ví dụ đồ thị Dendrogram cho các từ 110
Hình 4.11 Ví dụ đồ thị Dendrogram cho các từ thuộc chủ đề y học 111
Hình 4.12 Dung lượng lưu trữ véc tơ phụ thuộc vào số lượng từ 114
Hình 4.13 Đồ thị thể hiện thời gian gán nhãn của 5 lần huấn luyện 115
Hình 4.14 Thời gian phân loại văn bản trung bình của 5 lần huấn luyện 115
Hình 4.15 Đồ thị thể hiện độ phân loại của 5 lần HL theo tỷ lệ phân cụm 116
Hình 4.16 Đồ thị thể hiện sự thay đổi của kết quả theo tỷ lệ phân loại 116
ix
DANH MỤC BẢNG
Bảng 2.1 Dữ liệu thô tải về 61
Bảng 2.2 Dữ liệu huấn luyện 72
Bảng 2.3 Kết quả kho dữ liệu thử nghiệm 76
Bảng 3.1 Thống kê số tập tin trong kho dữ liệu 88
Bảng 3.2 Kết quả phân loại lần 1 sử dụng SVM 91
Bảng 3.3 Kết quả phân loại lần 1 sử dụng SVM với mô hình cự ly trắc địa 91
Bảng 3.4 Kết quả phân loại lần 2 sử dụng SVM 92
Bảng 3.5 Kết quả phân loại lần 2 sử dụng SVM với mô hình cự ly trắc địa 92
Bảng 3.6 Kết quả phân loại lần 3 sử dụng SVM 92
Bảng 3.7 Kết quả phân loại lần 3 sử dụng SVM với mô hình cự ly trắc địa 93
Bảng 3.8 Kết quả phân loại lần 4 sử dụng SVM 93
Bảng 3.9 Kết quả phân loại lần 4 sử dụng SVM với mô hình cự ly trắc địa 93
Bảng 3.10 Kết quả phân loại lần 5 sử dụng SVM 94
Bảng 3.11 Kết quả phân loại lần 5 sử dụng SVM với mô hình cự ly trắc địa 94
Bảng 4.1 Dữ liệu huấn luyện, kiểm thử 112
1
MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay, cùng với sự phát triển chung của khoa học kỹ thuật và công nghệ
thông tin đã đem đến cho con người khả năng tiếp cận với tri thức khoa học một
cách nhanh chóng, cụ thể như: thư viện điện tử, cổng thông tin điện tử, báo mạng,
các ứng dụng tìm kiếm, đã giúp con người thuận tiện hơn trong việc trao đổi, cập
nhật thông tin trên toàn cầu thông qua mạng Internet.
Tuy nhiên, với quá trình trao đổi và cập nhật thông tin một cách nhanh chóng,
khối lượng thông tin được lưu trữ (dưới dạng tài liệu số) ngày càng tăng nên gặp
phải khó khăn trong việc sắp xếp phân loại. Phân loại văn bản là một bước quan
trọng nhằm giúp cho việc xử lý hiệu quả hơn. Nếu thực hiện quá trình phân loại
bằng thủ công sẽ tốn thiều thời gian và chi phí. Vì vậy, thực hiện việc phân loại tự
động văn băn số hiện nay là một vấn đề cấp thiết.
Để phân loại văn bản số, nhiều phương pháp phân loại đã được đề xuất dựa trên
mô hình không gian véc tơ. Từ mô hình này, các mô hình xác suất được xây dựng
thông qua việc học máy nhằm mục đích phân loại tự động. Máy véc tơ hỗ trợ
(SVM) là một trong những công cụ phân loại tự động hữu hiệu, là dạng chuẩn nhận
dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán
phân loại nhị phân và được các nhà nghiên cứu trong lĩnh vực học máy đánh giá
cao. Tuy nh ...
dung chính của khối thông điệp trên diễn đàn thảo luận“, Tạp chí phát triển
khoa học công nghệ, Tập 11, số 05, pp. 21-32.
[23] Fazakis, Nikos. et al. (2015). "Self-Trained LMT for Semi-supervised
Learning". Computational Intelligence and Neuroscience. 2016: 1–
13. doi:10.1155/2016/3057481.
[24] Feil. B and Abonyi. J. (2007), “Geodesic Distance Based Fuzzy Clustering“,
Lecture Notes in Computer Science, Soft Computing in Industrial
Applications 39, pp. 50-59.
[25] Giang Nguyễn Linh và Nguyễn Mạnh Hiển. (2006), “Phân loại văn bản tiếng
Việt với bộ phân loại véc tơ hỗ trợSVM“, Tạp chí CNTT&TT.
[26] Glenn Fung and O. L. Mangasarian. (2001), “Semi-supervised Support Vector
Machines for Unlabeled Data Classification“, Optimization Methods and
Software, pp. 1-14.
[27] Goh. A. (2011), Riemannian manifold clustering and dimensionality reduction
for vision-based analysis. Machine Learning for Vision-Based Motion
Analysis: Theory and Techniques, Springer-Verlag: pp. 27-53.
[28] Hamel. L. (2008), Knowledge Discovery With Support vector machines.
University of Rhode Island, ISBN 978-0-470-37192-3.
[29] Houda benbrahim. (2011), “Fuzzy Semi-supervised Support Vector
Machines“, Machine Learning and Data Mining in Pattern Recognition, of the
series Lecture Notes in Computer Science, 7th International Conference,
MLDM, New York, USA, Vol 6871, pp. 127-139.
[30] Hung Nguyen. et al. (2005), “Internet and Genetics Algorithm-based Text
Categorization for Documents in Vietnamese“, Proceedings of 4th IEEE
International Conference on Computer Science - Research, Innovation and
Visio.
[31] J. Kim. et al. (2007), “Soft Geodesic Kernel K-means“, Proc. ICASSP20072,
pp 429-432.
125
[32] Jafar Tanha. et al. (2015), “Semi-supervised Self-training for decision tree
classifiers“, International Journal of Machine Learning and Cybernetics, pp.
1–16.
[33] Jason D.M Rennie (2001), Improving Multi-class Text Classification with
Naive Bayes, Submitted to the Department of Electrical Engineering and
Computer Sciencein partial fulfillment of the requirements for the degree of
Master of Science.
[34] Jason Weston. et al. (2008). “Deep learning via semi-supervised embedding”,
Proceeding ICML '08 Proceedings of the 25th international conference on
Machine learning, Helsinki, Finland, July 05-09, 2008, ACM New York, NY,
USA ©2008, ISBN: 978-1-60558-205-4 doi>10.1145/1390156.1390303,
Pages 1168-1175.
[35] Jin Chen. et al. (2009), “Constructing Overview + Detail Dendrogram –
Matrix Views“, IEEE Trans Vis Comput Graph. Nov-Dec, pp. 889-896.
[36] Joachims, T. (1999), “Transductive inference for text classification using
support véc tơ machines“, Proc. 16th International Conf. on Machine
Learning. Morgan Kaufmann, San Francisco, CA, pp. 200–209.
[37] Joachims, T. (1997), “A probabilistic analysis of the Rocchio algorithm with
TF-IDF for text categorization”, ICML 97 Proceedings of the Fourteenth
International Conference on Machine Learning, pp 143-151.
[38] Joachims, T. (1998), “Text Categorization with Support Vector Machines:
Learning with Many Relevant Features“, In European Conference on Machine
Learning (ECML), pp. 137-142.
[39] Joachims, T. (2003), “Transductive learning via spectral graph partitioning”.
In Proceeding of. The Twentieth International Conference on Machine
Learning (ICML2003), 290-297.
[40] Jones. R. (2005), Learning to extract entities from labeled and unlabeled text.
(Technical Report CMU-LTI-05-191) School of Computer Science, Carnegie
Mellon University, Pittsburgh, PA 15213. Doctoral Dissertation.
126
[41] Kristin. et al. (1998), “Semi-supervised Support Vector Machines“, Advances
in neural information processing systems, pp. 368-374.
[42] Lang, K. (1995). “Newsweeder: Learning to filter netnews”. In Machine
Learning: Proceeding of th Twelfth International Conference (ICML-95), pp.
331-339.
[43] Le, Hong Phuong. et al, (2008). “A Hybrid Approach to Word Segmentation
of Vietnamese Texts”. 2nd International Conference on Language and
Automata Theory and Applications - LATA 2008, Mar, Tarragona, Spain.
Springer Berlin / Heidelberg, 5196, pp. 240-249.
[44] Levy, Omer; Goldberg, Yoav (2014). Neural Word Embedding as Implicit
Matrix Factorization. NIPS, pp. 1-9.
[45] Lewis, D. D., & Gale, W. A. (1994). “A sequential algorithm for training text
classiers”. In SIGIR '94: Proceedings of the Seventeenth Annual International
ACM SIGIR Conference on Research and Development in Information
Retrieval, pp. 3-12.
[46] Lewis, D. D, & Knowles, K. A. (1997). “Threading electronic mail: A
preliminary study”. Information Processing and Management, 33 (2), 209-217.
[47] Li Cunhe and Wu Chenggang. (2010), “A new semi-supervised support vector
machine learning algorithm based on active learning“, Future Computer and
Communication (ICFCC), 2nd International Conference on Vol: 3, pp. 638-
641.
[48] Liqun Qi and Houyuan Jiang, (1997). “Semismooth Karush-Kuhn-Tucker
Equations and Convergence Analysis of Newton and Quasi-Newton Methods
for Solving These Equations”, Mathematics of Operations Research, Vol. 22,
No. 2 (May, 1997), pp. 301-325.
[49] McCallum. A and Nigam. K. (1998), “A comparison of event models for naïve
bayes text classification“, AAAI-98 Workshop on “Learning for Text
Categorization”, Press, pp 335-343.
[50] Min Song. et al. (2011), “Combining active learning and semi-supervised
127
learning techniques to extract protein interaction sentences“, BMC
Bioinformatics, December, pp. 1471-1480.
[51] Mitchells. T. (2006), The discipline of machine learning, Technical Report
CMU-ML- 06-108, Carnegie Mellon University, pp. 1-7.
[52] M.-L. Zhang and Z.-H. Zhou. (2011), “CoTrade: confident co-training with
data editing,” IEEE Transactions on Systems, Man, and Cybernetics, Part B:
Cybernetics, vol. 41, no. 6, pp. 1612–1626
[53] M. Iggane. (2012). “Self-training using a k-nearest neighbor as a base
classifier reinforced by support vector machines”. International Journal of
Computer Applications, vol. 56, no. 6, pp. 43–46.
[54] Mohamed Farouk Abdel Hady. et al. (2010), “Semi-supervised learning for
tree-structured ensembles of RBF networks with Co-training“, Neural
Networks, The 18th International Conference on Artificial Neural Networks,
ICANN, Vol 23, Issue 4, May, pp. 497–509
[55] Nikos, Fazakis. et al. (2016), ”Self-trained LMT for semisupervised learning”,
Journal Computational Intelligence and Neuroscience Volume 2016, January
2016 Article No. 10, Hindawi Publishing Corp. New York, NY, United
States doi>10.1155/2016/3057481. pp. 1-13.
[56] Neil D. Lawrence and Michael I. Jordan. (2004), “Semi-supervised Learning
via Gaussian Processes“, Neutral Information Processing Systems 17, pp.
753-760.
[57] Nguyen, Cam Tu. et al, (2006). “Vietnamese word segmentation with CRFs
and SVMs: An investigation”. In 20th Pacific Asia Conference on Language,
Information and Computation (PACLIC), pp. 215-222.
[58] Nguyễn Ngọc Bình. (2004), “Dùng lý thuyết tập thô và các kỹ thuật khác để
phân loại, phân cụm văn bản tiếng Việt“, Kỷ yếu hội thảo ICT.rda’04. Hà nội.
[59] Nigam. K. (2001), Using unlabeled data to improve text classification.
Technical Report CMU-CS-01-126. Carnegie Mellon University. Doctoral
Dissertation.
128
[60] Nigam. K. et al. (2000), Text classification from labeled and unlabeled
documents using EM. Machine Learning, pp. 103–134.
[61] Pham. M. T and K. Tachibana. (2013), “An Algorithm for Fuzzy Clustering
Based on Conformal Geometric Algebra“, Knowledge and Systems
Engineering Advances in Intelligent Systems and Computing 245, pp. 83-94.
[62] Pazzani, M. J. et al. (1996). “Syskill & Webert: Identifying interesting Web
sites”. In Proceedings of the Thirteenth National Conference on Artificial
Intelligence (AAAI-96), pp. 54-59.
[63] Ratnaparkhi A. (1997), “A Simple Introduction to Maximum Entropy Model
For Natural Language Processing”. In Technical Report 97-08 Institute for
Reseach In Cognitive Science University of Pensylvania, pp. 1-11.
[64] Riloff, E and R. Jones. (1999). “Learning dictionaries for information
extraction by multi-level bootstrapping”. In Proceedings of the 6th national
conference on Artificial intelligence, Orlando, Florida, United States. AAAI,
pp 474–479.
[65] Renaud Blanch. et al. (2015). “Dendrogramix: a Hybrid Tree-Matrix
Visualization Technique to Support Interactive Exploration of Dendrograms”,
To appear in IEEE Transactions on Visualization and Computer Graphics
(Proceedings of PacificVis 2015) pp. 31-38.
[66] Rosie Jones, et al. (1999), “Bootstrapping for text learning Tasks”, IJCAI-99
Workshop on Text Mining: Foundations, Techniques and Applications, pp.
52-63.
[67] R. Souvenir and R. Pless. (2005), “Manifold clustering“, IEEE International
Conference on Computer Vision I: pp. 648–653.
[68] Sahami, M. et al. (1998). “A Baysian approach to _ltering junk e-mail”. In
AAAI-98 Workshop on Learning for Text Categorization. Tech. rep. WS-98-
05, AAAI Press.
[69] S. Poria. et al. (2012), “Fuzzy clustering for semi-supervised learning - Case
study: Construction of an emotion lexicon“, Proceedings of MICAI, pp. 73-86.
129
[70] Seege. M. (2001), Learning with labeled and unlabeled data. Technical
Report. University of Edinburgh.
[71] Shavlik, J., & Eliassi-Rad, T. (1998). “Intelligent agents for web-based tasks:
An advice-taking approach”. In AAAI-98 Workshop on Learning for Text
Categorization. Tech. rep. WS-98-05, AAAI Press.
[72] Shifei Ding. et al. (2015), “An overview on semi-supervised support vector
machine“, in Neural Computing and Applications, pp. 1-10.
[73] Sidorov Grigori and Velasquez Francisco. et al. (2009), “Syntactic n-Grams as
Machine Learning Features for Natural Language Processing“, Expert
Systems with Applications 41 (3), pp. 853–860.
[74] Sidorov Grigori. et al. (2012), “Syntactic Dependency-based n-grams as
Classification Features“, LNAI 7630, pp. 1–11.
[75] Stamatis Karlos. Et al. (2016). “A Semisupervised Cascade Classification
Algorithm”, Applied Computational Intelligence and Soft Computing,
Volume 2016, Article ID 5919717, 14 pages,
[76] S. Sun and F. Jin. (2011). “Robust co-training”. International Journal of
Pattern Recognition and Artificial Intelligence, vol. 25, no. 7, pp. 1113–1126.
[77] Steven J. Benson and Jone J. Moré, (2001). “A Limited Memory Variable
Metric Method In Subspace for Bound-constrained Optimization Problem”. In
Preprint ANL/MCS, P909-0901.
[78] Susana Eyheramendy, et al. (2003), “On the Naive Bayes Model for Text
Classification”. In Proceedings of the ninth international workshop on
Artifcial Intelligence & Statistics, eds, C.M. Bishop and B.J. Frey.
[79] Thắng Huỳnh Quyết và Đinh Thị Thu Phương. (2005), “Tiếp cận phương
pháp học không giám sát trong học có giám sát với bài toán phân lớp văn bản
tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản
trong mô hình véc tơ“, Kỷ yếu Hội thảo ICT.rda’04, pp. 251-261.
130
[80] Tongguang Ni. et al. (2015), “Locality Preserving Semi-Supervised Support
Vector Machine“, Journal of information Science and Engineering 31, pp.
2009-2024.
[81] Trần Cao Đệ và Phạm Nguyên Khang. (2012), “Phân loại với máy học vector
hỗ trợ và cây quyết định“, Tạp chí khoa học Trường Đại học Cần Thơ, 21a,
pp. 52-63.
[82] Trần Mai Vũ. et al. (2008), “Độ tương đồng ngữ nghĩa giữa hai câu và áp dụng
vào bài toán sử dụng tóm tắt đa văn bản để đánh giá chất lượng phân cụm dữ
liệu trên máy tìm kiếm VNSEN“, Hội thảo CN Thông tin Truyền thông lần thứ
nhất (ICTFIT08) ĐHKHTN, ĐHQG TP HCM, pp. 94-102.
[83] Triguero Isaac. et al. (2013), Self-labeled techniques for semi-supervised
learning: taxonomy, software and empirical study. Knowledge and
Information Systems 42 (2): pp. 245–284.
[84] Van Nguyen. et al. (2014), “Kernel-based semi-supervised learning for
novelty detection“, International Joint Conference on Neural Networks
(IJCNN), Conference Location, July. pp: 4129 - 4136.
[85] Vipin Kumar. et al. (2010), “Optimizing F-Measure with Support Vector
Machines“, Proceedings of the 16 International, Florida, Articial Intellegence
Reseach Society Conference, pp. 356-360.
[86] Vu Cong Duy Hoang. et al. (2007), “A Comparative Study on Vietnamese
Text Classification Methods“, Research, Innovation and Vision for the Future,
IEEE International Conference on, pp. 267-273.
[87] Xiaojin Zhu. (2008), Semi-Supervised Learning Literature Survey. Computer
Sciences TR 1530, University of Wisconsin, Last modified on July.
[88] Yarowsky, D. (1995), "Unsupervised Word Sense Disambiguation Rivaling
Supervised Methods". Proceedings of the 33rd Annual Meeting of the
Association for Computational Linguistics. Cambridge, MA, pp. 189–196.
[89] Y. Wang and S. Chen. (2013), “Safety-aware semi-supervised classification“,
IEEE Transaction on Neural Network and Learning System, Vol. 24, pp.
1763-1772.
131
[90] [76]Yu, H. et al. (2003). “Text classification from positive and unlabeled
documents”. In O. Frieder, J. et al. (Eds.), CIKM 2003: Proceedings of the
Twelfth ACM International Conference on Information and Knowledge
Management. pp. 232-239
[91] Yitan Li. Et al. (2015). “Word Embedding Revisited: A New Representation
Learning and Explicit Matrix Factorization Perspective”. Proceedings of the
Twenty-Fourth international joint conference on Artificial Intelligence (IJCAI
2015). pp 3650-3656.
[92] Yun Jin. et al. (2011), “A Semi-Supervised Learning Algorithm Based on
Modified Self-training SVM“, in Journal of Computers 6, pp.1438-1443.
[93] Yves Grandvalet and Yoshua Bengio. (2005), “Semi-supervised Learning by
Entropy Minimization“, Advances in neutral information processing systems
17, pp. 1-8.
[94] Z. H. Zhou. et al. (2007), “Semi-supervised learning with very few labeled
training examples“, in Proceedings of the 22nd Conference on Artificial
Intelligence and the 19th Innovative Applications of Artificial Intelligence
Conference (AAAI '07), pp. 675-680.
[95] Zhu. et al. (2009), introduction to semi-supervised learning. Morgan &
Claypool. ISBN 9781598295481.
[96] Zhou, D., Huang, J., & Scholkopf, B. (2005). “Learning from labeled and
unlabeled data on a directed graph”. ICML05, 22nd International Conference
on Machine Learning. Bonn, Germany.
[97] Zhou, Z.-H., & Li, M. (2005). “Semi-supervised regression with co-training”.
International Joint Conference on Artificial Intelligence (IJCAI).
[98] Zhu, X. (2005). “Semi-supervised learning with graphs”. Doctoral
dissertation, Carnegie Mellon University (mã số CMU-LTI-05-192).
[99] Piyush Rai. (2011). Semi-supervised learning, CS5350/6350: Machine
Learning, November 8, 2011.

File đính kèm:

luan_an_nghien_cuu_ung_dung_ky_thuat_hoc_ban_giam_sat_vao_li.pdf