Luận án Khai phá luồng văn bản với kỹ thuật gom cụm

Gần đây, với xu thế dữ liệu gia tăng, tốc độ cao, kích thước lớn và luôn biến đổi

liên tục cần được xử lý theo thời gian thực, nhiều nghiên cứu liên quan đến luồng dữ

liệu đã ra đời. Khai phá luồng dữ liệu là hướng nghiên cứu thu hút được nhiều sự quan

tâm và Gom cụm là một kỹ thuật quan trọng.

Là một dạng thức của luồng dữ liệu, luồng văn bản là chuỗi các văn bản được sắp

xếp theo thứ tự đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: Tin tức

và truyền thông xã hội. Gom cụm luồng văn bản là một vấn đề quan trọng trong cộng

đồng nghiên cứu khai phá dữ liệu văn bản có nhiều ứng dụng như phân nhóm văn bản,

sắp xếp tài liệu, phát hiện và theo dõi chủ đề Gom cụm văn bản là một quá trình phân

vùng/nhóm một tập hợp các tài liệu chưa được gắn nhãn vào k chủ đề cụ thể phục vụ

nhiều mục đích như: Trong ứng dụng phát hiện sự kiện xã hội, giúp xác định xu hướng

đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các

mạng xã hội phổ biến gần đây; Trong truy xuất văn bản, giúp nhóm các kết quả tìm kiếm

có liên quan để giúp người dùng dễ dàng rút trích thông tin cần thiết. Trong kỷ nguyên

BigData, với sự gia tăng mạnh mẽ của các mạng xã hội trực tuyến, số lượng lớn nội

dung do người dùng tạo ra thường ở dạng tài liệu văn bản ngắn như: bình luận của người

dùng, tweet, bài đăng, trên Twitter hoặc Facebook, chứa đựng nhiều thông tin có

giá trị đại diện cho các sự kiện thực tế nóng bỏng. Văn bản ngắn là các đoạn bình luận,

trao đổi, nhận xét ngắn trên mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài

câu) so với các tài liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn. Hầu

hết các nghiên cứu về gom cụm văn bản truyền thống chủ yếu tập trung vào các văn bản

tĩnh dài nên không thể áp dụng cho các luồng văn bản có tính chất thay đổi nhanh chóng

hay các tài liệu văn bản ngắn. Việc gom cụm tài liệu văn bản ngắn khó khăn hơn do ba

đặc tính chính, bao gồm: Độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài);

Độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh các chủ đề hiện có trong

các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Do đó, không thể

áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các tập văn bản đến với

tốc độ cao, rời rạc và có độ dài ngắn này

pdf 140 trang dienloan 19280
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Khai phá luồng văn bản với kỹ thuật gom cụm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Khai phá luồng văn bản với kỹ thuật gom cụm

Luận án Khai phá luồng văn bản với kỹ thuật gom cụm
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
TRƯỜNG ĐẠI HỌC LẠC HỒNG 
---------------- 
VÕ THỊ HỒNG THẮM 
Đồng Nai, năm 2021 
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH 
KHAI PHÁ LUỒNG VĂN BẢN 
VỚI KỸ THUẬT GOM CỤM 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
TRƯỜNG ĐẠI HỌC LẠC HỒNG 
---------------- 
VÕ THỊ HỒNG THẮM 
KHAI PHÁ LUỒNG VĂN BẢN 
VỚI KỸ THUẬT GOM CỤM 
Đồng Nai, năm 2021 
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH 
 Chuyên ngành: Khoa học máy tính 
Mã số: 9480101 
NGƯỜI HƯỚNG DẪN KHOA HỌC 
PGS.TS. ĐỖ PHÚC 
 LỜI CẢM ƠN 
Xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình hướng dẫn nghiên cứu sinh 
hoàn thành luận án tiến sĩ. 
Xin chân thành cảm ơn quý thầy/cô khoa sau đại học, trường đại học Lạc Hồng đã 
tạo điện kiện thuận lợi và hỗ trợ nghiên cứu sinh hoàn thành luận án. 
Xin trân trọng cảm ơn trường đại học Thủ Dầu Một đã hỗ trợ nghiên cứu sinh tham 
gia học tập tại trường đại học Lạc Hồng. 
Xin chân thành cám ơn quý bạn bè, đồng nghiệp đã tạo điều kiện giúp đỡ nghiên 
cứu sinh hoàn thành luận án. 
 Nghiên cứu sinh - Võ Thị Hồng Thắm 
 LỜI CAM ĐOAN 
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi dưới sự hướng 
dẫn của PGS.TS. Đỗ Phúc. Các số liệu và tài liệu trong nghiên cứu là trung thực và chưa 
được công bố trong bất kỳ công trình nghiên cứu nào. Tất cả các tham khảo và kế thừa 
đều được trích dẫn và tham chiếu đầy đủ. 
 Đồng Nai, ngày  tháng 5 năm 2021 
 Nghiên cứu sinh 
 Võ Thị Hồng Thắm 
 MỤC LỤC 
CHƯƠNG 1: GIỚI THIỆU .......................................................................................... 1 
1.1 Tổng quan về đề tài luận án ................................................................................... 1 
1.1.1 Bài toán nghiên cứu và ý nghĩa ....................................................................... 1 
1.1.2 Thách thức của bài toán gom cụm luồng văn bản ........................................... 4 
1.1.3 Các vấn đề nghiên cứu .................................................................................... 8 
1.1.4 Các bài toán nghiên cứu .................................................................................. 8 
1.2 Đóng góp của luận án và các công trình đã được công bố .................................. 10 
1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu ................................................... 11 
1.3.1 Mục tiêu nghiên cứu ...................................................................................... 11 
1.3.2 Phạm vi nghiên cứu ....................................................................................... 12 
1.3.3 Phương pháp nghiên cứu ............................................................................... 12 
1.4 Cấu trúc của luận án ............................................................................................. 13 
1.5 Kết chương ........................................................................................................... 13 
CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN .................................................... 14 
2.1 So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản .......... 14 
2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống ...................... 14 
2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động ................................ 15 
2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ ......................... 16 
2.1.4 Mô hình hóa chủ đề (Topic modeling).......................................................... 16 
2.1.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet (DPMM) .............................. 23 
2.1.6 Đồ thị con phổ biến ....................................................................................... 32 
2.1.7 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg ........................... 35 
2.2 Kết chương ........................................................................................................... 40 
CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN 
ĐỒ THỊ TỪ .................................................................................................................. 41 
3.1 Phương pháp ......................................................................................................... 41 
 3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW) ..................... 41 
3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW) ..................................................... 43 
3.1.3 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp..................................... 49 
3.2 Thực nghiệm và bàn luận ..................................................................................... 62 
3.3 Kết chương ........................................................................................................... 74 
CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN ....... 75 
4.1 Phương pháp ......................................................................................................... 75 
4.2 Thực nghiệm và bàn luận ..................................................................................... 88 
4.3 Kết chương ......................................................................................................... 103 
CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN .......................................... 104 
5.1 Các kết quả đạt được, hạn chế và hướng phát triển ........................................... 104 
5.2 Ý nghĩa học thuật và thực tiễn của luận án ........................................................ 106 
 BẢNG THUẬT NGỮ ANH – VIỆT 
Tiếng Anh Viết tắt Tiếng Việt 
Allocation Dirichlet Latent LDA Phân bổ tiềm ẩn Direntlet 
Bag of Word BOW Túi từ 
Benchmark Đối sánh 
Cluster validation Xác nhận cụm 
Common sub GOWs Đồ thị con phổ biến 
Concept/topic drift Dòng trôi khái niệm/chủ đề 
Corpus Kho ngữ liệu 
Density-based Dựa trên mật độ 
Dirichlet Process DP Quy trình Dirichlet 
Dirichlet-Hawkes Topic Model DHTM Mô hình chủ đề Dirichlet-Hawkes 
Document batch Lô tài liệu 
Dynamic Clustering Topic DCT Mô hình chủ đề gom cụm động 
Dynamic Topic Model DTM Mô hình chủ đề động 
Features of meaning Đặc trưng ngữ nghĩa 
Filtering Lọc 
Frequent sub-graph FSG Đồ thị con phổ biến 
Graph of Word GOW Đồ thị từ 
Microblogs Bài viết ngắn dạng blog 
Model’s hyper-parameter 
sensitivity 
 Độ nhạy của siêu tham số của mô hình 
(viết ngắn là độ nhạy) 
Mstream MStream Thuật toán gom cụm luồng dữ liệu dựa 
trên mô hình hỗn hợp DP 
Noise Yếu tố nhiễu 
Outlier Ngoại lệ 
Politeness Độ sâu 
Preprocess Tiền xử lý 
Proximity measure Đo lường lân cận 
Sequence Monte Carlo SMC Tuần tự Monte Carlo 
Sparse nature Tính rời rạc tự nhiên 
Sparsity of text Sự rời rạc của văn bản 
Stemming and Lemmatization Trả từ về nguyên mẫu 
Stop word Từ dừng 
Streaming LDA ST-LDA Streaming LDA 
Survey Khảo sát 
 Tiếng Anh Viết tắt Tiếng Việt 
Temporal Dynamic Process Model TDPM Mô hình hỗn hợp quy trình Dirichlet 
theo thời gian 
Temporal model-LDA TM-LDA Mô hình LDA theo thời gian 
Temporal Text Mining TTM Khai phá văn bản theo thời gian 
Term Frequency TF Tần số từ 
Term Frequency-Invert Document 
Frequency 
TF-IDF Tần số từ -Tần số tài liệu nghịch đảo 
Text corpus Tập văn bản 
Text similarity Sự tương tự văn bản 
Text to Graph Text2graph Đồ thị hóa văn bản 
Trendy Keyword Extraction System TKES Hệ thống rút trích từ khóa tiêu biểu 
Tokenization Tách từ 
Topic tracking model TTM mô hình theo dõi chủ đề 
Vector Space model VSM Mô hình không gian vectơ 
Visualize Hiển thị trực quan 
Word relatedness Sự liên quan từ 
Word segmentation Tách từ 
Word similarity Sự tương tự từ 
Word vector Véc tơ từ 
 DANH MỤC BẢNG 
Bảng 1.1: Phân tích các điểm mạnh và tồn tại của các mô hình ..................................... 7 
Bảng 3.1: Biểu diễn văn bản với BOW truyền thống .................................................... 42 
Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF ....................................................... 42 
Bảng 3.3: Biểu diễn văn bản với GOW ......................................................................... 48 
Bảng 3.4: Biểu diễn văn bản kết hợp BOW và GOW ................................................... 49 
Bảng 3.5: Biểu diễn véc tơ chủ đề trong mô hình GOW-Stream .................................. 62 
Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm ................................................................. 64 
Bảng 3.7: Chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản .................... 66 
Bảng 3.8: Kết quả đầu ra trung bình của tác vụ gom cụm văn bản với các mô hình khác 
nhau với độ đo NMI ...................................................................................................... 67 
Bảng 3.9: Kết quả đầu ra thử nghiệm của tác vụ gom cụm văn bản với các mô hình khác 
nhau với độ đo F1 .......................................................................................................... 67 
Bảng 4.1: Các thuộc tính của nút và mối quan hệ ......................................................... 80 
Bảng 4.2: Một ví dụ về tính toán chỉ số xếp hạng của từ .............................................. 82 
Bảng 4.3: Một ví dụ về tính tổng trọng số của từ khóa trong chuyên mục ................... 83 
Bảng 4.4: Thí dụ về cấu trúc lưu trữ Burst .................................................................... 87 
Bảng 4.5: Các Burst của từ khóa “Facebook” ............................................................... 89 
Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook” ...................... 90 
Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin ............................. 91 
Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị .. 91 
Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý ............................................................ 91 
Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau ........... 92 
Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn 
ngữ lập trình khác nhau ................................................................................................. 93 
Bảng 4.12: Tần số của từ khóa ...................................................................................... 94 
Bảng 4.13: Một số tham số với word2Vec .................................................................... 95 
Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng” .................................................. 96 
 Bảng 4.15: So sánh mức độ tương đồng khi sử dụng các thước đo khoảng cách tương 
đồng khác nhau .............................................................................................................. 96 
Bảng 4.16: Thời gian huấn luyện các mô hình .............................................................. 97 
Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan ....................................................... 98 
Bảng 4.18: Kiểm tra thời gian xử lý phát hiện Burst của các bài báo trong 19 ngày . 100 
 DANH MỤC HÌNH 
Hình 1.1: Mối liên hệ giữa các bài toán và các công trình đã công bố đối với từng bài 
toán ................................................................................................................................ 11 
Hình 2.1: Mô hình sinh LDA ........................................................................................ 18 
Hình 2.2: Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet .................. 26 
Hình 2.3: Mô hình sinh của mô hình hỗn hợp hữu hạn ................................................. 27 
Hình 2.4: Tỉ lệ của các sự kiện mục tiêu ....................................................................... 39 
Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vô 
hướng ............................................................................................................................. 43 
Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu 𝐷 ............................................................. 47 
Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu 𝐷 .......................................... 48 
Hình 3.4: Mô hình sinh của mô hình GOW-Stream ...................................................... 52 
Hình 3.5: Mô hình sinh của MStream & GOW-Stream ................................................ 53 
Hình 3.6: Lưu đồ thuật toán GOW-Stream ................................................................... 59 
Hình 3.7: Kết quả thử nghiệm đối với số lượng lô tài liệu khác nhau với độ đo NMI . 68 
Hình 3.8: Kết quả thử nghiệm trên số lượng lô tài liệu khác nhau với độ đo F1 .......... 68 
Hình 3.9: So sánh với k-means sử dụng độ đo NMI ..................................................... 69 
Hình 3.10: So sánh với k-means sử dụng độ đo F1 ....................................................... 69 
Hình 3.11: Khả năng nâng cao hiệu suất của các kỹ thuật gom cụm luồng văn bản khác 
nhau ............................................................................................................................... 70 
Hình 3.12: Tốc độ xử lý của GOW-Stream so với MStream khi tính luôn chi phí tìm đồ 
thị con phổ biến ............................................................................................................. 71 
Hình 3.13: Đánh giá ảnh hưởng của số lần lặp đến tính chính xác của kết quả của mô 
hình GOW-Stream ......................................................................................................... 72 
Hình 3.14: Kết quả thực nghiệm về ảnh hưởng của siêu tham số α .............................. 73 
Hình 3.15: Kết quả thực nghiệm về ảnh hưởng của siêu tham số β .............................. 73 
Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế ....................................... 76 
Hình 4.2: Kiến trúc hệ thống TKES .............................................................................. 77 
 Hình 4.3: Trình tự xử lý của hệ thống TKES ................................................................ 78 
Hình 4.4: Luồng văn bản đến liên tục theo thời gian .................................................... 79 
Hình 4.5: Cấu trúc lưu trữ dạng cây .............................................................................. 79 
Hình 4.6: Cấu trúc lưu trữ chung và ví dụ ..................................................................... 80 
Hình 4.7: Ví dụ về các bước xử lý rút trích từ khóa ...................................................... 81 
Hình 4.8: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật ............................................... 86 
Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook” .......................................... 89 
Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian chạy 
của bộ xử lý ........................................................................................................... ... et al. Dirichlet-hawkes processes with applications to clustering 
continuous-time document streams. in Proceedings of the 21th ACM SIGKDD 
International Conference on Knowledge Discovery and Data Mining. 2015. 
24. Duan Tiehang, et al. Sequential embedding induced text clustering, a non-
parametric bayesian approach. in Pacific-Asia Conference on Knowledge 
Discovery and Data Mining. 2019. Springer. 
25. Erkan Günes and Radev Dragomir R, Lexrank: Graph-based lexical centrality as 
salience in text summarization. Journal of Artificial Intelligence Research, 2004. 
22: p. 457-479. 
26. Ferguson Thomas S, A Bayesian analysis of some nonparametric problems. The 
annals of statistics, 1973: p. 209-230. 
27. Finegan-Dollak Catherine, et al. Effects of creativity and cluster tightness on 
short text clustering performance. in Proceedings of the 54th Annual Meeting of 
the Association for Computational Linguistics (Volume 1: Long Papers). 2016. 
28. Fisher David, et al., Evaluating ranking diversity and summarization in 
microblogs using hashtags. University of Massachusetts, Boston, MA, Technical 
Report, 2015. 
 29. Fung Gabriel Pui Cheong, et al. Parameter free bursty events detection in text 
streams. in Proceedings of the 31st international conference on Very large data 
bases. 2005. VLDB Endowment. 
30. Guo Xifeng, et al. Improved deep embedded clustering with local structure 
preservation. in IJCAI. 2017. 
31. Guo Xifeng, et al. Deep clustering with convolutional autoencoders. in 
International conference on neural information processing. 2017. Springer. 
32. Heydari Atefeh, et al., Detection of review spam: A survey. Expert Systems with 
Applications, 2015. 42(7): p. 3634-3642. 
33. Hosseinimotlagh Seyedmehdi and Papalexakis Evangelos E. Unsupervised 
content-based identification of fake news articles with tensor decomposition 
ensembles. in Proceedings of the Workshop on Misinformation and Misbehavior 
Mining on the Web (MIS2). 2018. 
34. Hu Jun and Zheng Wendong. Transformation-gated LSTM: Efficient capture of 
short-term mutation dependencies for multivariate time series prediction tasks. 
in 2019 International Joint Conference on Neural Networks (IJCNN). 2019. 
IEEE. 
35. Hu Xia and Liu Huan, Text analytics in social media. Mining text data, 2012: p. 
385-414. 
36. Hu Xuegang, Wang Haiyan, and Li Peipei, Online Biterm Topic Model based 
short text stream classification using short text expansion and concept drifting 
detection. Pattern Recognition Letters, 2018. 116: p. 187-194. 
37. Jiang Zhuxi, et al., Variational deep embedding: An unsupervised and generative 
approach to clustering. arXiv preprint arXiv:1611.05148, 2016. 
38. Jindal Vasu. A personalized Markov clustering and deep learning approach for 
Arabic text categorization. in Proceedings of the ACL 2016 Student Research 
Workshop. 2016. 
39. Kalogeratos Argyris, Zagorisios Panagiotis, and Likas Aristidis. Improving text 
stream clustering using term burstiness and co-burstiness. in Proceedings of the 
9th Hellenic Conference on Artificial Intelligence. 2016. 
40. Kampffmeyer Michael, et al., Deep divergence-based approach to clustering. 
Neural Networks, 2019. 113: p. 91-101. 
41. Kim Jaeyoung, et al., Patent document clustering with deep embeddings. 
Scientometrics, 2020: p. 1-15. 
42. Kleinberg Jon, Bursty and hierarchical structure in streams. Data Mining and 
Knowledge Discovery, 2003. 7(4): p. 373-397. 
43. Lahiri Shibamouli, Mihalcea Rada, and Lai P-H, Keyword extraction from 
emails. Natural Language Engineering, 2017. 23(2): p. 295-317. 
44. Le Hong Phuong Nguyen Thi Minh, Huyen Azim Roussanaly, and Vinh Hô 
Tuong, A hybrid approach to word segmentation of Vietnamese texts. Language 
and Automata Theory and Applications, 2008: p. 240. 
 45. Li Chenliang, et al., Enhancing topic modeling for short texts with auxiliary word 
embeddings. ACM Transactions on Information Systems (TOIS), 2017. 36(2): p. 
1-30. 
46. Li Chenliang, et al. Topic modeling for short texts with auxiliary word 
embeddings. in Proceedings of the 39th International ACM SIGIR conference on 
Research and Development in Information Retrieval. 2016. 
47. Li Hua, Text Clustering, in Encyclopedia of Database Systems, L. Liu and M.T. 
ÖZsu, Editors. 2009, Springer US: Boston, MA. p. 3044-3046. 
48. Li Shan-Qing, Du Sheng-Mei, and Xing Xiao-Zhao. A keyword extraction 
method for chinese scientific abstracts. in Proceedings of the 2017 International 
Conference on Wireless Communications, Networking and Applications. 2017. 
49. Liang Shangsong and de Rijke Maarten, Burst-aware data fusion for microblog 
search. Information Processing & Management, 2015. 51(2): p. 89-113. 
50. Liang Shangsong, Yilmaz Emine, and Kanoulas Evangelos. Dynamic clustering 
of streaming short documents. in Proceedings of the 22nd ACM SIGKDD 
international conference on knowledge discovery and data mining. 2016. 
51. Lynn Htet Myet, et al., Swiftrank: an unsupervised statistical approach of 
keyword and salient sentence extraction for individual documents. Procedia 
computer science, 2017. 113: p. 472-477. 
52. Mai Khai, et al. Enabling hierarchical Dirichlet processes to work better for 
short texts at large scale. in Pacific-Asia Conference on Knowledge Discovery 
and Data Mining. 2016. Springer. 
53. Margara Alessandro and Rabl Tilmann, Definition of Data Streams, in 
Encyclopedia of Big Data Technologies, S. Sakr and A.Y. Zomaya, Editors. 
2019, Springer International Publishing: Cham. p. 648-652. 
54. Martínez-Fernández José Luis, et al. Automatic keyword extraction for news 
finder. in International Workshop on Adaptive Multimedia Retrieval. 2003. 
Springer. 
55. Musselman Andrew, Apache Mahout, in Encyclopedia of Big Data Technologies, 
S. Sakr and A.Y. Zomaya, Editors. 2019, Springer International Publishing: 
Cham. p. 66-70. 
56. Neal Radford M, Markov chain sampling methods for Dirichlet process mixture 
models. Journal of computational and graphical statistics, 2000. 9(2): p. 249-265. 
57. Neill Daniel B and Moore Andrew W. Anomalous spatial cluster detection. in 
Proceedings of the KDD 2005 Workshop on Data Mining Methods for Anomaly 
Detection. 2005. 
58. Neill Daniel B, et al. Detecting significant multidimensional spatial clusters. in 
Advances in Neural Information Processing Systems. 2005. 
59. Nguyen Hai-Long, Woon Yew-Kwong, and Ng Wee-Keong, A survey on data 
stream clustering and classification. Knowledge and information systems, 2015. 
45(3): p. 535-569. 
 60. Nguyen Tri and Do Phuc. Topic discovery using frequent subgraph mining 
approach. in International Conference on Computational Science and 
Technology. 2017. Springer. 
61. Park Jinuk, et al., ADC: Advanced document clustering using contextualized 
representations. Expert Systems with Applications, 2019. 137: p. 157-166. 
62. Peters Matthew E, et al., Deep contextualized word representations. arXiv 
preprint arXiv:1802.05365, 2018. 
63. Pham Phu, Do Phuc, and Ta Chien DC. GOW-LDA: Applying Term Co-
occurrence Graph Representation in LDA Topic Models Improvement. in 
International Conference on Computational Science and Technology. 2017. 
Springer. 
64. Pitman Jim, Combinatorial Stochastic Processes: Ecole d'Eté de Probabilités de 
Saint-Flour XXXII-2002. 2006: Springer. 
65. Qiang Jipeng, et al. Topic modeling over short texts by incorporating word 
embeddings. in Pacific-Asia Conference on Knowledge Discovery and Data 
Mining. 2017. Springer. 
66. Qiang Jipeng, et al., Short text clustering based on Pitman-Yor process mixture 
model. Applied Intelligence, 2018. 48(7): p. 1802-1812. 
67. Quan Xiaojun, et al. Short and sparse text topic modeling via self-aggregation. 
in Twenty-fourth international joint conference on artificial intelligence. 2015. 
68. Quan Xiaojun, et al., Latent discriminative models for social emotion detection 
with emotional dependency. ACM Transactions on Information Systems (TOIS), 
2015. 34(1): p. 1-19. 
69. Romsaiyud Walisa. Detecting emergency events and geo-location awareness 
from twitter streams. in The International Conference on E-Technologies and 
Business on the Web (EBW2013). 2013. The Society of Digital Information and 
Wireless Communication. 
70. Saul Lawrence K, Weiss Yair, and Bottou Léon, Advances in neural information 
processing systems 17: Proceedings of the 2004 conference. Vol. 17. 2005: MIT 
press. 
71. Shah Setu and Luo Xiao. Comparison of deep learning based concept 
representations for biomedical document clustering. in 2018 IEEE EMBS 
international conference on biomedical & health informatics (BHI). 2018. IEEE. 
72. Shaham Uri, et al., Spectralnet: Spectral clustering using deep neural networks. 
arXiv preprint arXiv:1801.01587, 2018. 
73. Shi Tian, et al. Short-text topic modeling via non-negative matrix factorization 
enriched with local word-context correlations. in Proceedings of the 2018 World 
Wide Web Conference. 2018. 
74. Shou Lidan, et al. Sumblr: continuous summarization of evolving tweet streams. 
in Proceedings of the 36th international ACM SIGIR conference on Research 
and development in information retrieval. 2013. 
75. Teh Yee Whye, Dirichlet Process. 2010: p. 280-287. 
 76. Teh Yee Whye, Dirichlet Process. 2010. 
77. Tian Kai, Zhou Shuigeng, and Guan Jihong. Deepcluster: A general clustering 
framework based on deep learning. in Joint European Conference on Machine 
Learning and Knowledge Discovery in Databases. 2017. Springer. 
78. Vlachos Michail, et al. Identifying similarities, periodicities and bursts for online 
search queries. in Proceedings of the 2004 ACM SIGMOD international 
conference on Management of data. 2004. ACM. 
79. Wan Haowen, et al., Research on Chinese Short Text Clustering Ensemble via 
Convolutional Neural Networks, in Artificial Intelligence in China. 2020, 
Springer. p. 622-628. 
80. Wang Binyu, et al., Text clustering algorithm based on deep representation 
learning. The Journal of Engineering, 2018. 2018(16): p. 1407-1414. 
81. Wang Mengzhi, et al. Data mining meets performance evaluation: Fast 
algorithms for modeling bursty traffic. in Proceedings 18th International 
Conference on Data Engineering. 2002. IEEE. 
82. Wang Wu, et al. Learning latent topics from the word co-occurrence network. in 
National Conference of Theoretical Computer Science. 2017. Springer. 
83. Wang Xuerui and McCallum Andrew. Topics over time: a non-Markov 
continuous-time model of topical trends. in Proceedings of the 12th ACM 
SIGKDD international conference on Knowledge discovery and data mining. 
2006. 
84. Wang Yinglin, Wang Ming, and Fujita Hamido, Word sense disambiguation: A 
comprehensive knowledge exploitation framework. Knowledge-Based Systems, 
2020. 190: p. 105030. 
85. Wang Yu, Agichtein Eugene, and Benzi Michele. TM-LDA: efficient online 
modeling of latent topic transitions in social media. in Proceedings of the 18th 
ACM SIGKDD international conference on Knowledge discovery and data 
mining. 2012. 
86. Wang Zhiguo, Mi Haitao, and Ittycheriah Abraham, Semi-supervised clustering 
for short text via deep representation learning. arXiv preprint arXiv:1602.06797, 
2016. 
87. Weng Jianshu and Lee Bu-Sung, Event detection in twitter. ICWSM, 2011. 11: 
p. 401-408. 
88. Xie Junyuan, Girshick Ross, and Farhadi Ali. Unsupervised deep embedding for 
clustering analysis. in International conference on machine learning. 2016. 
89. Xu Dongkuan, et al. Deep co-clustering. in Proceedings of the 2019 SIAM 
International Conference on Data Mining. 2019. SIAM. 
90. Xu Jiaming, et al., Self-taught convolutional neural networks for short text 
clustering. Neural Networks, 2017. 88: p. 22-31. 
91. Yamamoto Shuhei, et al., Twitter user tagging method based on burst time series. 
International Journal of Web Information Systems, 2016. 12(3): p. 292-311. 
 92. Yan Xifeng and Han Jiawei. gspan: Graph-based substructure pattern mining. 
in 2002 IEEE International Conference on Data Mining, 2002. Proceedings. 
2002. IEEE. 
93. Yang Bo, et al. Towards k-means-friendly spaces: Simultaneous deep learning 
and clustering. in international conference on machine learning. 2017. PMLR. 
94. Yang Min, et al., Cross-domain aspect/sentiment-aware abstractive review 
summarization by combining topic modeling and deep reinforcement learning. 
Neural Computing and Applications, 2020. 32(11): p. 6421-6433. 
95. Yang Zaihan, et al. Parametric and non-parametric user-aware sentiment topic 
models. in Proceedings of the 38th International ACM SIGIR Conference on 
Research and Development in Information Retrieval. 2015. 
96. Yi Junkai, et al., A novel text clustering approach using deep-learning 
vocabulary network. Mathematical Problems in Engineering, 2017. 2017. 
97. Yin Jianhua, et al. Model-based clustering of short text streams. in Proceedings 
of the 24th ACM SIGKDD International Conference on Knowledge Discovery & 
Data Mining. 2018. 
98. Yin Jianhua and Wang Jianyong. A model-based approach for text clustering 
with outlier detection. in 2016 IEEE 32nd International Conference on Data 
Engineering (ICDE). 2016. IEEE. 
99. Yin Jianhua and Wang Jianyong. A text clustering algorithm using an online 
clustering scheme for initialization. in Proceedings of the 22nd ACM SIGKDD 
international conference on Knowledge discovery and data mining. 2016. 
100. Yoo Shinjae, Huang Hao, and Kasiviswanathan Shiva Prasad. Streaming spectral 
clustering. in 2016 IEEE 32nd international conference on data engineering 
(ICDE). 2016. IEEE. 
101. Yuan Chunyuan, et al. Learning review representations from user and product 
level information for spam detection. in 2019 IEEE International Conference on 
Data Mining (ICDM). 2019. IEEE. 
102. Zhang Xin, Fast algorithms for burst detection. 2006, New York University, 
Graduate School of Arts and Science. 
103. Zhang Yun, Hua Weina, and Yuan Shunbo, Mapping the scientific research on 
open data: A bibliometric review. Learned Publishing, 2018. 31(2): p. 95-106. 
104. Zhou Deyu, et al., Unsupervised event exploration from social text streams. 
Intelligent Data Analysis, 2017. 21(4): p. 849-866. 
105. Zhu Longxia, et al., A joint model of extended LDA and IBTM over streaming 
Chinese short texts. Intelligent Data Analysis, 2019. 23(3): p. 681-699. 
106. Zubaroğlu Alaettin and Atalay Volkan, Data stream clustering: a review. 
Artificial Intelligence Review, 2020. 
107. Zuo Yuan, et al. Topic modeling of short texts: A pseudo-document view. in 
Proceedings of the 22nd ACM SIGKDD international conference on knowledge 
discovery and data mining. 2016. 
 108. Zuo Yuan, Zhao Jichang, and Xu Ke, Word network topic model: a simple but 
general solution for short and imbalanced texts. Knowledge and Information 
Systems, 2016. 48(2): p. 379-398. 

File đính kèm:

  • pdfluan_an_khai_pha_luong_van_ban_voi_ky_thuat_gom_cum.pdf