Luận án Khai phá luồng văn bản với kỹ thuật gom cụm
Gần đây, với xu thế dữ liệu gia tăng, tốc độ cao, kích thước lớn và luôn biến đổi
liên tục cần được xử lý theo thời gian thực, nhiều nghiên cứu liên quan đến luồng dữ
liệu đã ra đời. Khai phá luồng dữ liệu là hướng nghiên cứu thu hút được nhiều sự quan
tâm và Gom cụm là một kỹ thuật quan trọng.
Là một dạng thức của luồng dữ liệu, luồng văn bản là chuỗi các văn bản được sắp
xếp theo thứ tự đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: Tin tức
và truyền thông xã hội. Gom cụm luồng văn bản là một vấn đề quan trọng trong cộng
đồng nghiên cứu khai phá dữ liệu văn bản có nhiều ứng dụng như phân nhóm văn bản,
sắp xếp tài liệu, phát hiện và theo dõi chủ đề Gom cụm văn bản là một quá trình phân
vùng/nhóm một tập hợp các tài liệu chưa được gắn nhãn vào k chủ đề cụ thể phục vụ
nhiều mục đích như: Trong ứng dụng phát hiện sự kiện xã hội, giúp xác định xu hướng
đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các
mạng xã hội phổ biến gần đây; Trong truy xuất văn bản, giúp nhóm các kết quả tìm kiếm
có liên quan để giúp người dùng dễ dàng rút trích thông tin cần thiết. Trong kỷ nguyên
BigData, với sự gia tăng mạnh mẽ của các mạng xã hội trực tuyến, số lượng lớn nội
dung do người dùng tạo ra thường ở dạng tài liệu văn bản ngắn như: bình luận của người
dùng, tweet, bài đăng, trên Twitter hoặc Facebook, chứa đựng nhiều thông tin có
giá trị đại diện cho các sự kiện thực tế nóng bỏng. Văn bản ngắn là các đoạn bình luận,
trao đổi, nhận xét ngắn trên mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài
câu) so với các tài liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn. Hầu
hết các nghiên cứu về gom cụm văn bản truyền thống chủ yếu tập trung vào các văn bản
tĩnh dài nên không thể áp dụng cho các luồng văn bản có tính chất thay đổi nhanh chóng
hay các tài liệu văn bản ngắn. Việc gom cụm tài liệu văn bản ngắn khó khăn hơn do ba
đặc tính chính, bao gồm: Độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài);
Độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh các chủ đề hiện có trong
các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Do đó, không thể
áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các tập văn bản đến với
tốc độ cao, rời rạc và có độ dài ngắn này
Tóm tắt nội dung tài liệu: Luận án Khai phá luồng văn bản với kỹ thuật gom cụm
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ---------------- VÕ THỊ HỒNG THẮM Đồng Nai, năm 2021 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ---------------- VÕ THỊ HỒNG THẮM KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM Đồng Nai, năm 2021 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 9480101 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. ĐỖ PHÚC LỜI CẢM ƠN Xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình hướng dẫn nghiên cứu sinh hoàn thành luận án tiến sĩ. Xin chân thành cảm ơn quý thầy/cô khoa sau đại học, trường đại học Lạc Hồng đã tạo điện kiện thuận lợi và hỗ trợ nghiên cứu sinh hoàn thành luận án. Xin trân trọng cảm ơn trường đại học Thủ Dầu Một đã hỗ trợ nghiên cứu sinh tham gia học tập tại trường đại học Lạc Hồng. Xin chân thành cám ơn quý bạn bè, đồng nghiệp đã tạo điều kiện giúp đỡ nghiên cứu sinh hoàn thành luận án. Nghiên cứu sinh - Võ Thị Hồng Thắm LỜI CAM ĐOAN Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của PGS.TS. Đỗ Phúc. Các số liệu và tài liệu trong nghiên cứu là trung thực và chưa được công bố trong bất kỳ công trình nghiên cứu nào. Tất cả các tham khảo và kế thừa đều được trích dẫn và tham chiếu đầy đủ. Đồng Nai, ngày tháng 5 năm 2021 Nghiên cứu sinh Võ Thị Hồng Thắm MỤC LỤC CHƯƠNG 1: GIỚI THIỆU .......................................................................................... 1 1.1 Tổng quan về đề tài luận án ................................................................................... 1 1.1.1 Bài toán nghiên cứu và ý nghĩa ....................................................................... 1 1.1.2 Thách thức của bài toán gom cụm luồng văn bản ........................................... 4 1.1.3 Các vấn đề nghiên cứu .................................................................................... 8 1.1.4 Các bài toán nghiên cứu .................................................................................. 8 1.2 Đóng góp của luận án và các công trình đã được công bố .................................. 10 1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu ................................................... 11 1.3.1 Mục tiêu nghiên cứu ...................................................................................... 11 1.3.2 Phạm vi nghiên cứu ....................................................................................... 12 1.3.3 Phương pháp nghiên cứu ............................................................................... 12 1.4 Cấu trúc của luận án ............................................................................................. 13 1.5 Kết chương ........................................................................................................... 13 CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN .................................................... 14 2.1 So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản .......... 14 2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống ...................... 14 2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động ................................ 15 2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ ......................... 16 2.1.4 Mô hình hóa chủ đề (Topic modeling).......................................................... 16 2.1.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet (DPMM) .............................. 23 2.1.6 Đồ thị con phổ biến ....................................................................................... 32 2.1.7 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg ........................... 35 2.2 Kết chương ........................................................................................................... 40 CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN ĐỒ THỊ TỪ .................................................................................................................. 41 3.1 Phương pháp ......................................................................................................... 41 3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW) ..................... 41 3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW) ..................................................... 43 3.1.3 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp..................................... 49 3.2 Thực nghiệm và bàn luận ..................................................................................... 62 3.3 Kết chương ........................................................................................................... 74 CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN ....... 75 4.1 Phương pháp ......................................................................................................... 75 4.2 Thực nghiệm và bàn luận ..................................................................................... 88 4.3 Kết chương ......................................................................................................... 103 CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN .......................................... 104 5.1 Các kết quả đạt được, hạn chế và hướng phát triển ........................................... 104 5.2 Ý nghĩa học thuật và thực tiễn của luận án ........................................................ 106 BẢNG THUẬT NGỮ ANH – VIỆT Tiếng Anh Viết tắt Tiếng Việt Allocation Dirichlet Latent LDA Phân bổ tiềm ẩn Direntlet Bag of Word BOW Túi từ Benchmark Đối sánh Cluster validation Xác nhận cụm Common sub GOWs Đồ thị con phổ biến Concept/topic drift Dòng trôi khái niệm/chủ đề Corpus Kho ngữ liệu Density-based Dựa trên mật độ Dirichlet Process DP Quy trình Dirichlet Dirichlet-Hawkes Topic Model DHTM Mô hình chủ đề Dirichlet-Hawkes Document batch Lô tài liệu Dynamic Clustering Topic DCT Mô hình chủ đề gom cụm động Dynamic Topic Model DTM Mô hình chủ đề động Features of meaning Đặc trưng ngữ nghĩa Filtering Lọc Frequent sub-graph FSG Đồ thị con phổ biến Graph of Word GOW Đồ thị từ Microblogs Bài viết ngắn dạng blog Model’s hyper-parameter sensitivity Độ nhạy của siêu tham số của mô hình (viết ngắn là độ nhạy) Mstream MStream Thuật toán gom cụm luồng dữ liệu dựa trên mô hình hỗn hợp DP Noise Yếu tố nhiễu Outlier Ngoại lệ Politeness Độ sâu Preprocess Tiền xử lý Proximity measure Đo lường lân cận Sequence Monte Carlo SMC Tuần tự Monte Carlo Sparse nature Tính rời rạc tự nhiên Sparsity of text Sự rời rạc của văn bản Stemming and Lemmatization Trả từ về nguyên mẫu Stop word Từ dừng Streaming LDA ST-LDA Streaming LDA Survey Khảo sát Tiếng Anh Viết tắt Tiếng Việt Temporal Dynamic Process Model TDPM Mô hình hỗn hợp quy trình Dirichlet theo thời gian Temporal model-LDA TM-LDA Mô hình LDA theo thời gian Temporal Text Mining TTM Khai phá văn bản theo thời gian Term Frequency TF Tần số từ Term Frequency-Invert Document Frequency TF-IDF Tần số từ -Tần số tài liệu nghịch đảo Text corpus Tập văn bản Text similarity Sự tương tự văn bản Text to Graph Text2graph Đồ thị hóa văn bản Trendy Keyword Extraction System TKES Hệ thống rút trích từ khóa tiêu biểu Tokenization Tách từ Topic tracking model TTM mô hình theo dõi chủ đề Vector Space model VSM Mô hình không gian vectơ Visualize Hiển thị trực quan Word relatedness Sự liên quan từ Word segmentation Tách từ Word similarity Sự tương tự từ Word vector Véc tơ từ DANH MỤC BẢNG Bảng 1.1: Phân tích các điểm mạnh và tồn tại của các mô hình ..................................... 7 Bảng 3.1: Biểu diễn văn bản với BOW truyền thống .................................................... 42 Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF ....................................................... 42 Bảng 3.3: Biểu diễn văn bản với GOW ......................................................................... 48 Bảng 3.4: Biểu diễn văn bản kết hợp BOW và GOW ................................................... 49 Bảng 3.5: Biểu diễn véc tơ chủ đề trong mô hình GOW-Stream .................................. 62 Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm ................................................................. 64 Bảng 3.7: Chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản .................... 66 Bảng 3.8: Kết quả đầu ra trung bình của tác vụ gom cụm văn bản với các mô hình khác nhau với độ đo NMI ...................................................................................................... 67 Bảng 3.9: Kết quả đầu ra thử nghiệm của tác vụ gom cụm văn bản với các mô hình khác nhau với độ đo F1 .......................................................................................................... 67 Bảng 4.1: Các thuộc tính của nút và mối quan hệ ......................................................... 80 Bảng 4.2: Một ví dụ về tính toán chỉ số xếp hạng của từ .............................................. 82 Bảng 4.3: Một ví dụ về tính tổng trọng số của từ khóa trong chuyên mục ................... 83 Bảng 4.4: Thí dụ về cấu trúc lưu trữ Burst .................................................................... 87 Bảng 4.5: Các Burst của từ khóa “Facebook” ............................................................... 89 Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook” ...................... 90 Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin ............................. 91 Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị .. 91 Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý ............................................................ 91 Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau ........... 92 Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn ngữ lập trình khác nhau ................................................................................................. 93 Bảng 4.12: Tần số của từ khóa ...................................................................................... 94 Bảng 4.13: Một số tham số với word2Vec .................................................................... 95 Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng” .................................................. 96 Bảng 4.15: So sánh mức độ tương đồng khi sử dụng các thước đo khoảng cách tương đồng khác nhau .............................................................................................................. 96 Bảng 4.16: Thời gian huấn luyện các mô hình .............................................................. 97 Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan ....................................................... 98 Bảng 4.18: Kiểm tra thời gian xử lý phát hiện Burst của các bài báo trong 19 ngày . 100 DANH MỤC HÌNH Hình 1.1: Mối liên hệ giữa các bài toán và các công trình đã công bố đối với từng bài toán ................................................................................................................................ 11 Hình 2.1: Mô hình sinh LDA ........................................................................................ 18 Hình 2.2: Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet .................. 26 Hình 2.3: Mô hình sinh của mô hình hỗn hợp hữu hạn ................................................. 27 Hình 2.4: Tỉ lệ của các sự kiện mục tiêu ....................................................................... 39 Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vô hướng ............................................................................................................................. 43 Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu 𝐷 ............................................................. 47 Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu 𝐷 .......................................... 48 Hình 3.4: Mô hình sinh của mô hình GOW-Stream ...................................................... 52 Hình 3.5: Mô hình sinh của MStream & GOW-Stream ................................................ 53 Hình 3.6: Lưu đồ thuật toán GOW-Stream ................................................................... 59 Hình 3.7: Kết quả thử nghiệm đối với số lượng lô tài liệu khác nhau với độ đo NMI . 68 Hình 3.8: Kết quả thử nghiệm trên số lượng lô tài liệu khác nhau với độ đo F1 .......... 68 Hình 3.9: So sánh với k-means sử dụng độ đo NMI ..................................................... 69 Hình 3.10: So sánh với k-means sử dụng độ đo F1 ....................................................... 69 Hình 3.11: Khả năng nâng cao hiệu suất của các kỹ thuật gom cụm luồng văn bản khác nhau ............................................................................................................................... 70 Hình 3.12: Tốc độ xử lý của GOW-Stream so với MStream khi tính luôn chi phí tìm đồ thị con phổ biến ............................................................................................................. 71 Hình 3.13: Đánh giá ảnh hưởng của số lần lặp đến tính chính xác của kết quả của mô hình GOW-Stream ......................................................................................................... 72 Hình 3.14: Kết quả thực nghiệm về ảnh hưởng của siêu tham số α .............................. 73 Hình 3.15: Kết quả thực nghiệm về ảnh hưởng của siêu tham số β .............................. 73 Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế ....................................... 76 Hình 4.2: Kiến trúc hệ thống TKES .............................................................................. 77 Hình 4.3: Trình tự xử lý của hệ thống TKES ................................................................ 78 Hình 4.4: Luồng văn bản đến liên tục theo thời gian .................................................... 79 Hình 4.5: Cấu trúc lưu trữ dạng cây .............................................................................. 79 Hình 4.6: Cấu trúc lưu trữ chung và ví dụ ..................................................................... 80 Hình 4.7: Ví dụ về các bước xử lý rút trích từ khóa ...................................................... 81 Hình 4.8: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật ............................................... 86 Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook” .......................................... 89 Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian chạy của bộ xử lý ........................................................................................................... ... et al. Dirichlet-hawkes processes with applications to clustering continuous-time document streams. in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2015. 24. Duan Tiehang, et al. Sequential embedding induced text clustering, a non- parametric bayesian approach. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2019. Springer. 25. Erkan Günes and Radev Dragomir R, Lexrank: Graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research, 2004. 22: p. 457-479. 26. Ferguson Thomas S, A Bayesian analysis of some nonparametric problems. The annals of statistics, 1973: p. 209-230. 27. Finegan-Dollak Catherine, et al. Effects of creativity and cluster tightness on short text clustering performance. in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016. 28. Fisher David, et al., Evaluating ranking diversity and summarization in microblogs using hashtags. University of Massachusetts, Boston, MA, Technical Report, 2015. 29. Fung Gabriel Pui Cheong, et al. Parameter free bursty events detection in text streams. in Proceedings of the 31st international conference on Very large data bases. 2005. VLDB Endowment. 30. Guo Xifeng, et al. Improved deep embedded clustering with local structure preservation. in IJCAI. 2017. 31. Guo Xifeng, et al. Deep clustering with convolutional autoencoders. in International conference on neural information processing. 2017. Springer. 32. Heydari Atefeh, et al., Detection of review spam: A survey. Expert Systems with Applications, 2015. 42(7): p. 3634-3642. 33. Hosseinimotlagh Seyedmehdi and Papalexakis Evangelos E. Unsupervised content-based identification of fake news articles with tensor decomposition ensembles. in Proceedings of the Workshop on Misinformation and Misbehavior Mining on the Web (MIS2). 2018. 34. Hu Jun and Zheng Wendong. Transformation-gated LSTM: Efficient capture of short-term mutation dependencies for multivariate time series prediction tasks. in 2019 International Joint Conference on Neural Networks (IJCNN). 2019. IEEE. 35. Hu Xia and Liu Huan, Text analytics in social media. Mining text data, 2012: p. 385-414. 36. Hu Xuegang, Wang Haiyan, and Li Peipei, Online Biterm Topic Model based short text stream classification using short text expansion and concept drifting detection. Pattern Recognition Letters, 2018. 116: p. 187-194. 37. Jiang Zhuxi, et al., Variational deep embedding: An unsupervised and generative approach to clustering. arXiv preprint arXiv:1611.05148, 2016. 38. Jindal Vasu. A personalized Markov clustering and deep learning approach for Arabic text categorization. in Proceedings of the ACL 2016 Student Research Workshop. 2016. 39. Kalogeratos Argyris, Zagorisios Panagiotis, and Likas Aristidis. Improving text stream clustering using term burstiness and co-burstiness. in Proceedings of the 9th Hellenic Conference on Artificial Intelligence. 2016. 40. Kampffmeyer Michael, et al., Deep divergence-based approach to clustering. Neural Networks, 2019. 113: p. 91-101. 41. Kim Jaeyoung, et al., Patent document clustering with deep embeddings. Scientometrics, 2020: p. 1-15. 42. Kleinberg Jon, Bursty and hierarchical structure in streams. Data Mining and Knowledge Discovery, 2003. 7(4): p. 373-397. 43. Lahiri Shibamouli, Mihalcea Rada, and Lai P-H, Keyword extraction from emails. Natural Language Engineering, 2017. 23(2): p. 295-317. 44. Le Hong Phuong Nguyen Thi Minh, Huyen Azim Roussanaly, and Vinh Hô Tuong, A hybrid approach to word segmentation of Vietnamese texts. Language and Automata Theory and Applications, 2008: p. 240. 45. Li Chenliang, et al., Enhancing topic modeling for short texts with auxiliary word embeddings. ACM Transactions on Information Systems (TOIS), 2017. 36(2): p. 1-30. 46. Li Chenliang, et al. Topic modeling for short texts with auxiliary word embeddings. in Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. 2016. 47. Li Hua, Text Clustering, in Encyclopedia of Database Systems, L. Liu and M.T. ÖZsu, Editors. 2009, Springer US: Boston, MA. p. 3044-3046. 48. Li Shan-Qing, Du Sheng-Mei, and Xing Xiao-Zhao. A keyword extraction method for chinese scientific abstracts. in Proceedings of the 2017 International Conference on Wireless Communications, Networking and Applications. 2017. 49. Liang Shangsong and de Rijke Maarten, Burst-aware data fusion for microblog search. Information Processing & Management, 2015. 51(2): p. 89-113. 50. Liang Shangsong, Yilmaz Emine, and Kanoulas Evangelos. Dynamic clustering of streaming short documents. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016. 51. Lynn Htet Myet, et al., Swiftrank: an unsupervised statistical approach of keyword and salient sentence extraction for individual documents. Procedia computer science, 2017. 113: p. 472-477. 52. Mai Khai, et al. Enabling hierarchical Dirichlet processes to work better for short texts at large scale. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2016. Springer. 53. Margara Alessandro and Rabl Tilmann, Definition of Data Streams, in Encyclopedia of Big Data Technologies, S. Sakr and A.Y. Zomaya, Editors. 2019, Springer International Publishing: Cham. p. 648-652. 54. Martínez-Fernández José Luis, et al. Automatic keyword extraction for news finder. in International Workshop on Adaptive Multimedia Retrieval. 2003. Springer. 55. Musselman Andrew, Apache Mahout, in Encyclopedia of Big Data Technologies, S. Sakr and A.Y. Zomaya, Editors. 2019, Springer International Publishing: Cham. p. 66-70. 56. Neal Radford M, Markov chain sampling methods for Dirichlet process mixture models. Journal of computational and graphical statistics, 2000. 9(2): p. 249-265. 57. Neill Daniel B and Moore Andrew W. Anomalous spatial cluster detection. in Proceedings of the KDD 2005 Workshop on Data Mining Methods for Anomaly Detection. 2005. 58. Neill Daniel B, et al. Detecting significant multidimensional spatial clusters. in Advances in Neural Information Processing Systems. 2005. 59. Nguyen Hai-Long, Woon Yew-Kwong, and Ng Wee-Keong, A survey on data stream clustering and classification. Knowledge and information systems, 2015. 45(3): p. 535-569. 60. Nguyen Tri and Do Phuc. Topic discovery using frequent subgraph mining approach. in International Conference on Computational Science and Technology. 2017. Springer. 61. Park Jinuk, et al., ADC: Advanced document clustering using contextualized representations. Expert Systems with Applications, 2019. 137: p. 157-166. 62. Peters Matthew E, et al., Deep contextualized word representations. arXiv preprint arXiv:1802.05365, 2018. 63. Pham Phu, Do Phuc, and Ta Chien DC. GOW-LDA: Applying Term Co- occurrence Graph Representation in LDA Topic Models Improvement. in International Conference on Computational Science and Technology. 2017. Springer. 64. Pitman Jim, Combinatorial Stochastic Processes: Ecole d'Eté de Probabilités de Saint-Flour XXXII-2002. 2006: Springer. 65. Qiang Jipeng, et al. Topic modeling over short texts by incorporating word embeddings. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2017. Springer. 66. Qiang Jipeng, et al., Short text clustering based on Pitman-Yor process mixture model. Applied Intelligence, 2018. 48(7): p. 1802-1812. 67. Quan Xiaojun, et al. Short and sparse text topic modeling via self-aggregation. in Twenty-fourth international joint conference on artificial intelligence. 2015. 68. Quan Xiaojun, et al., Latent discriminative models for social emotion detection with emotional dependency. ACM Transactions on Information Systems (TOIS), 2015. 34(1): p. 1-19. 69. Romsaiyud Walisa. Detecting emergency events and geo-location awareness from twitter streams. in The International Conference on E-Technologies and Business on the Web (EBW2013). 2013. The Society of Digital Information and Wireless Communication. 70. Saul Lawrence K, Weiss Yair, and Bottou Léon, Advances in neural information processing systems 17: Proceedings of the 2004 conference. Vol. 17. 2005: MIT press. 71. Shah Setu and Luo Xiao. Comparison of deep learning based concept representations for biomedical document clustering. in 2018 IEEE EMBS international conference on biomedical & health informatics (BHI). 2018. IEEE. 72. Shaham Uri, et al., Spectralnet: Spectral clustering using deep neural networks. arXiv preprint arXiv:1801.01587, 2018. 73. Shi Tian, et al. Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations. in Proceedings of the 2018 World Wide Web Conference. 2018. 74. Shou Lidan, et al. Sumblr: continuous summarization of evolving tweet streams. in Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. 2013. 75. Teh Yee Whye, Dirichlet Process. 2010: p. 280-287. 76. Teh Yee Whye, Dirichlet Process. 2010. 77. Tian Kai, Zhou Shuigeng, and Guan Jihong. Deepcluster: A general clustering framework based on deep learning. in Joint European Conference on Machine Learning and Knowledge Discovery in Databases. 2017. Springer. 78. Vlachos Michail, et al. Identifying similarities, periodicities and bursts for online search queries. in Proceedings of the 2004 ACM SIGMOD international conference on Management of data. 2004. ACM. 79. Wan Haowen, et al., Research on Chinese Short Text Clustering Ensemble via Convolutional Neural Networks, in Artificial Intelligence in China. 2020, Springer. p. 622-628. 80. Wang Binyu, et al., Text clustering algorithm based on deep representation learning. The Journal of Engineering, 2018. 2018(16): p. 1407-1414. 81. Wang Mengzhi, et al. Data mining meets performance evaluation: Fast algorithms for modeling bursty traffic. in Proceedings 18th International Conference on Data Engineering. 2002. IEEE. 82. Wang Wu, et al. Learning latent topics from the word co-occurrence network. in National Conference of Theoretical Computer Science. 2017. Springer. 83. Wang Xuerui and McCallum Andrew. Topics over time: a non-Markov continuous-time model of topical trends. in Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. 2006. 84. Wang Yinglin, Wang Ming, and Fujita Hamido, Word sense disambiguation: A comprehensive knowledge exploitation framework. Knowledge-Based Systems, 2020. 190: p. 105030. 85. Wang Yu, Agichtein Eugene, and Benzi Michele. TM-LDA: efficient online modeling of latent topic transitions in social media. in Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012. 86. Wang Zhiguo, Mi Haitao, and Ittycheriah Abraham, Semi-supervised clustering for short text via deep representation learning. arXiv preprint arXiv:1602.06797, 2016. 87. Weng Jianshu and Lee Bu-Sung, Event detection in twitter. ICWSM, 2011. 11: p. 401-408. 88. Xie Junyuan, Girshick Ross, and Farhadi Ali. Unsupervised deep embedding for clustering analysis. in International conference on machine learning. 2016. 89. Xu Dongkuan, et al. Deep co-clustering. in Proceedings of the 2019 SIAM International Conference on Data Mining. 2019. SIAM. 90. Xu Jiaming, et al., Self-taught convolutional neural networks for short text clustering. Neural Networks, 2017. 88: p. 22-31. 91. Yamamoto Shuhei, et al., Twitter user tagging method based on burst time series. International Journal of Web Information Systems, 2016. 12(3): p. 292-311. 92. Yan Xifeng and Han Jiawei. gspan: Graph-based substructure pattern mining. in 2002 IEEE International Conference on Data Mining, 2002. Proceedings. 2002. IEEE. 93. Yang Bo, et al. Towards k-means-friendly spaces: Simultaneous deep learning and clustering. in international conference on machine learning. 2017. PMLR. 94. Yang Min, et al., Cross-domain aspect/sentiment-aware abstractive review summarization by combining topic modeling and deep reinforcement learning. Neural Computing and Applications, 2020. 32(11): p. 6421-6433. 95. Yang Zaihan, et al. Parametric and non-parametric user-aware sentiment topic models. in Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2015. 96. Yi Junkai, et al., A novel text clustering approach using deep-learning vocabulary network. Mathematical Problems in Engineering, 2017. 2017. 97. Yin Jianhua, et al. Model-based clustering of short text streams. in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018. 98. Yin Jianhua and Wang Jianyong. A model-based approach for text clustering with outlier detection. in 2016 IEEE 32nd International Conference on Data Engineering (ICDE). 2016. IEEE. 99. Yin Jianhua and Wang Jianyong. A text clustering algorithm using an online clustering scheme for initialization. in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016. 100. Yoo Shinjae, Huang Hao, and Kasiviswanathan Shiva Prasad. Streaming spectral clustering. in 2016 IEEE 32nd international conference on data engineering (ICDE). 2016. IEEE. 101. Yuan Chunyuan, et al. Learning review representations from user and product level information for spam detection. in 2019 IEEE International Conference on Data Mining (ICDM). 2019. IEEE. 102. Zhang Xin, Fast algorithms for burst detection. 2006, New York University, Graduate School of Arts and Science. 103. Zhang Yun, Hua Weina, and Yuan Shunbo, Mapping the scientific research on open data: A bibliometric review. Learned Publishing, 2018. 31(2): p. 95-106. 104. Zhou Deyu, et al., Unsupervised event exploration from social text streams. Intelligent Data Analysis, 2017. 21(4): p. 849-866. 105. Zhu Longxia, et al., A joint model of extended LDA and IBTM over streaming Chinese short texts. Intelligent Data Analysis, 2019. 23(3): p. 681-699. 106. Zubaroğlu Alaettin and Atalay Volkan, Data stream clustering: a review. Artificial Intelligence Review, 2020. 107. Zuo Yuan, et al. Topic modeling of short texts: A pseudo-document view. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016. 108. Zuo Yuan, Zhao Jichang, and Xu Ke, Word network topic model: a simple but general solution for short and imbalanced texts. Knowledge and Information Systems, 2016. 48(2): p. 379-398.
File đính kèm:
- luan_an_khai_pha_luong_van_ban_voi_ky_thuat_gom_cum.pdf