Luận án Khai phá luồng văn bản với kỹ thuật gom cụm

Gần đây, với xu thế dữ liệu gia tăng, tốc độ cao, kích thước lớn và luôn biến đổi

liên tục cần được xử lý theo thời gian thực, nhiều nghiên cứu liên quan đến luồng dữ

liệu đã ra đời. Khai phá luồng dữ liệu là hướng nghiên cứu thu hút được nhiều sự quan

tâm và Gom cụm là một kỹ thuật quan trọng.

Là một dạng thức của luồng dữ liệu, luồng văn bản là chuỗi các văn bản được sắp

xếp theo thứ tự đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: Tin tức

và truyền thông xã hội. Gom cụm luồng văn bản là một vấn đề quan trọng trong cộng

đồng nghiên cứu khai phá dữ liệu văn bản có nhiều ứng dụng như phân nhóm văn bản,

sắp xếp tài liệu, phát hiện và theo dõi chủ đề Gom cụm văn bản là một quá trình phân

vùng/nhóm một tập hợp các tài liệu chưa được gắn nhãn vào k chủ đề cụ thể phục vụ

nhiều mục đích như: Trong ứng dụng phát hiện sự kiện xã hội, giúp xác định xu hướng

đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các

mạng xã hội phổ biến gần đây; Trong truy xuất văn bản, giúp nhóm các kết quả tìm kiếm

có liên quan để giúp người dùng dễ dàng rút trích thông tin cần thiết. Trong kỷ nguyên

BigData, với sự gia tăng mạnh mẽ của các mạng xã hội trực tuyến, số lượng lớn nội

dung do người dùng tạo ra thường ở dạng tài liệu văn bản ngắn như: bình luận của người

dùng, tweet, bài đăng, trên Twitter hoặc Facebook, chứa đựng nhiều thông tin có

giá trị đại diện cho các sự kiện thực tế nóng bỏng. Văn bản ngắn là các đoạn bình luận,

trao đổi, nhận xét ngắn trên mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài

câu) so với các tài liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn. Hầu

hết các nghiên cứu về gom cụm văn bản truyền thống chủ yếu tập trung vào các văn bản

tĩnh dài nên không thể áp dụng cho các luồng văn bản có tính chất thay đổi nhanh chóng

hay các tài liệu văn bản ngắn. Việc gom cụm tài liệu văn bản ngắn khó khăn hơn do ba

đặc tính chính, bao gồm: Độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài);

Độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh các chủ đề hiện có trong

các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Do đó, không thể

áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các tập văn bản đến với

tốc độ cao, rời rạc và có độ dài ngắn này

140 trang dienloan 15200

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Khai phá luồng văn bản với kỹ thuật gom cụm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Khai phá luồng văn bản với kỹ thuật gom cụm

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
----------------
VÕ THỊ HỒNG THẮM
Đồng Nai, năm 2021
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
KHAI PHÁ LUỒNG VĂN BẢN
VỚI KỸ THUẬT GOM CỤM
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
----------------
VÕ THỊ HỒNG THẮM
KHAI PHÁ LUỒNG VĂN BẢN
VỚI KỸ THUẬT GOM CỤM
Đồng Nai, năm 2021
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Chuyên ngành: Khoa học máy tính
Mã số: 9480101
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. ĐỖ PHÚC
LỜI CẢM ƠN
Xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình hướng dẫn nghiên cứu sinh
hoàn thành luận án tiến sĩ.
Xin chân thành cảm ơn quý thầy/cô khoa sau đại học, trường đại học Lạc Hồng đã
tạo điện kiện thuận lợi và hỗ trợ nghiên cứu sinh hoàn thành luận án.
Xin trân trọng cảm ơn trường đại học Thủ Dầu Một đã hỗ trợ nghiên cứu sinh tham
gia học tập tại trường đại học Lạc Hồng.
Xin chân thành cám ơn quý bạn bè, đồng nghiệp đã tạo điều kiện giúp đỡ nghiên
cứu sinh hoàn thành luận án.
Nghiên cứu sinh - Võ Thị Hồng Thắm
LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi dưới sự hướng
dẫn của PGS.TS. Đỗ Phúc. Các số liệu và tài liệu trong nghiên cứu là trung thực và chưa
được công bố trong bất kỳ công trình nghiên cứu nào. Tất cả các tham khảo và kế thừa
đều được trích dẫn và tham chiếu đầy đủ.
Đồng Nai, ngày tháng 5 năm 2021
Nghiên cứu sinh
Võ Thị Hồng Thắm
MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU .......................................................................................... 1
1.1 Tổng quan về đề tài luận án ................................................................................... 1
1.1.1 Bài toán nghiên cứu và ý nghĩa ....................................................................... 1
1.1.2 Thách thức của bài toán gom cụm luồng văn bản ........................................... 4
1.1.3 Các vấn đề nghiên cứu .................................................................................... 8
1.1.4 Các bài toán nghiên cứu .................................................................................. 8
1.2 Đóng góp của luận án và các công trình đã được công bố .................................. 10
1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu ................................................... 11
1.3.1 Mục tiêu nghiên cứu ...................................................................................... 11
1.3.2 Phạm vi nghiên cứu ....................................................................................... 12
1.3.3 Phương pháp nghiên cứu ............................................................................... 12
1.4 Cấu trúc của luận án ............................................................................................. 13
1.5 Kết chương ........................................................................................................... 13
CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN .................................................... 14
2.1 So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản .......... 14
2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống ...................... 14
2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động ................................ 15
2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ ......................... 16
2.1.4 Mô hình hóa chủ đề (Topic modeling).......................................................... 16
2.1.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet (DPMM) .............................. 23
2.1.6 Đồ thị con phổ biến ....................................................................................... 32
2.1.7 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg ........................... 35
2.2 Kết chương ........................................................................................................... 40
CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN
ĐỒ THỊ TỪ .................................................................................................................. 41
3.1 Phương pháp ......................................................................................................... 41
3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW) ..................... 41
3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW) ..................................................... 43
3.1.3 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp..................................... 49
3.2 Thực nghiệm và bàn luận ..................................................................................... 62
3.3 Kết chương ........................................................................................................... 74
CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN ....... 75
4.1 Phương pháp ......................................................................................................... 75
4.2 Thực nghiệm và bàn luận ..................................................................................... 88
4.3 Kết chương ......................................................................................................... 103
CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN .......................................... 104
5.1 Các kết quả đạt được, hạn chế và hướng phát triển ........................................... 104
5.2 Ý nghĩa học thuật và thực tiễn của luận án ........................................................ 106
BẢNG THUẬT NGỮ ANH – VIỆT
Tiếng Anh Viết tắt Tiếng Việt
Allocation Dirichlet Latent LDA Phân bổ tiềm ẩn Direntlet
Bag of Word BOW Túi từ
Benchmark Đối sánh
Cluster validation Xác nhận cụm
Common sub GOWs Đồ thị con phổ biến
Concept/topic drift Dòng trôi khái niệm/chủ đề
Corpus Kho ngữ liệu
Density-based Dựa trên mật độ
Dirichlet Process DP Quy trình Dirichlet
Dirichlet-Hawkes Topic Model DHTM Mô hình chủ đề Dirichlet-Hawkes
Document batch Lô tài liệu
Dynamic Clustering Topic DCT Mô hình chủ đề gom cụm động
Dynamic Topic Model DTM Mô hình chủ đề động
Features of meaning Đặc trưng ngữ nghĩa
Filtering Lọc
Frequent sub-graph FSG Đồ thị con phổ biến
Graph of Word GOW Đồ thị từ
Microblogs Bài viết ngắn dạng blog
Model’s hyper-parameter
sensitivity
Độ nhạy của siêu tham số của mô hình
(viết ngắn là độ nhạy)
Mstream MStream Thuật toán gom cụm luồng dữ liệu dựa
trên mô hình hỗn hợp DP
Noise Yếu tố nhiễu
Outlier Ngoại lệ
Politeness Độ sâu
Preprocess Tiền xử lý
Proximity measure Đo lường lân cận
Sequence Monte Carlo SMC Tuần tự Monte Carlo
Sparse nature Tính rời rạc tự nhiên
Sparsity of text Sự rời rạc của văn bản
Stemming and Lemmatization Trả từ về nguyên mẫu
Stop word Từ dừng
Streaming LDA ST-LDA Streaming LDA
Survey Khảo sát
Tiếng Anh Viết tắt Tiếng Việt
Temporal Dynamic Process Model TDPM Mô hình hỗn hợp quy trình Dirichlet
theo thời gian
Temporal model-LDA TM-LDA Mô hình LDA theo thời gian
Temporal Text Mining TTM Khai phá văn bản theo thời gian
Term Frequency TF Tần số từ
Term Frequency-Invert Document
Frequency
TF-IDF Tần số từ -Tần số tài liệu nghịch đảo
Text corpus Tập văn bản
Text similarity Sự tương tự văn bản
Text to Graph Text2graph Đồ thị hóa văn bản
Trendy Keyword Extraction System TKES Hệ thống rút trích từ khóa tiêu biểu
Tokenization Tách từ
Topic tracking model TTM mô hình theo dõi chủ đề
Vector Space model VSM Mô hình không gian vectơ
Visualize Hiển thị trực quan
Word relatedness Sự liên quan từ
Word segmentation Tách từ
Word similarity Sự tương tự từ
Word vector Véc tơ từ
DANH MỤC BẢNG
Bảng 1.1: Phân tích các điểm mạnh và tồn tại của các mô hình ..................................... 7
Bảng 3.1: Biểu diễn văn bản với BOW truyền thống .................................................... 42
Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF ....................................................... 42
Bảng 3.3: Biểu diễn văn bản với GOW ......................................................................... 48
Bảng 3.4: Biểu diễn văn bản kết hợp BOW và GOW ................................................... 49
Bảng 3.5: Biểu diễn véc tơ chủ đề trong mô hình GOW-Stream .................................. 62
Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm ................................................................. 64
Bảng 3.7: Chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản .................... 66
Bảng 3.8: Kết quả đầu ra trung bình của tác vụ gom cụm văn bản với các mô hình khác
nhau với độ đo NMI ...................................................................................................... 67
Bảng 3.9: Kết quả đầu ra thử nghiệm của tác vụ gom cụm văn bản với các mô hình khác
nhau với độ đo F1 .......................................................................................................... 67
Bảng 4.1: Các thuộc tính của nút và mối quan hệ ......................................................... 80
Bảng 4.2: Một ví dụ về tính toán chỉ số xếp hạng của từ .............................................. 82
Bảng 4.3: Một ví dụ về tính tổng trọng số của từ khóa trong chuyên mục ................... 83
Bảng 4.4: Thí dụ về cấu trúc lưu trữ Burst .................................................................... 87
Bảng 4.5: Các Burst của từ khóa “Facebook” ............................................................... 89
Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook” ...................... 90
Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin ............................. 91
Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị .. 91
Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý ............................................................ 91
Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau ........... 92
Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn
ngữ lập trình khác nhau ................................................................................................. 93
Bảng 4.12: Tần số của từ khóa ...................................................................................... 94
Bảng 4.13: Một số tham số với word2Vec .................................................................... 95
Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng” .................................................. 96
Bảng 4.15: So sánh mức độ tương đồng khi sử dụng các thước đo khoảng cách tương
đồng khác nhau .............................................................................................................. 96
Bảng 4.16: Thời gian huấn luyện các mô hình .............................................................. 97
Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan ....................................................... 98
Bảng 4.18: Kiểm tra thời gian xử lý phát hiện Burst của các bài báo trong 19 ngày . 100
DANH MỤC HÌNH
Hình 1.1: Mối liên hệ giữa các bài toán và các công trình đã công bố đối với từng bài
toán ................................................................................................................................ 11
Hình 2.1: Mô hình sinh LDA ........................................................................................ 18
Hình 2.2: Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet .................. 26
Hình 2.3: Mô hình sinh của mô hình hỗn hợp hữu hạn ................................................. 27
Hình 2.4: Tỉ lệ của các sự kiện mục tiêu ....................................................................... 39
Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vô
hướng ............................................................................................................................. 43
Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu 𝐷 ............................................................. 47
Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu 𝐷 .......................................... 48
Hình 3.4: Mô hình sinh của mô hình GOW-Stream ...................................................... 52
Hình 3.5: Mô hình sinh của MStream & GOW-Stream ................................................ 53
Hình 3.6: Lưu đồ thuật toán GOW-Stream ................................................................... 59
Hình 3.7: Kết quả thử nghiệm đối với số lượng lô tài liệu khác nhau với độ đo NMI . 68
Hình 3.8: Kết quả thử nghiệm trên số lượng lô tài liệu khác nhau với độ đo F1 .......... 68
Hình 3.9: So sánh với k-means sử dụng độ đo NMI ..................................................... 69
Hình 3.10: So sánh với k-means sử dụng độ đo F1 ....................................................... 69
Hình 3.11: Khả năng nâng cao hiệu suất của các kỹ thuật gom cụm luồng văn bản khác
nhau ............................................................................................................................... 70
Hình 3.12: Tốc độ xử lý của GOW-Stream so với MStream khi tính luôn chi phí tìm đồ
thị con phổ biến ............................................................................................................. 71
Hình 3.13: Đánh giá ảnh hưởng của số lần lặp đến tính chính xác của kết quả của mô
hình GOW-Stream ......................................................................................................... 72
Hình 3.14: Kết quả thực nghiệm về ảnh hưởng của siêu tham số α .............................. 73
Hình 3.15: Kết quả thực nghiệm về ảnh hưởng của siêu tham số β .............................. 73
Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế ....................................... 76
Hình 4.2: Kiến trúc hệ thống TKES .............................................................................. 77
Hình 4.3: Trình tự xử lý của hệ thống TKES ................................................................ 78
Hình 4.4: Luồng văn bản đến liên tục theo thời gian .................................................... 79
Hình 4.5: Cấu trúc lưu trữ dạng cây .............................................................................. 79
Hình 4.6: Cấu trúc lưu trữ chung và ví dụ ..................................................................... 80
Hình 4.7: Ví dụ về các bước xử lý rút trích từ khóa ...................................................... 81
Hình 4.8: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật ............................................... 86
Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook” .......................................... 89
Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian chạy
của bộ xử lý ........................................................................................................... ... et al. Dirichlet-hawkes processes with applications to clustering
continuous-time document streams. in Proceedings of the 21th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining. 2015.
24. Duan Tiehang, et al. Sequential embedding induced text clustering, a non-
parametric bayesian approach. in Pacific-Asia Conference on Knowledge
Discovery and Data Mining. 2019. Springer.
25. Erkan Günes and Radev Dragomir R, Lexrank: Graph-based lexical centrality as
salience in text summarization. Journal of Artificial Intelligence Research, 2004.
22: p. 457-479.
26. Ferguson Thomas S, A Bayesian analysis of some nonparametric problems. The
annals of statistics, 1973: p. 209-230.
27. Finegan-Dollak Catherine, et al. Effects of creativity and cluster tightness on
short text clustering performance. in Proceedings of the 54th Annual Meeting of
the Association for Computational Linguistics (Volume 1: Long Papers). 2016.
28. Fisher David, et al., Evaluating ranking diversity and summarization in
microblogs using hashtags. University of Massachusetts, Boston, MA, Technical
Report, 2015.
29. Fung Gabriel Pui Cheong, et al. Parameter free bursty events detection in text
streams. in Proceedings of the 31st international conference on Very large data
bases. 2005. VLDB Endowment.
30. Guo Xifeng, et al. Improved deep embedded clustering with local structure
preservation. in IJCAI. 2017.
31. Guo Xifeng, et al. Deep clustering with convolutional autoencoders. in
International conference on neural information processing. 2017. Springer.
32. Heydari Atefeh, et al., Detection of review spam: A survey. Expert Systems with
Applications, 2015. 42(7): p. 3634-3642.
33. Hosseinimotlagh Seyedmehdi and Papalexakis Evangelos E. Unsupervised
content-based identification of fake news articles with tensor decomposition
ensembles. in Proceedings of the Workshop on Misinformation and Misbehavior
Mining on the Web (MIS2). 2018.
34. Hu Jun and Zheng Wendong. Transformation-gated LSTM: Efficient capture of
short-term mutation dependencies for multivariate time series prediction tasks.
in 2019 International Joint Conference on Neural Networks (IJCNN). 2019.
IEEE.
35. Hu Xia and Liu Huan, Text analytics in social media. Mining text data, 2012: p.
385-414.
36. Hu Xuegang, Wang Haiyan, and Li Peipei, Online Biterm Topic Model based
short text stream classification using short text expansion and concept drifting
detection. Pattern Recognition Letters, 2018. 116: p. 187-194.
37. Jiang Zhuxi, et al., Variational deep embedding: An unsupervised and generative
approach to clustering. arXiv preprint arXiv:1611.05148, 2016.
38. Jindal Vasu. A personalized Markov clustering and deep learning approach for
Arabic text categorization. in Proceedings of the ACL 2016 Student Research
Workshop. 2016.
39. Kalogeratos Argyris, Zagorisios Panagiotis, and Likas Aristidis. Improving text
stream clustering using term burstiness and co-burstiness. in Proceedings of the
9th Hellenic Conference on Artificial Intelligence. 2016.
40. Kampffmeyer Michael, et al., Deep divergence-based approach to clustering.
Neural Networks, 2019. 113: p. 91-101.
41. Kim Jaeyoung, et al., Patent document clustering with deep embeddings.
Scientometrics, 2020: p. 1-15.
42. Kleinberg Jon, Bursty and hierarchical structure in streams. Data Mining and
Knowledge Discovery, 2003. 7(4): p. 373-397.
43. Lahiri Shibamouli, Mihalcea Rada, and Lai P-H, Keyword extraction from
emails. Natural Language Engineering, 2017. 23(2): p. 295-317.
44. Le Hong Phuong Nguyen Thi Minh, Huyen Azim Roussanaly, and Vinh Hô
Tuong, A hybrid approach to word segmentation of Vietnamese texts. Language
and Automata Theory and Applications, 2008: p. 240.
45. Li Chenliang, et al., Enhancing topic modeling for short texts with auxiliary word
embeddings. ACM Transactions on Information Systems (TOIS), 2017. 36(2): p.
1-30.
46. Li Chenliang, et al. Topic modeling for short texts with auxiliary word
embeddings. in Proceedings of the 39th International ACM SIGIR conference on
Research and Development in Information Retrieval. 2016.
47. Li Hua, Text Clustering, in Encyclopedia of Database Systems, L. Liu and M.T.
ÖZsu, Editors. 2009, Springer US: Boston, MA. p. 3044-3046.
48. Li Shan-Qing, Du Sheng-Mei, and Xing Xiao-Zhao. A keyword extraction
method for chinese scientific abstracts. in Proceedings of the 2017 International
Conference on Wireless Communications, Networking and Applications. 2017.
49. Liang Shangsong and de Rijke Maarten, Burst-aware data fusion for microblog
search. Information Processing & Management, 2015. 51(2): p. 89-113.
50. Liang Shangsong, Yilmaz Emine, and Kanoulas Evangelos. Dynamic clustering
of streaming short documents. in Proceedings of the 22nd ACM SIGKDD
international conference on knowledge discovery and data mining. 2016.
51. Lynn Htet Myet, et al., Swiftrank: an unsupervised statistical approach of
keyword and salient sentence extraction for individual documents. Procedia
computer science, 2017. 113: p. 472-477.
52. Mai Khai, et al. Enabling hierarchical Dirichlet processes to work better for
short texts at large scale. in Pacific-Asia Conference on Knowledge Discovery
and Data Mining. 2016. Springer.
53. Margara Alessandro and Rabl Tilmann, Definition of Data Streams, in
Encyclopedia of Big Data Technologies, S. Sakr and A.Y. Zomaya, Editors.
2019, Springer International Publishing: Cham. p. 648-652.
54. Martínez-Fernández José Luis, et al. Automatic keyword extraction for news
finder. in International Workshop on Adaptive Multimedia Retrieval. 2003.
Springer.
55. Musselman Andrew, Apache Mahout, in Encyclopedia of Big Data Technologies,
S. Sakr and A.Y. Zomaya, Editors. 2019, Springer International Publishing:
Cham. p. 66-70.
56. Neal Radford M, Markov chain sampling methods for Dirichlet process mixture
models. Journal of computational and graphical statistics, 2000. 9(2): p. 249-265.
57. Neill Daniel B and Moore Andrew W. Anomalous spatial cluster detection. in
Proceedings of the KDD 2005 Workshop on Data Mining Methods for Anomaly
Detection. 2005.
58. Neill Daniel B, et al. Detecting significant multidimensional spatial clusters. in
Advances in Neural Information Processing Systems. 2005.
59. Nguyen Hai-Long, Woon Yew-Kwong, and Ng Wee-Keong, A survey on data
stream clustering and classification. Knowledge and information systems, 2015.
45(3): p. 535-569.
60. Nguyen Tri and Do Phuc. Topic discovery using frequent subgraph mining
approach. in International Conference on Computational Science and
Technology. 2017. Springer.
61. Park Jinuk, et al., ADC: Advanced document clustering using contextualized
representations. Expert Systems with Applications, 2019. 137: p. 157-166.
62. Peters Matthew E, et al., Deep contextualized word representations. arXiv
preprint arXiv:1802.05365, 2018.
63. Pham Phu, Do Phuc, and Ta Chien DC. GOW-LDA: Applying Term Co-
occurrence Graph Representation in LDA Topic Models Improvement. in
International Conference on Computational Science and Technology. 2017.
Springer.
64. Pitman Jim, Combinatorial Stochastic Processes: Ecole d'Eté de Probabilités de
Saint-Flour XXXII-2002. 2006: Springer.
65. Qiang Jipeng, et al. Topic modeling over short texts by incorporating word
embeddings. in Pacific-Asia Conference on Knowledge Discovery and Data
Mining. 2017. Springer.
66. Qiang Jipeng, et al., Short text clustering based on Pitman-Yor process mixture
model. Applied Intelligence, 2018. 48(7): p. 1802-1812.
67. Quan Xiaojun, et al. Short and sparse text topic modeling via self-aggregation.
in Twenty-fourth international joint conference on artificial intelligence. 2015.
68. Quan Xiaojun, et al., Latent discriminative models for social emotion detection
with emotional dependency. ACM Transactions on Information Systems (TOIS),
2015. 34(1): p. 1-19.
69. Romsaiyud Walisa. Detecting emergency events and geo-location awareness
from twitter streams. in The International Conference on E-Technologies and
Business on the Web (EBW2013). 2013. The Society of Digital Information and
Wireless Communication.
70. Saul Lawrence K, Weiss Yair, and Bottou Léon, Advances in neural information
processing systems 17: Proceedings of the 2004 conference. Vol. 17. 2005: MIT
press.
71. Shah Setu and Luo Xiao. Comparison of deep learning based concept
representations for biomedical document clustering. in 2018 IEEE EMBS
international conference on biomedical & health informatics (BHI). 2018. IEEE.
72. Shaham Uri, et al., Spectralnet: Spectral clustering using deep neural networks.
arXiv preprint arXiv:1801.01587, 2018.
73. Shi Tian, et al. Short-text topic modeling via non-negative matrix factorization
enriched with local word-context correlations. in Proceedings of the 2018 World
Wide Web Conference. 2018.
74. Shou Lidan, et al. Sumblr: continuous summarization of evolving tweet streams.
in Proceedings of the 36th international ACM SIGIR conference on Research
and development in information retrieval. 2013.
75. Teh Yee Whye, Dirichlet Process. 2010: p. 280-287.
76. Teh Yee Whye, Dirichlet Process. 2010.
77. Tian Kai, Zhou Shuigeng, and Guan Jihong. Deepcluster: A general clustering
framework based on deep learning. in Joint European Conference on Machine
Learning and Knowledge Discovery in Databases. 2017. Springer.
78. Vlachos Michail, et al. Identifying similarities, periodicities and bursts for online
search queries. in Proceedings of the 2004 ACM SIGMOD international
conference on Management of data. 2004. ACM.
79. Wan Haowen, et al., Research on Chinese Short Text Clustering Ensemble via
Convolutional Neural Networks, in Artificial Intelligence in China. 2020,
Springer. p. 622-628.
80. Wang Binyu, et al., Text clustering algorithm based on deep representation
learning. The Journal of Engineering, 2018. 2018(16): p. 1407-1414.
81. Wang Mengzhi, et al. Data mining meets performance evaluation: Fast
algorithms for modeling bursty traffic. in Proceedings 18th International
Conference on Data Engineering. 2002. IEEE.
82. Wang Wu, et al. Learning latent topics from the word co-occurrence network. in
National Conference of Theoretical Computer Science. 2017. Springer.
83. Wang Xuerui and McCallum Andrew. Topics over time: a non-Markov
continuous-time model of topical trends. in Proceedings of the 12th ACM
SIGKDD international conference on Knowledge discovery and data mining.
2006.
84. Wang Yinglin, Wang Ming, and Fujita Hamido, Word sense disambiguation: A
comprehensive knowledge exploitation framework. Knowledge-Based Systems,
2020. 190: p. 105030.
85. Wang Yu, Agichtein Eugene, and Benzi Michele. TM-LDA: efficient online
modeling of latent topic transitions in social media. in Proceedings of the 18th
ACM SIGKDD international conference on Knowledge discovery and data
mining. 2012.
86. Wang Zhiguo, Mi Haitao, and Ittycheriah Abraham, Semi-supervised clustering
for short text via deep representation learning. arXiv preprint arXiv:1602.06797,
2016.
87. Weng Jianshu and Lee Bu-Sung, Event detection in twitter. ICWSM, 2011. 11:
p. 401-408.
88. Xie Junyuan, Girshick Ross, and Farhadi Ali. Unsupervised deep embedding for
clustering analysis. in International conference on machine learning. 2016.
89. Xu Dongkuan, et al. Deep co-clustering. in Proceedings of the 2019 SIAM
International Conference on Data Mining. 2019. SIAM.
90. Xu Jiaming, et al., Self-taught convolutional neural networks for short text
clustering. Neural Networks, 2017. 88: p. 22-31.
91. Yamamoto Shuhei, et al., Twitter user tagging method based on burst time series.
International Journal of Web Information Systems, 2016. 12(3): p. 292-311.
92. Yan Xifeng and Han Jiawei. gspan: Graph-based substructure pattern mining.
in 2002 IEEE International Conference on Data Mining, 2002. Proceedings.
2002. IEEE.
93. Yang Bo, et al. Towards k-means-friendly spaces: Simultaneous deep learning
and clustering. in international conference on machine learning. 2017. PMLR.
94. Yang Min, et al., Cross-domain aspect/sentiment-aware abstractive review
summarization by combining topic modeling and deep reinforcement learning.
Neural Computing and Applications, 2020. 32(11): p. 6421-6433.
95. Yang Zaihan, et al. Parametric and non-parametric user-aware sentiment topic
models. in Proceedings of the 38th International ACM SIGIR Conference on
Research and Development in Information Retrieval. 2015.
96. Yi Junkai, et al., A novel text clustering approach using deep-learning
vocabulary network. Mathematical Problems in Engineering, 2017. 2017.
97. Yin Jianhua, et al. Model-based clustering of short text streams. in Proceedings
of the 24th ACM SIGKDD International Conference on Knowledge Discovery &
Data Mining. 2018.
98. Yin Jianhua and Wang Jianyong. A model-based approach for text clustering
with outlier detection. in 2016 IEEE 32nd International Conference on Data
Engineering (ICDE). 2016. IEEE.
99. Yin Jianhua and Wang Jianyong. A text clustering algorithm using an online
clustering scheme for initialization. in Proceedings of the 22nd ACM SIGKDD
international conference on Knowledge discovery and data mining. 2016.
100. Yoo Shinjae, Huang Hao, and Kasiviswanathan Shiva Prasad. Streaming spectral
clustering. in 2016 IEEE 32nd international conference on data engineering
(ICDE). 2016. IEEE.
101. Yuan Chunyuan, et al. Learning review representations from user and product
level information for spam detection. in 2019 IEEE International Conference on
Data Mining (ICDM). 2019. IEEE.
102. Zhang Xin, Fast algorithms for burst detection. 2006, New York University,
Graduate School of Arts and Science.
103. Zhang Yun, Hua Weina, and Yuan Shunbo, Mapping the scientific research on
open data: A bibliometric review. Learned Publishing, 2018. 31(2): p. 95-106.
104. Zhou Deyu, et al., Unsupervised event exploration from social text streams.
Intelligent Data Analysis, 2017. 21(4): p. 849-866.
105. Zhu Longxia, et al., A joint model of extended LDA and IBTM over streaming
Chinese short texts. Intelligent Data Analysis, 2019. 23(3): p. 681-699.
106. Zubaroğlu Alaettin and Atalay Volkan, Data stream clustering: a review.
Artificial Intelligence Review, 2020.
107. Zuo Yuan, et al. Topic modeling of short texts: A pseudo-document view. in
Proceedings of the 22nd ACM SIGKDD international conference on knowledge
discovery and data mining. 2016.
108. Zuo Yuan, Zhao Jichang, and Xu Ke, Word network topic model: a simple but
general solution for short and imbalanced texts. Knowledge and Information
Systems, 2016. 48(2): p. 379-398.

File đính kèm:

luan_an_khai_pha_luong_van_ban_voi_ky_thuat_gom_cum.pdf