Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng việt dựa trên thuật toán phân cụm DBSCAN cải tiến

Tóm tắt: Hiện nay, với sự phát triển mạnh mẽ của công nghệ thông tin, số lượng

thông tin được chuyển tải trên các trang thông tin điện tử (báo điện tử, mạng xã

hội, blog.) càng lớn. Việc theo dõi thông tin nhằm phát hiện ra các vấn đề mới,

nóng (chủ đề nóng) được dư luận quan tâm, theo dõi chiều hướng phát triển của

chúng để dự báo các nguy cơ được xem là rất quan trọng đối với nhiều lĩnh vực,

đặc biệt đối với lĩnh vực an ninh quốc phòng. Bài báo này đề xuất mô hình tự động

phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt trong một khoảng

thời gian dựa trên thuật toán phân cụm DBSCAN cải tiến và cách xác định “độ

nóng” của các chủ đề được phân cụm.

Từ khoá: Chủ đề nóng tiếng Việt; Thuật toán phân cụmDBSCAN cải tiến; “Độ nóng”chủ đề.

pdf 10 trang Bích Ngọc 04/01/2024 5380
Bạn đang xem tài liệu "Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng việt dựa trên thuật toán phân cụm DBSCAN cải tiến", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng việt dựa trên thuật toán phân cụm DBSCAN cải tiến

Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng việt dựa trên thuật toán phân cụm DBSCAN cải tiến
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 125
MÔ HÌNH TỰ ĐỘNG PHÁT HIỆN CHỦ ĐỀ NÓNG TRÊN CÁC 
TRANG THÔNG TIN ĐIỆN TỬ TIẾNG VIỆT DỰA TRÊN THUẬT 
TOÁN PHÂN CỤM DBSCAN CẢI TIẾN 
Nguyễn Nhật An*, Cao Đăng Huy 
Tóm tắt: Hiện nay, với sự phát triển mạnh mẽ của công nghệ thông tin, số lượng 
thông tin được chuyển tải trên các trang thông tin điện tử (báo điện tử, mạng xã 
hội, blog...) càng lớn. Việc theo dõi thông tin nhằm phát hiện ra các vấn đề mới, 
nóng (chủ đề nóng) được dư luận quan tâm, theo dõi chiều hướng phát triển của 
chúng để dự báo các nguy cơ được xem là rất quan trọng đối với nhiều lĩnh vực, 
đặc biệt đối với lĩnh vực an ninh quốc phòng. Bài báo này đề xuất mô hình tự động 
phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt trong một khoảng 
thời gian dựa trên thuật toán phân cụm DBSCAN cải tiến và cách xác định “độ 
nóng” của các chủ đề được phân cụm. 
Từ khoá: Chủ đề nóng tiếng Việt; Thuật toán phân cụmDBSCAN cải tiến; “Độ nóng”chủ đề. 
1. ĐẶT VẤN ĐỀ 
1.1. Giới thiệu 
Với sự phát triển nhanh chóng của công nghệ thông tin, thông tin các sự kiện 
xảy ra được đăng tải trên các trang thông tin điện tử trên Internet đã trở thành một 
trong những nguồn thông tin quan trọng. Theo báo cáo thống kê của Bộ Thông tin 
và Truyền thông, tính đến năm 2016, Việt Nam có số lượng người sử dụng Internet 
lớn, đạt tỷ lệ khoảnglà 62,76% dân số [1]. Số báo điện tử là 135, chủ yếu là báo 
điện tử của các cơ quan báo chí in; Số trang thông tin điện tử của các cơ quan báo 
chí được cấp phép là 258 [2], ngoài ra, còn hàng trăm trang tin không chính thống 
cũng tham gia tổng hợp, truyền tải thông tin trên mạng. Khi có một sự kiện xảy ra, 
lập tức các phóng viên viết bài và đăng trên trang thông tin điện tử của mình với 
các quan điểm khác nhau, số lượng thông tin tăng lên nhanh chóng. Do vậy, việc 
phát hiện, phân cụm chủ đề, theo dõi chủ đề nóng một cách tự động trở nên cần 
thiết, là giải pháp để xử lý vấn đề quá tải thông tin. Vấn đề này đã được nhiều nhà 
khoa học quan tâm và được gọi chung là bài toán “Phát hiện và theo dõi chủ đề” 
(Topic Detection and Tracking) [6]. 
1.2. Các nghiên cứu liên quan 
Bài toán Phát hiện và theo dõi chủ đề (Topic Detection and Tracking) được giới 
thiệu lần đầu tiên vào năm 1996, sau đó bài toán này được đông đảo các nhà khoa 
học trên thế giới quan tâm và nghiên cứu. Một số nghiên cứu giải quyết bài toán 
này dựa trên các đặc trưng của văn bản và thuật toán phân cụm [14, 8, 17, 24]; một 
số lại tập trung vào các mô hình ngôn ngữ và xác xuất [16, 20, 21, 23, 18, 19]. Có 
thể kể một số nghiên cứu gần đây: Khoo đề xuất sử dụng đặc trưng TF-IDF (Term 
Frequency * Proportional Document Frequency) để tạo vector văn bản tìm ra chủ 
đề quan trọng[7]; Chel dựa trên ý tưởng của Khoo để đề xuất một phương pháp 
mới phát hiện chủ đề nóng dựa trên phân tích thời gian và mô hình câu đa chiều 
[8]; Ruiguo Yu đề xuất phương pháp phát hiện chủ đề nóng dựa trên phân đoạn 
Công nghệ thông tin 
N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng  DBSCAN cải tiến.” 126 
thời gian và lý thuyết lão hoá [14]; PGS.TS Đỗ Phúc đề xuất mô hình phát hiện 
chủ đề nóng trên mạng xã hội dựa trên lý thuyết lão hoá [13]... 
Tuy nhiên, các công trình trên chủ yếu thực hiện việc phát hiện và theo dõi 
chủ đề tiếng Anh mà chưa có các công trình nghiên cứu cho tiếng Việt. Do vậy, 
chúng tôi tập trung nghiên cứu, đề xuất mô hình phát hiện chủ đề nóng trên các 
trang thông tin điện tử tiếng Việt và xem xét tính hiệu quả của phương pháp đề 
xuất dựa vào lựa chọn thuật toán phân cụm phù hợp và cách xác định thế nào là 
“chủ đề nóng”. 
Nghiên cứu của chúng tôi giải quyết hai vấn đề chính: Một là, đề xuất sử dụng 
thuật toán phân cụm DBSCAN cải tiến để tự động phân cụm các chủ đề tiếng Việt; 
hai là, dựa trên số lượng bài viết, số lượng trang thông tin điện tử đăng tải, trọng số 
trang thông tin điện tử để đánh giá “độ nóng” của các chủ đề được phân cụm. Sau 
đó, chúng tôi tiến hành thử nghiệm trên tập dữ liệu thu thập và đánh giá chúng. 
Bài báo được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu; 
Phần 3 trình bày các kết quả thử nghiệm và đánh giá; cuối cùng kết luận được 
trình bày trong Phần 4. 
2. NỘI DUNG CẦN GIẢI QUYẾT 
2.1. Mô hình đề xuất 
Hình 1. Mô hình phát hiện chủ đề nóng. 
Mô hình phát hiện chủ đề nóng bao gồm hai bước: 
Bước 1: Phát hiện chủ đề dựa trên thuật toán phân cụm văn bản 
Bước 2: Phát hiện chủ đề nóng bằng cách tính “độ nóng” cho các chủ đề đã 
được xác định ở bước 1 dựa vào các đặc trưng: số văn bản trong chủ đề; thời gian 
xuất hiện;“độ chính thống” của các trang thông tin điện tử (trang thông tin điện tử 
được cấp phép hay trang tin tổng hợp không được cấp phép)... 
2.2. Phát hiện chủ đề 
Trang 
thông tin 
điện tử 1 
Trang 
thông tin 
điện tử 2 
Trang 
thông tin 
điện tử n 
Phân 
cụm 
văn 
bản 
Chủ đề 1 
Chủ đề 2 
Chủ đề m 
Tính “độ 
nóng”, sắp 
xếp chủ đề 
theo “độ 
nóng” 
Chủ đề 
nóng 1 
Chủ đề 
nóng 2 
Chủ đề 
nóng m 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 127
Mục tiêu của phát hiện chủ đề là xác định những vấn đề liên quan đến nhau 
được trình bày trong các bài viết. Đó chính là bài toán phân cụm văn bản, mục đích 
của bải toán này là tự động nhóm các bài viết về cùng một vấn đề vào một cụm 
nhất định. Trong nghiên cứu này, chúng tôi lựa chọn thuật toán DBSCAN cải tiến 
để phân cụm văn bản, thuật toán này dựa trên thuật toán DBSCAN gốc và cải tiến 
cách tự động tính giá trị của các tham số eps, MinPts dựa trên các thuộc tính thống 
kê của bộ dữ liệu đầu vào. 
Vector hóa văn bản 
Để sử dụng được thuật toán DBSCAN cải tiến để phân loại văn bản, ta cần mô 
hình hóa văn bản thành vector. Cụ thể, ta sẽ sử dụng mô hình Bags of words (word 
count document representation). Mô hình này biểu diễn văn bản như những điểm 
trong không gian Euclid m-chiều, mỗi chiều tương ứng với một từ trong tập hợp m 
từ khác nhau của tập văn bản. Giá trị của các thành phần trong vector này được 
tính bằng tính bằng công thức TF*IDF. Đây là công thức giúp đánh giá mức độ 
quan trọng của một từ đối với văn bản trong một tập văn bản. Trong đó: 
o TF (term frequency) là tần số xuất hiện của một từ trong một văn bản. 
o IDF (inverse document frequency) là tần số nghịch của 1 từ trong tập văn bản. 
Để giảm chiều của vector, trong bước xây dựng vector cho văn bản tiếng Việt 
các hư từ sẽ bị loại bỏ chỉ còn lại các thực từ [3]. Mặt khác, các thực từ có tần số 
TF*IDF dưới 1 ngưỡng quy định sẽ bị lọc bỏ. Việc lọc này nhằm lựa ra những 
thực từ đủ tính chất đặc trưng cho văn bản, loại bỏ những thực từ quá hiếm xuất 
hiện hoặc xuất hiện quá phổ biến trong tập văn bản. 
Khoảng cách giữa hai văn bản chính là độ tương tự giữa hai văn bản được tính 
bằng độ đo Cosine similary. Độ đo Cosinesimilary của 2 văn bản A và B được xác 
định như công thức sau: 
(, ) =
. 
‖‖‖‖
=
∑  × 


∑ 

 × ∑ 


(1)
trong đó: 
 = {
,  , 
} là vector của văn bản A với 
 là trọng số TF*IDF của từ 
thứ i của văn bản A; 
 = {
,  , 
 } là vector của văn bản B với 
 là trọng số TF*IDF của từ 
thứ i của văn bản B. 
Thuật toán DBSCAN 
Thuật toán DBSCAN gốc dùng phân cụm văn bản được trình bày như sau [4]: 
Cần có 2 tham số quan trọng trong DBSCAN là epsilon (eps) và số điểm tối 
thiểu (MinPts). Thông số eps định nghĩa bán kính khu vực lân cận xung quanh một 
văn bản (chính là một điểm trong không gian n chiều). Tham số MinPts là số lượng 
văn bản lân cận tối thiểu trong bán kính eps. Ứng với eps và MinPts cho trước, 
DBSCAN xác định một cụm thông qua 2 bước: 
1) Chọn văn bản bất kỳ thoả mãn điều kiện văn bản lõi làm văn bản hạt giống; 
2) Tìm các văn bảnđến được theo mật độ từ văn bản hạt giống. 
Công nghệ thông tin 
N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng  DBSCAN cải tiến.” 128 
Qua thuật toán này, ta có thể thấy để thuật toán hoạt động hiệu quả phụ thuộc 
vào 2 yếu tố chính đó là tham số eps và MinPts. Trong trường hợp lý tưởng thì ứng 
với mỗi cụm cần phải xác định được thông số eps và MinPts ít nhất một văn bản 
thuộc cụm. Sau đó, tìm tất cả các văn bản cho từng cụm. Tuy nhiên, không dễ gì để 
xác định được các thông tin trên nhanh chóng và chính xác nên DBSCAN sử dụng 
thông số eps, MinPts của cụm có mật độ ít dày đặc nhất làm thông số chung cho tất 
cả các cụm. 
Đối với một eps xác định, số văn bản lõi sẽ giảm đáng kể khi giá trị của MinPts 
lớn. Trong trường hợp này, một vài văn bản của một số cụm có có thể bị loại bỏ. 
Ngược lại, một số văn bản sẽ bị đánh giá nhầm thành văn bản lõi nếu giá trị 
MinPts quá nhỏ. Mặt khác, đối với giá trị MinPts xác định, một số văn bản có thể 
trở thành nhiễu hoặc một cụm có thể bị chia thành vài cụm nhỏ hơn nếu giá trị eps 
quá nhỏ. Một số nhiễu có thể được phân vào một cụm không chính xác hoặc một 
số cụm rời rạc có thể bị gom lại thành một cụm một cách không chính xác khi giá 
trị eps quá lớn. Dựa trên phân tích này, một thuật toán được trình bày để ước tính 
hai tham số eps và MinPts một cách tối ưu[5]. 
Ý tưởng của thuật toán DBSCAN cải tiến là tự động tính giá trị của các tham số 
eps, MinPts được ước tính dựa trên các thuộc tính thống kê của bộ dữ liệu. Trong 
trường hợp lý tưởng, một ma trận khoảng cách × được đưa ra: 
× = {(, )|1 ≤  ≤ , 1 ≤  ≤ } (2) 
trong đó: 
-  là số lượng văn bản của tập văn bản đầu vào D; 
- × là một ma trận đối xứng  hàng  cột trong đó mỗi thành phần thể 
khoảng cách được tính bằng độ đo cosine giữa văn bản i và j trong tập văn 
bản đầu vào D. 
Xác định thông số eps tối ưu 
Thông số eps cho thuật toán DBSCAN có thể được xác đinh bằng tay hoặc 
thông qua thuật toán Heuristics xác định thông số eps cho cụm có mật độ ít dày 
đặc nhất. Thuật toán dựa trên 2 quan sát: 
1) Gọi Xi là khoảng cách giữa văn bản i và văn bản gần nhất thứ k thì vùng lân 
cận Xi của văn bản i chứa k+1 văn bản (hoặc nhiều hơn k+1văn bản khi 
nhiều văn bản có cùng khoảng cách đến i). 
2) Thay đổi giá trị k không dấn đến thay đổi lớn giá trị của Xitrừ khi kvăn bản 
này cùng nằm xấp xỉ trên cùng một đường thẳng. 
Chúng ta xác định giá trị của mỗi thành phần trong ma trận ×, sau đó sắp 
xếp theo thứ tự tăng dần theo từng hàng. Sử dụng × để thể hiện giá trị của 
cột thứ i trong ×. Với giá trị k cho trước và các dữ liệu trong × được 
sắp xếp theo thứ tự tăng dần dẫn đến × là cột thể hiện khoảng cách từ điểm 
p đến điểm gần nhất thứ k. Từ đó, chúng ta sử dụng ước lượng khả năng tối đa 
trong toán học để ước lượng giá trị của eps. Tức là, eps có thể thu được bằng 
phương pháp tính giá trị trung bình của ×. 
 = 


∑ 

 (3) 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 129
Thực nghiệm cho thấy số lượng cụm có xu hướng ổn định khi k = 4 và chi phí 
tính toán lại giảm đáng kể [4,5]. Vì vậy, có thể thấy kết quả phân nhóm có thể tối 
ưu ngay tại thời điểm này. 
Thuật toán DBSCAN cải tiến để tìm eps tối ưu trong tập dữ liệu 
Mục đích Tìm giá trị tối ưu của eps 
Input 
Bộ dữ liệu n văn bản 
Số lượng k điểm lân cận tối thiểu 
Output Thông số eps tối ưu cho tập dữ liệu 
Thủ tục 
 for i=1 to n 
 for j=1 to n 
 tính khoảng cáchgiữa 2 văn bản i và j: 
(, ) = (, ) 
 end for 
 sắp xếp các giá trị khoảng cách theo thứ tự tăng dần 
 end for 
 tính eps tối ưu dựa vào bộ dữ liệu khoảng cách tìm được 
Xác định tham số MinPts tối ưu 
Sau khi eps tối ưu được xác định, ta cần phải ước tính giá trị của MinPts. Đầu 
tiên, ta cần tính số lượng các văn bản trong vùng bán kính eps lân cận với mọi 
điểm trong tập dữ liệu từng điểm một. Sau đó, tính trung bình giá trị của tất cả các 
dữ liệu này, đó chính là giá trị MinPts tối ưu. 
 = 
1

 


 (4)
Trong đó, pi là số điểm lân cận trong vùng bán kính eps của điểm i. 
2.3. Phát hiện chủ đề nóng 
Số lượng tài liệu trong một chủ đề là yếu tố quan trọng để đánh giá mức độ 
nóng, ngoài ra, nguồn trang thông tin điện tử cũng nên được xem như là một đóng 
góp quan trọng cho mức độ nóng của một chủ đề. Chúng tôi cho rằng các chủ đề 
được thảo luận bởi nhiều trang thông tin điện tử quan trọng hơn những chủ đề chỉ 
được thảo luận bởi ít trang thông tin điện tử, mặc dù các chủ đề này có thể chứa 
nhiều tài liệu. Mặt khác, số ngày đăng tin trong một khoảng thời gian nhất định 
cũng đóng góp vào mức độ nóng của chủ đề. 
Dựa trên nguyên tắc thuật toán TF-PDF (Term Frequency - Proportional 
Document Frequency) đã được trình bày trong một số công trình nghiên cứu 
[7,8,22], chúng tôi đề xuất phương pháp tính “độ nóng” của một chủ đề được phân 
cụm. Cụ thể, độ nóng của một chủ đề T trong khoảng thời gian được ký hiệu là 
ℎ(T) được tính như sau: 
ℎ(T) =
⎝
⎛

∑ 


×  


 × 


⎠
⎞ × 


 (5)
trong đó: 
Công nghệ thông tin 
N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng  DBSCAN cải tiến.” 130 
: là số trang thông tin điện tử chứa các bài viết đang được xem xét. 
: là tổng số chủ đề được phân cụm mà chứa các bài viết của trang thông tin 
điện tử thứ i. 
: Là số bài viết của chủ đề T được đăng trên trang thông tin điện tử thứ i. 
: Là số bài viết của trang trang thông tin điện tử thứ i trong chủ đề thứ j 
( ∈ ). 
: Là tổng số bài viết trên trang thông tin điện tử thứ i. 
: Là trọng số của trang thông tin điện tử thứ i,  = 1 nếu trang thông tin 
điện tử thứ i là một trang thông tin điện tử được cấp phép (chính thống),  =
0.5 nếu trang thông tin điện tửthứ i là một trang thông tin điện tử không được cấp 
phép,  = 0.1 nếu trang thông tin điện tử thứ i chỉ là trang thông tin điện tử tổng 
hợp tin tức từ các nguồn khác. 
: Là số ngày khác nhau của các bài viết trong chủ đề T. 
: Là số ngày khác nhau của tất cả các bài viết đang được xem xét. 
3. THỬ NGHIỆM, ĐÁNH GIÁ 
3.1. Kho ngữ liệu 
Kho ngữ liệu thử nghiệm được xây dựng dựa trên việc thu thập dữ liệu trong 
một khoảng thời gian từ 09/08 – 15/08/2017 từ các trang thông tin điện tửBáo 
Nhân dân, Báo Quân đội nhân dân, Báo Dân trí, Báo Thanh niên, Báo vnexpress, 
news.zing.vn. Chúng tôi chọn khoảng thời gian này vì có một số sự kiện quan 
trọng nổi lên như: căng thẳng Triều Tiên, trạm thu phí Cai Lậy, bạo lực ở bang 
Virginia Hoa Kỳ, bút phê lãnh đạo vào hồ sơ sinh viên... Tổng số văn bản thu thập 
được từ các nguồn trên là 131 bài được phân thành 10 cụm chủ đề (bằng phương 
pháp thủ công do con người thực hiện). 
Do đặc điểm riêng của tiếng Việt [3], ở bước tiền xử lý tiếng Việt chúng tôi sử 
dụng các bộ công cụ sau: 
Sử dụng các kỹ thuật tách từ của nhóm tác giả [10, 11,12] được dùng để tách từ 
tiếng Việt. Sử dụng bộ công cụ vnTagger [15] để gán nhãn từ loại với bộ 18 nhãn. 
Ngoài ra, để nâng cao độ chính xác, các thực từ đồng nghĩa trong tiêu đề, tóm 
tắt, nội dung của các văn bản thử nghiệm được thay thế bằng một từ duy nhất bằng 
cách sử dụng từ điển đồng nghĩa của tác giả Nguyễn Văn Tu [9]. 
3.2. Thử nghiệm, đánh giá 
Trong quá trình phân cụm ở giai đoạn đầu tiên,với 131 văn bản đầu vào chưa 
được phân cụm, chúng tôi sử dụng thuật toán DBSCAN cải tiến với k=4 [4,5], 
thuật toán tính ra các hệ số tối ưu eps = 0,952, MinPts=4. Kết quả thực hiện phân 
ra thành 10 cụm chủ đề, chúng ta so sánh với 10 cụm chủ đề đã được phân cụm 
bằng phương pháp thủ công. Kết quả được trình bày ở bảng 1, trong đó chúng tôi 
sử dụng độ đo Precision, Recall, F-score để đánh giá độ chính xác của thuật 
toánphân cụm. 
 =

( + )
 =

( + )
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 131
 =
2 ×  × 
( + )
trong đó: 
TP: Số lượng các bài thuộc cụm c được phân loại chính xác vào cụm c; 
FP: Số lượng các bài không thuộc cụm c bị phân loại nhầm vào cụm c; 
FN: Số lượng các bài thuộc cụm c bị phân loại nhầm vào các lớp cụm khác c. 
Bảng 1. Bảng kết quả phân cụm sử dụng thuật toán DBSCAN cải tiến. 
T 
T 
Tên cụm 
Số lượng văn bản 
TP FP FN 
Pre 
(%) 
Recall 
(%) 
F 
(%) PP 
thủ 
công 
DBSCAN 
cải tiến 
1 Căng thẳng Triều 
Tiên 
40 19 19 0 21 100 47,5 64,4 
2 
Phản đối trạm thu 
phí BOT Cai Lậy 
17 14 14 0 3 100 82,4 90,4 
3 
Thời tiết nắng 
nóng tại Bắc bộ 
16 15 15 0 1 100 93,8 96,8 
4 
Khắc phục hậu quả 
trận lũ quét Yên 
Bái 
12 8 8 0 4 100 66,7 80,0 
5 
Phê lý lịch sinh 
viên 
9 9 9 0 0 100 100 100 
6 
Ông Đoàn Ngọc 
Hải xử lý vi phạm 
lấn chiếm vỉa hè 
9 6 6 0 3 100 66,7 80,0 
7 
Lao xe vào cuộc 
biểu tình tại bang 
Virginia - Mỹ 
7 5 5 0 2 100 71,4 83,3 
8 
Căng thắng biên 
giới Trung Quốc - 
Ấn Độ 
7 7 7 0 0 100 100 100 
9 
Bé trai bị bỏ rơi tại 
trước bệnh viện 
Sài Gòn 
7 7 7 0 0 100 100 100 
10 
Căng thẳng biên 
giới Campuchia - 
Lào 
7 6 6 0 1 100 85,7 92,3 
Trên cơ sở của các cụm chủ đề được phân, ở giai đoạn 2 chúng tôi tính “độ 
nóng” chủ đề. Bảng 2 trình bày các chủ đề với “độ nóng” chủ đề được tính bằng 
công thức (5). 
Công nghệ thông tin 
N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng  DBSCAN cải tiến.” 132 
Từ bảng 2, chúng ta có thể thấy chủ đề nóng nhất là “Tình hình căng thẳng 
Triều Tiên”, sau đó đến chủ đề “Phản đối trạm thu phí BOT Cai Lậy” xảy ra ngày 
05/08/2017.... Qua kết quả trên, chúng ta có thể thấy các chủ đề nóng được phát 
hiện phản ánh đúng các sự kiện diễn ra trong khoảng thời gian từ ngày 09 tháng 08 
đến ngày 15 tháng 08 năm 2017. 
Bảng 2. Bảng thống kê 10 chủ đề nóng được phát hiện. 
STT Chủ đề “Độ nóng” chủ đề 
1 Căng thẳng Triều Tiên 2,017 
2 Phản đối trạm thu phí BOT Cai Lậy 1,624 
3 Thời tiết nắng nóng tại Bắc bộ 1,393 
4 Khắc phục hậu quả trận lũ quét Yên Bái 0,746 
5 Phê lý lịch sinh viên 0,591 
6 Ông Đoàn Ngọc Hải xử lý vi phạm lấn chiếm vỉa hè 0,587 
7 Lao xe vào cuộc biểu tình tại bang Virginia - Mỹ 0,562 
8 Căng thắng biên giới Trung Quốc - Ấn Độ 0,535 
9 Bé trai bị bỏ rơi tại trước bệnh viện Sài Gòn 0,503 
10 Căng thẳng biên giới Campuchia - Lào 0,437 
4. KẾT LUẬN 
Bài báo này đã trình bày mô hình phát hiện chủ đề nóng trên các trang thông tin 
điện tử tiếng Việt trong một khoảng thời gian nhất định. Nội dung nghiên cứu của 
bài báo tập trung giải quyết hai vấn đề trọng tâm: 
- Sử dụng thuật toán phân cụm DBSAN cải tiến sử dụng cách tự động tính giá trị 
của các tham số eps, MinPts dựa trên các thuộc tính thống kê của bộ dữ liệu đầu vào. 
- Xác định “độ nóng” chủ đề dựa trên một số tiêu chí: số lượng bài viết, độ quan 
trọng của các trang thông tin điện tử,... 
Kết quả thử nghiệm trên 131 văn bản thu thập được từ 6 trang báo điện tử khác 
nhau trong thời gian 1 tuầncho thấy mô hình đề xuất đưa ra các chủ đề nóng phản 
ánh đúng các sự kiện thực tế đang diễn ra trên thế giới. 
Lời cảm ơn: Tác giả cảm ơn sự tài trợ về kinh phí của đề tài mã số CNN-2017 cấp 
Viện Khoa học và Công nghệ quân sự. 
TÀI LIỆU THAM KHẢO 
[1]. Bộ Thông tin và Truyền thông, “Báo cáo tổng kết công tác năm 2016 và 
phương hướng, nhiệm vụ năm 2017”, (2016). 
[2]. Bộ Thông tin và Truyền thông, “Hội nghị báo chí toàn quốc triển khai nhiệm 
vụ năm 2017”, Cổng thông tin điện tử - Bộ Thông tin và Truyền thông (2017). 
[3]. Diệp Quang Ban, “Ngữ Pháp Tiếng Việt”, NXB giáo dục (2008). 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 133
[4]. Ester, M., H. P. Kriegel, J. Sander, and X. Xu, “A Density-Based Algorithm 
for Discovering Clusters in Large Spatial Databases with Noise”, Conference 
on Knowledge Discovery and Data Mining, Portland, OR, AAAI Press, 
(1996), pp. 226-231. 
[5]. Hongfang Zhou,Peng Wang,Hongyan Li. “Research on Adaptive Parameters 
Determination in DBSCAN Algorithm”, Journal of Information & 
Computational Science, (2012), 9(7): 1967-1973. 
[6]. J. Allan, “Introduction to topic detection and tracking”, Springer US, (2002). 
[7]. K. K. Bun and M. Ishizuka, “Topic extraction from news archive using 
TF*PDF algorithm”, Proceedings of the Third International Conference on 
Web Information Systems Engineering, Singapore, (2002), pp. 73-73 
[8]. K. Y. Chen, L. Luesukprasert and S. Chou, “Hot topic extraction based on 
timeline analysis and multidimensional sentence modeling”, IEEE 
Transactions on Knowledge and Data Engineering, (2007), pp. 1016-1025. 
[9]. Nguyễn Văn Tu, “Từ điển đồng nghĩa Tiếng Việt”, NXB giáo dục (2001). 
[10]. Nguyễn Nhật An, Trần Ngọc Anh, Phan Thị Nguyệt Hoa, “Kỹ thuật Voting 
trong bài toán tách từ tiếng Việt”, Tạp chí Nghiên cứu Khoa học & Công 
nghệ Quân sự, Đặc san CNTT 04/2014, (2014), tr.54-61. 
[11]. Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen, "An Effective 
Context-based Method for Vietnamese Word Segmentation", Proceedings of 
the First International Workshop on Vietnamese Language and Speech 
Processing (VLSP 2012), pp.34-40, In Conjunction with 9th IEEE-RIVF 
Conference on Computing and Communication Technologies (RIVF 2012). 
[12]. Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen, "Identifying 
Coordinated Compound Words for Vietnamese Word Segmentation", 
Proceedings of the Fifth International Conference of Soft Computing and 
Pattern Recognition (SoCPaR 2013). 
[13]. Thanh Ho, Duy Doan, Phuc Do, “Discovering Hot topic on Social Net work 
based on Improving the aging theory”. Advances in Computer Science: An 
international Journal: Volume 3, Issue 3, (4/2014), ISSN: 2322-5157. 
[14]. Ruiguo Yu, Xiaodong Xie, Yongxing Li,Mankun Zhao, “Online Hot Topic 
Detection Based on Segmented Timeline and Aging Theory”, SERSC, 
International Journal of Hybrid Information Technology , Vol 9. (2016), p. 
247-258 
[15]. VLSP project, Vietnamese Language Processing,  
[16]. X. Guo, Y. Xiang, Q. Chen, Z. Huang and Y. Hao, “LDA-based online topic 
detection using tensor factorization”, Journal of Information Science, (2013). 
[17]. XU Hui-jie, CAI Wan-dong, CHEN Gui-rong, "A Fast Method to Detect Hot 
Topic from BBS", International Conference on Advanced Information and 
Communication Technology for Education (ICAICTE 2013). 
[18]. Xianwen Wang and Zhichao Fang, "Detecting and Tracking The Real-time 
Hot Topics - A Study on Computational Neuroscience", (STI2016). 
[19]. Xi Ding, Lanshan Zhang, Ye Tian, Xiangyang Gong and Wendong Wang 
(2015), "Dynamic Topic Detection Model by Fusing Sentiment Polarity", 
Công nghệ thông tin 
N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng  DBSCAN cải tiến.” 134 
Proceedings of the 38th Australasian Computer Science Conference (ACSC 
2015), Sydney, Australia. 
[20]. Y. Zhuang, “An improved TFIDF algorithm in electronic information feature 
extraction based on document position”, Advances in Mechanical and 
Electronic Engineering, (2012), pp. 449-454. 
[21]. Y. Chen, H. Amiri, Z. Li and T. Chua, “Emerging topic detection for 
organizations from microblogs”, Proceedings of the 36th international ACM 
SIGIR conference on Research and development in information retrieval, 
Dublin, Ireland, (2013), pp. 43-52. 
[22]. Ye, H-M. and Cheng, W. 'Design and implementation of on-line hot topic 
discovery model', Wuhan University Journal of Natural Sciences; Vol. 11, 
(2006), p. 21-26. 
[23]. Yonghui Wu, Yuxin Ding, Xiaolong Wang and Jun Xu, "On-line Hot Topic 
Recommendation Using Tolerance Rough Set Based Topic Clustering", 
Journal of Computers, Vol. 5, No. 4, (April 2010). 
[24]. Yuexin Sun, Huifang Ma, Meihuizi Jia, Wang Peiqing, "An Efficient 
Microblog Hot Topic Detection Algorithm Based on Two Stage Clustering", 
8th International Conference on Intelligent Information Processing (IIP), Oct 
2014, Hangzhou, China. Springer, IFIP Advances in Information and 
Communication Technology, AICT-432, (2014), pp.90-95. 
ABSTRACT 
MODEL HOT TOPIC DETECTION ON VIETNAMESE WEBSITE 
BASED ON IMPROVED DBSCAN CLUSTERING ALGORITHM 
Currently, with the rapid development of information technology, the amount 
of information is transmitted on the websites (online newspapers, social networks, 
blogs, etc.) as large. The tracking information to detect new, hot issues (hot 
topics) is public attention, monitoring their development trends to forecast the risk 
is very important in many fields, especially in security and defense. This article 
proposes the model to detect hot topics on Vietnamese websites in a period of time 
based on the improved DBSCAN algorithm and how to determine the "hotness" of 
clustered topics. 
Keywords: Detecting Vietnamese hot topics; Improving DBSCAN clustering algorithm; “Hotness of topics”. 
Nhận bài ngày 16 tháng 8 năm 2017 
Hoàn thiện ngày 26 tháng 11 năm 2017 
Chấp nhận đăng ngày 28 tháng 11 năm 2017 
Địa chỉ: Viện Công nghệ Thông tin, Viện KHCNQS. 
 * Email: nguyennhatan@gmail.com. 

File đính kèm:

  • pdfmo_hinh_tu_dong_phat_hien_chu_de_nong_tren_cac_trang_thong_t.pdf