Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet

Sự phát triển mạnh mẽ của Internet và các dịch vụ trên Internet có những tác

động lớn đến nhiều mặt trong xã hội. Chỉ với một thiết bị được kết nối đến mạng

Internet, người dùng có thể dễ dàng sử dụng các kênh trao đổi thông tin như

website, email, diễn đàn, mạng xã hội, hoặc các dịch vụ khác như tìm kiếm thông

tin, thương mại điện tử (TMĐT) v.v. Một đặc điểm chung của các hệ thống này là

không bắt buộc người dùng cung cấp chính xác thông tin cá nhân khi sử dụng. Việc

này nhằm khuyến khích và tạo thuận lợi cho người dùng trong quá trình sử dụng,

tuy nhiên cũng tạo ra một số vấn đề. Thứ nhất, người dùng có thể sử dụng các kênh

trao đổi thông tin một cách nặc danh hoặc giả mạo, với mục đích xấu. Thứ hai, việc

thiếu thông tin cá nhân người dùng làm cho các nhà cung cấp dịch vụ trên Internet

gặp khó khăn trong việc cá nhân hóa hệ thống nhằm tăng trải nghiệm cho người

dùng, thúc đẩy bán hàng, hoặc thực hiện các hoạt động quảng cáo trực tuyến hiệu

quả hơn.

Luận án này thực hiện nghiên cứu về vấn đề xác định các đặc điểm của người

dùng dựa trên phân tích văn bản do người dùng tạo ra hoặc dựa trên phân tích hành

vi người dùng thực hiện trên hệ thống bằng các phương pháp học máy.

Các nội dung tiếp theo của phần này bao gồm: Phần 1.1 trình bày lý do lựa

chọn đề tài. Phần 1.2 và 1.3 nêu các mục tiêu và đóng góp của luận án. Nội dung

của phần 1.4 là bố cục của toàn bộ luận án.

pdf 153 trang dienloan 15700
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG 
Dương Trần Đức 
MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH 
ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Hà Nội – Năm 2018 
i 
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG 
Dương Trần Đức 
MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH 
ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET 
Chuyên ngành: Kỹ thuật máy tính 
Mã số: 9.48.01.06 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
NGƯỜI HƯỚNG DẪN KHOA HỌC: 
1. PGS.TS PHẠM BẢO SƠN 
2. TS. TÂN HẠNH 
Hà Nội – Năm 2018 
ii 
LỜI CAM ĐOAN 
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các số liệu và 
kết quả trình bày trong luận án là trung thực, chưa được công bố bởi bất kỳ tác giả 
nào hay ở bất kỳ công trình nào khác. 
Tác giả 
Dương Trần Đức 
iii 
LỜI CẢM ƠN 
Tôi xin gửi lời cảm ơn chân thành tới Khoa Đào tạo Sau Đại học, Khoa Công 
nghệ Thông tin, Ban Lãnh đạo Học viện Công nghệ Bưu chính Viễn thông, các Quý 
Thầy Cô đã giúp tôi trang bị kiến thức, tạo điều kiện thuận lợi cho tôi trong suốt quá 
trình thực hiện Luận án này. 
Đồng thời, tôi xin bày tỏ lòng cảm ơn chân thành và sâu sắc tới PGS. TS. 
Phạm Bảo Sơn và TS. Tân Hạnh, những người đã tận tình khuyến khích và hướng 
dẫn trong quá trình thực hiện để tôi có thể hoàn thành Luận án. 
Xin chân thành cảm ơn các đồng nghiệp, các nhà khoa học, các thầy cô giáo 
công tác tại Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu chính Viễn 
thông, Đại học Công nghệ - Đại học Quốc gia Hà Nội đã động viên, hỗ trợ tôi trong 
quá trình thực hiện Luận án. 
Cuối cùng, xin gửi lời tri ân sâu sắc tới gia đình, bạn bè, những người đã luôn 
động viên, khuyến khích, là chỗ dựa tinh thần cho tôi trong thời gian thực hiện Luận 
án. 
iv 
MỤC LỤC 
Trang 
TRANG PHỤ BÌA ................................................................................................... i 
LỜI CAM ĐOAN ................................................................................................... ii 
LỜI CẢM ƠN ........................................................................................................ iii 
MỤC LỤC ............................................................................................................. iv 
DANH MỤC BẢNG BIỂU ................................................................................... vii 
DANH MỤC HÌNH VẼ ....................................................................................... viii 
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ ix 
MỞ ĐẦU ................................................................................................................ 1 
1. LÝ DO LỰA CHỌN ĐỀ TÀI ...................................................................... 1 
2. MỤC TIÊU CỦA LUẬN ÁN ...................................................................... 3 
3. PHẠM VI NGHIÊN CỨU ........................................................................... 4 
4. CÁC ĐÓNG GÓP CỦA LUẬN ÁN ............................................................ 4 
5. BỐ CỤC CỦA LUẬN ÁN ........................................................................... 5 
CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG ............ 1 
1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH 
VĂN BẢN ........................................................................................................... 1 
1.1.1 Giới thiệu ............................................................................................. 1 
1.1.2 Đặc điểm của văn bản trực tuyến ......................................................... 4 
1.1.3 Các dạng thức trong phân tích tác giả văn bản ..................................... 5 
1.1.4 Các kỹ thuật phân tích........................................................................ 11 
1.1.5 Các đặc trưng nhận diện..................................................................... 15 
1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH 
HÀNH VI .......................................................................................................... 24 
1.2.1 Giới thiệu ........................................................................................... 24 
1.2.2 Tập đặc trưng hành vi ........................................................................ 25 
1.2.3 Các kỹ thuật phân tích........................................................................ 28 
1.2.4 Nhận xét và đánh giá ......................................................................... 29 
v 
1.3 CÔNG CỤ THỰC NGHIỆM ................................................................... 30 
1.4 KẾT LUẬN CHƯƠNG ............................................................................ 31 
CHƯƠNG 2: XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG 
VIỆT ..................................................................................................................... 33 
2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT 
SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN ......................................................... 34 
2.1.1 Giới thiệu ........................................................................................... 34 
2.1.2 Phương pháp ...................................................................................... 35 
2.1.3 Thực nghiệm ...................................................................................... 40 
2.1.4 Kết luận ............................................................................................. 47 
2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG ........................................... 47 
2.2.1 Giới thiệu ........................................................................................... 47 
2.2.2 Phương pháp ...................................................................................... 48 
2.2.3 Thực nghiệm ...................................................................................... 49 
2.2.4 Kết luận ............................................................................................. 61 
2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT ........ 62 
2.3.1 Giới thiệu ........................................................................................... 62 
2.3.2 Tổng quan về các nghiên cứu phân tích tác giả sử dụng các đặc trưng 
dựa trên từ vựng............................................................................................. 63 
2.3.3 Âm tiết và vần trong tiếng Việt .......................................................... 66 
2.3.4 Phương pháp ...................................................................................... 68 
2.3.5 Thực nghiệm ...................................................................................... 70 
2.3.6 Kết luận ............................................................................................. 78 
2.4 KẾT LUẬN CHƯƠNG ............................................................................ 79 
CHƯƠNG 3: XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU 
LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ ............................ 81 
3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU ........................................................ 82 
3.1.1 Giới thiệu ........................................................................................... 82 
3.1.2 Phương pháp ...................................................................................... 82 
3.1.3 Thực nghiệm ...................................................................................... 87 
vi 
3.1.4 Kết luận ............................................................................................. 93 
3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN 
CÂY ................................................................................................................. 94 
3.2.1 Giới thiệu ........................................................................................... 94 
3.2.2 Phương pháp ...................................................................................... 95 
3.2.3 Thực nghiệm ................................................................................... 101 
3.3 KẾT LUẬN CHƯƠNG .......................................................................... 106 
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO ..................................... 107 
1. KẾT LUẬN ............................................................................................. 107 
2. HƯỚNG NGHIÊN CỨU TIẾP THEO ..................................................... 109 
DANH MỤC CÔNG TRÌNH CÔNG BỐ ............................................................ 110 
TÀI LIỆU THAM KHẢO ................................................................................... 112 
PHỤ LỤC 1: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM 
TÁC GIẢ VĂN BẢN TIẾNG VIỆT.................................................................... 125 
1.1 ĐẶT VẤN ĐỀ ....................................................................................... 125 
1.2 MÔ TẢ HỆ THỐNG .............................................................................. 126 
1.2.1 Sơ đồ hệ thống ................................................................................. 126 
1.2.2 Chức năng Thu thập dữ liệu ............................................................. 126 
1.2.3 Chức năng Xử lý dữ liệu .................................................................. 127 
1.2.4 Chức năng Trích chọn đặc trưng ...................................................... 128 
1.2.5 Chức năng Xây dựng mô hình nhận diện ......................................... 129 
1.2.6 Chức năng Xây dựng dịch vụ nhận diện ........................................... 129 
1.2.7 Chức năng Ứng dựng Web thử nghiệm sử dụng dịch vụ .................. 129 
1.3 XÂY DỰNG HỆ THỐNG...................................................................... 130 
1.3.1 Mô đun Thu thập dữ liệu .................................................................. 130 
1.3.2 Mô đun Xử lý dữ liệu và trích chọn đặc trưng .................................. 130 
1.3.4 Mô đun Xây dựng dịch vụ nhận diện ............................................... 133 
1.3.5 Mô đun ứng dụng thử nghiệm sử dụng dịch vụ ................................ 133 
1.4 KẾT LUẬN ............................................................................................ 135 
vii 
DANH MỤC BẢNG BIỂU 
Bảng 1.1. Các đặc trưng dựa theo phong cách ....................................................... 19 
Bảng 2.1 Các đặc trưng cơ bản.............................................................................. 39 
Bảng 2.2. Thống kê về tập dữ liệu huấn luyện ....................................................... 41 
Bảng 2.3. Kết quả xác định đặc điểm tác giả bài viết diễn đàn .............................. 44 
Bảng 2.4. Kết quả thực nghiệm sử dụng các đặc trưng nâng cao ........................... 55 
Bảng 2.5. Kết quả trên thuật toán SMO sau khi điều chỉnh tham số ...................... 58 
Bảng 2.6. Những đặc trưng nội dung (từ nội dung) quan trọng nhất ...................... 60 
Bảng 2.7. Cấu trúc âm tiết tiếng Việt .................................................................... 68 
Bảng 2.9. Các đặc trưng ........................................................................................ 70 
Bảng 2.10. Kết quả xác định đặc điểm tác giả sử dụng các đặc trưng vần và âm tiết
 .............................................................................................................................. 71 
Bảng 2.11. Các vần và âm tiết quan trọng trong nhận diện tác giả ......................... 73 
Bảng 3.2. Các đặc trưng chung ............................................................................. 84 
Bảng 3.3. Các đặc trưng dựa trên sản phẩm .......................................................... 85 
Bảng 3.3. Các đặc trưng dựa trên sản phẩm chuyển tiếp........................................ 85 
Bảng 3.4. Thống kê dữ liệu ................................................................................... 88 
Bảng 3.5. Ma trận chi phí ...................................................................................... 90 
Bảng 3.6. Kết quả của các thực nghiệm trên các thuật toán khác nhau (chưa áp dụng 
kỹ thuật hỗ trợ) ...................................................................................................... 91 
Bảng 3.8. Kết quả thực nghiệm khi áp dụng thêm các kỹ thuật hỗ trợ ................... 92 
Bảng 3.9. Các đặc trưng về sản phẩm/loại sản phẩm riêng rẽ ................................ 95 
Bảng 3.10. Các đặc trưng nâng cao ..................................................................... 100 
Bảng 3.11. Kết quả thực nghiệm khi sử dụng ClassBalancer kết hợp 
CosSensitiveClassifier với ma trận chi phí 1:3 ..................................................... 102 
Bảng 3.12. Kết quả phân loại sau khi lựa chọn đặc trưng và tối ưu tham số ........ 105 
viii 
DANH MỤC HÌNH VẼ 
Hình 2.2. Độ chính xác nhận diện trên các số lượng đặc trưng khác nhau ............. 59 
Hình 3.1. Biểu diễn dạng cây của danh mục sản phẩm/loại sản phẩm được xem ... 96 
Hình 3.2. Biểu diễn dạng cây của lượt xem có 1 loại sản phẩm mức A ................. 97 
Hình 3.3. Biểu diễn dạng cây của lượt xem có nhiều loại sản phẩm mức A........... 97 
Hình 1 Sơ đồ tổng quát của hệ thống .................................................................. 127 
Hình 2 Giao diện mô đun xử lý dữ liệu và trích chọn đặc trưng ......................... 131 
Hình 3 Giao diện mô đun Xây dựng mô hình nhận diện ...................................... 132 
Hình 4 Giao diện mô đu thử nghiệm nhận diện tác giả văn bản ........................... 132 
Hình 5 Mã nguồn dịch vụ Web xác định đặc điểm tác giả ................................... 134 
Hình 6 Giao diện ứng dụng Web sử dụng dịch vụ ............................................... 134 
Hình 7 Mã nguồn mô đun ứng dụng Web sử dụng dịch vụ ................................. 135 
ix 
DANH MỤC CÁC TỪ VIẾT TẮT 
Từ viết tắt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt 
BAC Balanced Accuracy Độ đo chính xác cân bằng 
BMR 
Bayesian Multinomial 
Regression Hồi quy đa thức Bayes 
BN Bayesian Networks Mạng Bayes 
BNC British National Corpus Kho ngữ liệu quốc gia Anh 
BPN Back Propagation Network Mạng truyền ngược 
DT Decision Tree Cây quyết định 
EG Exponential Gradient Gradient mũ 
EM Expectation Maximization Cực đại hóa kỳ vọng 
ID Information Gain Độ lợi thông tin 
IRS 
Information Retrieval 
Similarity 
Độ tương tự trích xuất thông 
tin 
JAX-RS 
Java API for RESTful Web 
Services 
Giao diện lập trình ứng dụng 
Java cho dịch vụ Web REST 
JSON Javascript Object Notion 
KLS Kullback–Leibler Similarity Độ tương tự Kullback–Leibler 
NIST 
National Institute of Standards 
and Technology 
Viện Tiêu chuẩn và Công nghệ 
Quốc gia (Hoa Kỳ) 
PAKDD 
– Pacific Asia Knowledge 
Discovery and Data Mining 
Hội nghị về P ...  Informatics, pp. 59-73. 
125 
PHỤ LỤC 1 
XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ 
VĂN BẢN TIẾNG VIỆT 
Phần này trình bày về việc xây dựng hệ thống thử nghiệm dịch vụ xác định 
đặc điểm tác giả văn bản tiếng Việt trên Internet. Như đã nói ở các phần trước, xác 
định đặc điểm tác giả văn bản có nhiều ứng dụng trong thực tế như lĩnh vực thương 
mại (hỗ trợ quảng cáo trực tuyến đúng đối tượng, phân tích ý kiến khách hàng, phát 
triển sản phẩm, v.v.), lĩnh vực an ninh (hỗ trợ điều tra tội phạm trực tuyến). Do các 
văn bản từ các nguồn khác nhau và thuộc các loại khác nhau đều có thể được trích 
chọn các đặc trưng giống nhau, việc xây dựng một hệ thống thử nghiệm xác định 
đặc điểm tác giả văn bản là khả thi. Đối với lĩnh vực xác định đặc điểm người dùng 
dựa trên hành vi, do việc trích chọn các đặc trưng hành vi của người dùng trên mỗi 
hệ thống có tính chất phụ thuộc hệ thống (chẳng hạn các hệ thống TMĐT có các 
phân loại sản phẩm/cách đặt mã sản phẩm khác nhau), chúng tôi chưa xây dựng thử 
nghiệm hệ thống cho lĩnh vực này. 
Các phần tiếp theo có bố cục như sau. Phần 1 nêu vấn đề cần giải quyết. Phần 
2 mô tả các chức năng hệ thống. Phần 3 trình bày về xây dựng, triển khai hệ thống 
và một số giao diện minh họa. Phần 4 trình bày kết luận. 
1.1 ĐẶT VẤN ĐỀ 
Một số hệ thống hoạt động trên mạng Internet như các diễn đàn, mạng xã hội, 
trao đổi trực tuyến, v.v. có nhu cầu trong việc xác định đặc điểm người dùng thông 
qua phân tích các văn bản người dùng để lại trên hệ thống. Tuy nhiên, trong một số 
trường hợp, hệ thống chưa có nhiều dữ liệu mẫu do số văn bản người dùng để lại 
trên hệ thống chưa nhiều và cũng không nhiều văn bản có thông tin đặc điểm người 
dùng để có thể dùng để làm mẫu phân tích. Trong các trường hợp khác, mặc dù có 
thể thu thập được số lượng mẫu đáng kể để phân tích nhưng việc xây dựng một hệ 
thống nhận diện riêng từ các nguồn mẫu đã có cộng với các nguồn khác là tốn kém 
126 
nguồn lực, hơn nữa các mẫu này chưa có tính tổng quát và có thể cho kết quả không 
tốt khi nhận diện các trường hợp mới. 
Trong bối cảnh đó, một hệ thống xác định đặc điểm tác giả văn bản hoạt động 
độc lập và cung cấp chức năng xác định đặc điểm tác giả của các bản tin được gửi 
đến dưới dạng dịch vụ là một giải pháp hữu ích. Hệ thống được xây dựng theo mô 
hình này sẽ có thể tận dụng được các mẫu từ nhiều nguồn khác nhau và cung cấp 
các chức năng nhận diện dưới dạng giao diện lập trình ứng dụng (API) và các hệ 
thống khác có nhu cầu xác định đặc điểm tác giả văn bản có thể gửi các yêu cầu 
theo định dạng cho trước tới và nhận kết quả trả về của hệ thống. Ngoài ra, hệ thống 
cũng có thể cho phép các hệ thống khác xây dựng mô hình riêng trên dữ liệu của 
mình nhằm khai thác tính đặc thù của hệ thống. 
1.2 MÔ TẢ HỆ THỐNG 
1.2.1 Sơ đồ hệ thống 
Hình 1 cho thấy sơ đồ tổng quát các thành phần của hệ thống. 
1.2.2 Chức năng Thu thập dữ liệu 
Mô đun này có nhiệm vụ thu thập các dữ liệu mẫu (các bản tin) từ các hệ 
thống trên mạng Internet. Các dữ liệu được thu thập có ít nhất một trong 4 thông tin 
về đặc điểm người viết như giới tính, độ tuổi, nghề nghiệp, và vùng miền để dùng 
làm nhãn huấn luyện. Các hệ thống có thể thu thập dữ liệu mẫu là các hệ thống có 
sự tham gia trao đổi bằng văn bản của người dùng như diễn đàn, mạng xã hội, các 
trang web cho phép người dùng bình luận/nêu ý kiến v.v. Trong ứng dụng này, 
chúng tôi thu thập dữ liệu từ một số diễn đàn tiếng Việt phổ biến như diễn đàn 
Otofun (otofun.net), Webtretho (webtretho.com.vn), Tinhte (tinhte.vn). 
Các dữ liệu thu thập được sau đó được lưu trữ trong cơ sở dữ liệu để sử dụng 
cho các bước tiếp theo. 
127 
Hình 1 Sơ đồ tổng quát của hệ thống 
1.2.3 Chức năng Xử lý dữ liệu 
Sau khi dữ liệu được thu thập, một số bước xử lý cần được thực hiện để làm 
sạch dữ liệu, đồng thời một số thao tác khác như bổ sung/chỉnh sửa nhãn thủ công, 
xử lý về mặt ngôn ngữ học cũng được tiến hành. 
1.2.3.1 Tiền xử lý dữ liệu 
Do dữ liệu từ bộ thu thập tự động có thể chứa các thông tin nhiễu như các ký 
tự đặc thù ứng dụng, các ký tự lỗi, hoặc một số bản tin chứa quá nhiều các ký tự đặc 
biệt hoặc các chữ số, các bản tin chứa các thông tin không phải do tác giả viết (do 
tham khảo từ nguồn khác, do trích dẫn bài người khác), v.v. các thao tác tiền xử lý 
Xây dựng 
mô hình 
Internet 
Thu thập dữ liệu 
Xử lý dữ liệu 
Trích chọn đặc trưng 
Lưu trữ véc tơ đặc trưng 
Dữ liệu huấn luyện 
Dữ liệu thô 
Tập véc tơ đặc trưng 
Mô hình nhận diện 
Dịch vụ xác định 
đặc điểm tác giả 
Ứng dụng 
Web 
Ứng dụng 
di động 
Ứng dụng 
desktop 
128 
như phát hiện và lọc bỏ phần dữ liệu gây nhiễu là cần thiết để đảm bảo tính chính 
xác và khách quan của dữ liệu. 
Ngoài ra, do các thông tin về tác giả thu thập được có thể thiếu và không chính 
xác (do các hệ thống không có cơ chế xác minh thông tin do người dùng tự cung 
cấp), một số thao tác rà soát, bổ sung và điều chỉnh nhãn thủ công cũng được thực 
hiện. 
1.2.3.2 Tách từ và gán nhãn từ loại 
Ngoài các thao tác xử lý thông thường, một số thao tác xử lý về mặt ngôn ngữ 
cũng được thực hiện nhằm phục vụ cho hoạt động trích chọn đặc trưng. Do có một 
số đặc trưng liên quan đến từ và loại từ, các thao tác tách từ và gán nhãn từ loại 
được áp dụng. Việc tách từ trong tiếng Việt không đơn giản như một số ngôn ngữ 
khác (như tiếng Anh). Từ trong tiếng Việt có nhiều từ ghép, và các từ ghép này 
chứa nhiều cụm ký tự (cách nhau bởi dấu cách). Do vậy, việc tách từ trong tiếng 
Việt không đơn thuần là tách các cụm ký tự phân cách bởi dấu cách trong một câu 
mà còn phải dựa trên các tính chất ngôn ngữ học khác. Gán nhãn từ loại cũng là một 
thao tác cơ bản trong tiếng Việt. Có nhiều từ loại phổ biến như danh từ, động từ, 
tính từ v.v. Trong ứng dụng này chúng tôi sử dụng 18 từ loại phổ biến làm đặc 
trưng nhận diện. 
1.2.4 Chức năng Trích chọn đặc trưng 
Dữ liệu sau khi được xử lý sẽ được thực hiện trích chọn các đặc trưng cần thiết 
cho huấn luyện bộ phân loại. Tại bước này, các thao tác như thống kê các ký tự, loại 
ký tự, loại từ, độ dài từ, độ đa dạng từ vựng, tần suất các từ chức năng, từ nội dung 
v.v. được thực hiện. Trong ứng dụng này, chúng tôi sử dụng tập đặc trưng đầy đủ 
bao gồm các đặc trưng dựa trên phong cách kết hợp với các đặc trưng dựa trên nội 
dung như được trình bày trong phần 3.2. 
Các véc tơ đặc trưng sau khi được trích chọn sẽ được lưu trữ cùng với nhãn 
tương ứng vào các tập dữ liệu huấn luyện và được sử dụng để xây dựng nên các mô 
hình nhận diện. 
129 
1.2.5 Chức năng Xây dựng mô hình nhận diện 
Mô hình nhận diện được xây dựng trên tập dữ liệu huấn luyện được tạo ra ở 
bước trước bằng các thuật toán học máy như SVM, Bayesian Networks, Decision 
Tree. Mô hình sau khi xây dựng xong sẽ được lưu trữ trên máy tính để phục vụ cho 
quá trình nhận diện dữ liệu mới sau này. 
Ngoài việc xây dựng mô hình nhận diện từ tập dữ liệu có sẵn như trên, ứng 
dụng cũng cho phép xây dựng mô hình từ các dữ liệu cung cấp tức thời. Theo đó, 
các dữ liệu mẫu có thể được cung cấp trong quá trình nhận diện và mô hình được 
xây dựng tức thời dựa trên các dữ liệu này và có thể sử dụng ngay cho hoạt động 
nhận diện dữ liệu mới. 
1.2.6 Chức năng Xây dựng dịch vụ nhận diện 
Mô hình sau khi xây dựng xong có thể được sử dụng để nhận diện các dữ liệu 
mới. Theo đó, một bài viết chưa rõ đặc điểm tác giả có thể được nhận diện bởi mô 
hình để xác định ra các đặc điểm của tác giả bài viết. Như đã nói ở trên, mô đun 
thực hiện công việc nhận diện dữ liệu mới sẽ được xây dựng theo cơ chế dịch vụ 
Web (Web service) nhằm cung cấp cách thức thuận tiện cho các hệ thống khác có 
thể sử dụng mô hình. 
Dịch vụ Web là một phương pháp để các ứng dụng chủ và khách có thể giao 
tiếp thông qua Web bằng giao thức HTTP (HyperText Transfer Protocol). Theo 
Hiệp hội World Wide Web (W3C), dịch vụ Web cung cấp các phương tiện chuẩn để 
thực hiện tương tác giữa các ứng dụng chạy trên nhiều nền tảng khác nhau. Các 
dịch vụ Web đơn giản có thể kết hợp với nhau để cung cấp các dịch vụ phức tạp và 
tinh xảo hơn. Sau khi dịch vụ được xây dựng xong, các ứng dụng từ các nền tảng 
khác có thể gửi các yêu cầu sử dụng dịch vụ tới và nhận phản hổi nếu đáp ứng các 
yêu cầu về định dạng. 
1.2.7 Chức năng Ứng dựng Web thử nghiệm sử dụng dịch vụ 
Ứng dụng xác định đặc điểm tác giả văn bản sau khi được xây dựng và triển 
khai dưới dạng dịch vụ Web theo kiểu RESTful có thể được truy cập tới bởi các hệ 
130 
thống khách trên nhiều nền tảng khác nhau nền tảng Web, nền tảng di động, nền 
tảng ứng dụng desktop v.v. Trong phạm vi của luận án, chúng tôi xây dựng một ứng 
dụng Web thử nghiệm sử dụng dịch vụ. Chức năng cơ bản của ứng dụng Web là 
tiếp nhận dữ liệu từ phía người sử dụng, đóng gói và gửi yêu cầu tới dịch vụ xác 
định đặc điểm tác giả, đồng thời nhận kết quả trả về và hiện thị cho người dùng 
xem. Ngoài ra, ứng dụng Web cũng có tính năng tiếp nhận phản hồi về độ chính xác 
của dịch vụ và có thể tiếp nhận dữ liệu mẫu mới để có thể cải thiến mô hình nhận 
diện. 
1.3 XÂY DỰNG HỆ THỐNG 
1.3.1 Mô đun Thu thập dữ liệu 
Để thực hiện việc thu thập dữ liệu từ các diễn đàn, chúng tôi xây dựng một bộ 
thu thập dữ liệu tự động trên Web (Web Crawler) sử dụng Scapy. Scrapy là một 
framework được viết bằng Python cho phép thu thập và rút trích các dữ liệu từ các 
website một cách hiệu quả, kể cả khi website đó không có các API cho việc thu thập 
các dữ liệu thô. Sử dụng Scrapy, các bộ Spider được tạo ra để thực thu thập dữ liệu 
tự động, đồng thời chạy định kỳ cập nhật dữ liệu mới, và lưu trữ kết quả thu thập 
được dưới dạng tệp XML. Tệp này sau đó sẽ được rút trích thông tin vào đưa vào 
CDSL phục vụ cho việc xử lý và trích chọn đặc trưng. 
1.3.2 Mô đun Xử lý dữ liệu và trích chọn đặc trưng 
Mô đun Xử lý dữ liệu và trích chọn đặc trưng được xây dựng bằng ngôn ngữ 
Java. Mô đun cho phép nhận dữ liệu thô đầu vào dưới dạng tệp XML, Excel, hoặc 
trực tiếp từ CSDL, sau đó thực hiện các thao tác tiền xử lý văn bản và xử lý về mặt 
ngôn ngữ học như nói ở trên trước khi thực hiện trích chọn đặc trưng. Hình 2 cho 
thấy giao diện của mô đun khi xử lý và lưu trữ tập dữ liệu huấn luyện. 
Để thực hiện các thao tác xử lý ngôn ngữ học, chúng tôi sử dụng các thư viện 
tách từ và gán nhãn từ loại vnTokenizer và vnTagger có sẵn được xây dựng từ 
nghiên cứu của [90], [91]. 
131 
Hình 2 Giao diện mô đun xử lý dữ liệu và trích chọn đặc trưng 
1.3.3 Mô đun Xây dựng mô hình nhận diện 
Để xây dựng mô hình nhận diện, chúng tôi sử dụng thư viện thuật toán học 
máy của công cụ Weka [112] để xây dựng mô hình trên tập dữ liệu xây dựng được. 
Thư viện thuật toán học máy của Weka được cung cấp trong gói weka.classifiers.* 
và các gói giúp tạo lập và điều khiển tập dữ liệu như weka.core.Instance hoặc 
weka.core.Attribute. Hình 3 cho thấy giao diện của mô đun Xây dựng mô hình nhận 
diện. 
Mô hình nhận diện sau khi được xây dựng xong sẽ được lưu trữ dạng tệp theo 
định dạng của thư viện weka (ARFF) và có thể dùng để nhận diện đặc điểm dữ liệu 
mới. Trong mô đun này, chúng tôi cũng xây dựng một chức năng cho phép nhận 
diện thử nghiệm ngay trên hệ thống cục bộ thông qua giao diện chương trình như 
trong hình 4. 
132 
Hình 3 Giao diện mô đun Xây dựng mô hình nhận diện 
Hình 4 Giao diện mô đu thử nghiệm nhận diện tác giả văn bản 
133 
1.3.4 Mô đun Xây dựng dịch vụ nhận diện 
Về mặt kỹ thuật, dịch vụ Web có thể được xây dựng theo nhiều cách khác 
nhau. Tuy nhiên, có thể chia các dịch vụ Web thành 2 loại: dịch vụ Web dựa trên 
chuẩn SOAP (Simple Object Access Protocol) và dịch vụ Web theo kiểu RESTful 
(Representational State Transfer). Dịch vụ Web dựa trên SOAP có thiết kế phức tạp 
hơn và phù hợp với các ứng dụng lớn, trong khi dịch vụ Web kiểu RESTful có thiết 
kế đơn giản hơn và phù hợp với các ứng dụng gọn nhẹ. Trong mô đun này, chúng 
tôi lựa chọn sử dụng dịch vụ Web kiểu RESTful do tính chất của ứng dụng không 
có kiến trúc phức tạp. 
Để thống nhất về mặt công nghệ, chúng tôi lựa chọn Java API for RESTful 
Web Services (JAX-RS) để xây dựng dịch vụ xác định đặc điểm tác giả văn bản 
trên mô hình xây dựng được. JAX-RS là bộ giao diện lập trình ứng dụng dựa trên 
ngôn ngữ Java để giúp tạo các dịch vụ Web kiểu RESTful. 
Dịch vụ Web RESTful có thể chấp nhận nhiều loại định dạng đầu vào và kết 
quả trả về như XML, Json, Text v.v. Do tham số đầu vào cho dịch vụ chỉ là nội 
dung bản tin cần xác định đặc điểm tác giả nên dịch vụ Web trong mô đun này có 
đầu vào kiểu định dạng văn bản và đầu ra có định dạng Json (do có 4 đầu ra dự 
đoán 4 mặt đặc điểm của tác giả). Hình 5 cho thấy một phần mã nguồn của dịch vụ 
Web xác định đặc điểm tác giả văn bản. 
1.3.5 Mô đun ứng dụng thử nghiệm sử dụng dịch vụ 
Sau khi dịch vụ Web xác định đặc điểm tác giả được xây dựng và triển khai, 
các hệ thống từ nhiều nền tảng khác nhau như Web, nền tảng di động, ứng dụng 
desktop v.v. có thể yêu cầu sử dụng dịch vụ theo chuẩn của dịch vụ Web RESTful. 
Trong ứng dụng này, chúng tôi xây dựng 1 mô đun trên nền Web thử nghiệm 
dịch vụ Web xác định đặc điểm tác giả. Mô đun này được xây dựng bằng công nghệ 
Java JSP/Servlet và triển khai trên máy chủ Web Glassfish 4.0. Hình 6 và 7 là giao 
diện và một phần mã nguồn của mô đun ứng dụng Web sử dụng dịch vụ. 
134 
Hình 5 Mã nguồn dịch vụ Web xác định đặc điểm tác giả 
Hình 6 Giao diện ứng dụng Web sử dụng dịch vụ 
135 
Hình 7 Mã nguồn mô đun ứng dụng Web sử dụng dịch vụ 
1.4 KẾT LUẬN 
Trong chương này, chúng tôi đã phát triển một hệ thống xác định đặc điểm tác 
giả văn bản dựa trên công nghệ dịch vụ Web. Hệ thống bao gồm các chức năng từ 
thu thập dữ liệu mẫu tự động trên Internet, tiến hành xử lý, trích chọn và lưu trữ đặc 
trưng, huấn luyện mô hình và cung cấp dịch vụ xác định đặc điểm tác giả theo mô 
hình dịch vụ Web RESTful sử dụng công nghệ JAX-RS. Với dịch vụ được cung 
cấp, các hệ thống trên nhiều nền tảng khác nhau có thể yêu cầu sử dụng dịch vụ 
theo chuẩn giao tiếp thống nhất. Bên cạnh đó, chúng tôi cũng xây dựng một hệ 
thống Web thử nghiệm sử dụng dịch vụ bằng công nghệ Java JSP/Servlet. Ứng 
dụng này nhận thông tin đầu vào từ phía người dùng là các bản tin, tiến hành đóng 
gói yêu cầu, gửi tới dịch vụ Web xác định đặc điểm tác giả, và nhận kết quả trả về 
hiển thị cho người dùng. Theo cơ chế này, bất kỳ ứng dụng nào được xây dựng trên 
các nền tảng công nghệ hỗ trợ giao tiếp theo chuẩn dịch vụ Web RESTful đều có 
thể gửi yêu cầu tới dịch vụ và nhận kết quả phản hồi. 
Trong tương lai, ứng dụng có thể cải tiến theo các hướng thu thập thêm dữ liệu 
để huấn luyện để xây dựng các mô hình có khả năng xử lý các đầu vào đa dạng hơn. 
Ngoài ra, hệ thống hiện tại mới thử nghiệm loại văn bản bài viết diễn đàn. Do đó, hệ 
thống cũng có thể mở rộng thu thập thêm nhiều loại dữ liệu khác để xây dựng các 
136 
mô hình đặc thù theo loại văn bản như blog, email, mạng xã hội, bình luận/đánh giá, 
v.v. 

File đính kèm:

  • pdfluan_an_mot_so_phuong_phap_hoc_may_xac_dinh_dac_diem_nguoi_d.pdf
  • pdf2 Totat Luanan_DucDT.pdf
  • pdf3 Trang thong tin LA_DucDT (TV).pdf
  • pdf4 Trang thong tin LA_DucDT (TA).pdf