Hệ tư vấn dựa trên phân tích hàm ý thống kê

Vấn đề quá tải thông tin (information overload) [6] thật sự trở nên phổ biến

với sự phát triển mạnh mẽ của Internet và các mạng xã hội, lƣợng thông tin mà con

ngƣời đƣợc tiếp cận đang ngày càng mở rộng. Mỗi ngày, chúng ta sẽ tiếp xúc với

nhiều nguồn thông tin: các thông tin trao đổi qua email, các bài báo trên mạng

Internet, các bài đăng tải trên mạng xã hội, các thông tin quảng cáo từ các trang

thƣơng mại điện tử. Với sự mở rộng thông tin từ Internet và các mạng xã hội nhƣ

hiện này, việc lựa chọn thông tin hữu ích để ra quyết định của ngƣời dùng máy tính

và các thiết bị thông minh sẽ ngày một khó khăn hơn. Mô hình tƣ vấn

(recommender models) [27] đƣợc xem là một giải pháp hỗ trợ ngƣời dùng lựa chọn

thông tin hiệu quả và đƣợc ứng dụng rộng rãi trong nhiều lĩnh vực.

pdf 141 trang dienloan 16820
Bạn đang xem 20 trang mẫu của tài liệu "Hệ tư vấn dựa trên phân tích hàm ý thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Hệ tư vấn dựa trên phân tích hàm ý thống kê

Hệ tư vấn dựa trên phân tích hàm ý thống kê
 BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 
PHAN QUỐC NGHĨA 
HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý 
THỐNG KÊ 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Đà Nẵng - Năm 2018 
ii 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 
PHAN QUỐC NGHĨA 
HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý 
THỐNG KÊ 
Chuyên ngành: Khoa học máy tính 
 Mã số: 62.48.01.01 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Cán bộ hƣớng dẫn: 
1. PGS. TS. Huỳnh Xuân Hiệp 
2. TS. Đặng Hoài Phƣơng 
Đà Nẵng - Năm 2018 
i 
LỜI CAM ĐOAN 
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự 
hướng dẫn của PGS.TS. Huỳnh Xuân Hiệp và TS. Đặng Hoài Phương. Tôi cam 
đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không 
sao chép từ bất kỳ công trình nghiên cứu nào khác. Một số kết quả nghiên cứu là 
thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng trong luận án. 
Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ. 
Tác giả 
Phan Quốc Nghĩa 
ii 
MỤC LỤC 
LỜI CAM ĐOAN ........................................................................................................ i 
MỤC LỤC ................................................................................................................... ii 
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT ..................................................... vi 
DANH MỤC CÁC BẢNG ...................................................................................... viii 
DANH MỤC CÁC HÌNH ........................................................................................... x 
MỞ ĐẦU ..................................................................................................................... 1 
1. Tính cấp thiết của luận án ............................................................................ 1 
2. Mục tiêu, phƣơng pháp, đối tƣợng và phạm vi nghiên cứu của luận án ...... 3 
3. Các đóng góp của luận án ............................................................................ 4 
4. Bố cục của luận án ....................................................................................... 5 
CHƢƠNG 1. TỔNG QUAN ....................................................................................... 9 
1.1. Phân tích hàm ý thống kê ..................................................................................... 9 
1.2. Khuynh hƣớng biến thiên hàm ý thống kê ......................................................... 11 
1.3. Mô hình tƣ vấn ................................................................................................... 13 
1.3.1. Các khái niệm cơ bản ............................................................................. 13 
1.3.2. Mô hình tƣ vấn dựa trên lọc nội dung .................................................... 14 
 1.3.2.1. Bài toán tƣ vấn lọc nội dung ............................................................ 14 
 1.3.2.2. Các nhƣợc điểm của mô hình tƣ vấn dựa trên lọc nội dung............. 16 
1.3.3. Mô hình tƣ vấn dựa trên lọc cộng tác ..................................................... 17 
 1.3.3.1. Bài toán tƣ vấn dựa trên lọc cộng tác ............................................... 18 
 1.3.3.2. Lọc cộng tác dựa trên bộ nhớ ........................................................... 18 
 1.3.3.3. Lọc cộng tác dựa trên mô hình ......................................................... 20 
 1.3.3.4. Các nhƣợc điểm của mô hình tƣ vấn lọc cộng tác ........................... 20 
1.3.4. Mô hình tƣ vấn dựa trên các đặc tính nhân khẩu học ............................. 21 
1.3.5. Mô hình tƣ vấn dựa trên tri thức ............................................................ 22 
1.3.6. Mô hình tƣ vấn dựa trên luật kết hợp ..................................................... 24 
1.3.7. Mô hình tƣ vấn dựa trên phân tích hàm ý thống kê ............................... 25 
iii 
1.3.8. Mô hình tƣ vấn tích hợp ......................................................................... 26 
1.4. Đánh giá mô hình tƣ vấn .................................................................................... 27 
1.4.1. Phƣơng pháp xây dựng dữ liệu đánh giá ................................................ 28 
1.4.2. Phƣơng pháp đánh giá mô hình tƣ vấn ................................................... 29 
 1.4.2.1. Đánh giá dựa trên giá trị xếp hạng dự đoán ..................................... 29 
 1.4.2.2. Đánh giá dựa trên kết quả tƣ vấn ..................................................... 29 
1.5. Ứng dụng của mô hình tƣ vấn ............................................................................ 30 
1.6. Hƣớng phát triển của mô hình tƣ vấn ................................................................ 31 
1.7. Kết luận chƣơng 1 .............................................................................................. 32 
CHƢƠNG 2. PHÂN LỚP ĐỘ ĐO HẤP DẪN KHÁCH QUAN THEO THAM SỐ 
HÀM Ý THỐNG KÊ ................................................................................................ 34 
2.1. Độ đo hấp dẫn khách quan ................................................................................. 34 
2.2. Phân lớp độ đo hấp dẫn khách quan ................................................................... 36 
2.2.1. Phân lớp độ đo dựa trên khảo sát các thuộc tính .................................... 36 
2.2.2. Phân lớp độ đo dựa trên khảo sát các hành vi ........................................ 37 
2.3. Phân lớp độ đo hấp dẫn khách quan theo tham số hàm ý thống kê ................... 37 
2.3.1. Quy tắc xác định giá trị biến thiên của độ đo dựa trên đạo hàm riêng ... 38 
2.3.2. Quy tắc phân lớp độ đo dựa trên thuộc tính biến thiên .......................... 40 
2.4. Kết quả phân lớp các độ đo hấp dẫn khách quan bất đối xứng .......................... 41 
2.4.1. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................... 43 
2.4.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 45 
2.4.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 47 
2.4.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n .............. 48 
2.5. So sánh và đánh giá kết quả phân lớp theo tham số hàm ý thống kê ................. 51 
2.6. Kết luận chƣơng 2 .............................................................................................. 52 
CHƢƠNG 3. MÔ HÌNH TƢ VẤN DỰA TRÊN CHỈ SỐ HÀM Ý THỐNG KÊ .... 53 
3.1. Luật kết hợp dựa trên thuộc tính quyết định ...................................................... 53 
3.1.1. Định nghĩa luật kết hợp dựa trên thuộc tính quyết định ......................... 53 
3.1.2. Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định .................. 54 
iv 
3.2. Tham số hàm ý thống kê của luật kết hợp ......................................................... 56 
3.2.1. Tham số hàm ý thống kê ........................................................................ 56 
3.2.2. Tham số hàm ý thống kê dựa trên ma trận nhị phân .............................. 57 
3.2.2.1. Chuyển tập dữ liệu giao dịch sang ma trận thƣa nhị phân .............. 57 
 3.2.2.2. Chuyển tập luật kết hợp sang ma trận thƣa nhị phân ...................... 58 
 3.2.2.3. Xác định giá trị cho các tham hàm ý thống kê của từng luật kết hợp59 
3.3. Tính giá trị chỉ số hàm ý thống kê và giá trị đạo hàm riêng dựa trên các tham số 
hàm ý thống kê .......................................................................................................... 61 
3.4. Mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê................................................. 61 
3.4.1. Định nghĩa mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê .................. 61 
3.4.2. Thuật toán tƣ vấn dựa trên chỉ số hàm ý thống kê ................................. 63 
3.5. Thực nghiệm ...................................................................................................... 64 
3.5.1. Dữ liệu thực nghiệm ............................................................................... 64 
3.5.2. Đánh giá độ chính xác của mô hình trên tập dữ liệu chuẩn ................... 67 
3.5.3. Đánh giá độ chính xác của mô hình trên tập dữ liệu thực ...................... 68 
3.6. Kết luận chƣơng 3 .............................................................................................. 72 
CHƢƠNG 4. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN CƢỜNG ĐỘ HÀM 
Ý THỐNG KÊ............................................................................................................ 73 
4.1. Luật kết hợp dựa trên cƣờng độ hàm ý thống kê ............................................... 73 
4.1.1. Định nghĩa luật kết hợp dựa trên cƣờng độ hàm ý thống kê .................. 73 
4.1.2. Thuật toán sinh luật kết hợp dựa trên cƣờng độ hàm ý thống kê ........... 74 
4.2. Mô hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê ...................... 76 
4.2.1. Định nghĩa mô hình tƣ vấn dựa trên cƣờng độ hàm ý thống kê ............. 76 
4.2.2. Thuật toán tƣ vấn dựa trên cƣờng độ hàm ý thống kê ............................ 78 
4.2.3. Đánh giá độ chính xác của mô hình ....................................................... 79 
4.3. Thực nghiệm ...................................................................................................... 81 
4.3.1. Dữ liệu thực nghiệm ............................................................................... 81 
4.3.2. So sánh độ chính xác của mô hình trên dữ liệu xếp hạng dạng nhị phân 
và dữ liệu xếp hạng dạng số thực .................................................................. 81 
v 
4.3.3. Độ chính xác của mô hình so với các mô hình tƣ vấn lọc cộng tác khác82 
4.4. Kết luận chƣơng 4 .............................................................................................. 84 
CHƢƠNG 5. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN TƢƠNG 
ĐỒNG HÀM Ý THỐNG KÊ .................................................................................... 85 
5.1. Độ đo tƣơng đồng dựa trên cƣờng độ hàm ý thống kê ...................................... 85 
5.1.1. Độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ....................... 86 
5.1.2. Thuật toán đo độ tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ...... 86 
5.1.3. Tính chất của độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng . 87 
5.2. Mô hình tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê ................... 89 
5.2.1. Định nghĩa mô hình tƣ vấn dựa trên tƣơng đồng hàm ý thống kê ......... 89 
5.2.2. Thuật toán tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê .... 90 
5.3. Thực nghiệm ...................................................................................................... 92 
5.3.1. Dữ liệu thực nghiệm ............................................................................... 92 
5.3.2. Đánh giá mô hình trên dữ liệu xếp hạng dạng số thực ........................... 92 
5.3.2.1. Đánh giá mô hình dựa trên kết quả xếp hạng ................................. 93 
5.3.2.2. Đánh giá mô hình dựa trên kết quả tƣ vấn ...................................... 94 
5.3.3. Đánh giá mô hình trên dữ liệu xếp hạng dạng nhị phân ........................ 94 
5.4. Kết luận chƣơng 5 .............................................................................................. 97 
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................ 98 
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 
TÀI LIỆU THAM KHẢO 
PHỤ LỤC 
vi 
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT 
Thuật ngữ Tiếng Anh Viết tắt 
Phân tích hàm ý thống kê Statistical implicative analysis ASI 
Khuynh hƣớng biến thiên hàm ý 
thống kê 
Tendency of variation in statistical 
implications 
Độ đo hấp dẫn khách quan Objective interestingness measures 
Độ đo hấp dẫn chủ quan Subjective interestingness measures 
Độ đo chỉ số hàm ý thống kê Implication index 
Độ đo cƣờng độ hàm ý thống kê Implication intensity 
Độ đo tƣơng đồng Similarity measures 
Độ đo tƣơng đồng hàm ý thống 
kê 
Statistical implicative similarity 
measures 
Hệ tƣ vấn Recommender systems RS 
Mô hình tƣ vấn Recommender models RM 
Mô hình tƣ vấn dựa trên lọc nội 
dung 
Content-based recommender models CB 
Hồ sơ ngƣời dùng User profile 
Mô hình tƣ vấn dựa trên lọc 
cộng tác 
Collaborative filtering recommender 
models 
CF 
Mô hình tƣ vấn lọc cộng tác dựa 
trên ngƣời dùng 
User-based collaborative filtering 
recommender models 
UBCF 
Mô hình tƣ vấn lọc cộng tác dựa 
trên sản phẩm 
Item-based collaborative filtering 
recommender models 
IBCF 
Mô hình tƣ vấn dựa trên luật kết 
hợp 
Recommender based on association 
rule models 
AR 
Mô hình tƣ vấn dựa trên đặc tính 
nhân khẩu học 
Demographic recommender models DRM 
Mô hình tƣ vấn dựa trên tri thức 
Knowledge-based recommender 
models 
KRM 
vii 
Mô hình tƣ vấn dựa trên phân 
tích hàm ý thống kê 
Recommender model based on 
statistical implicative analysis 
ASICF 
Mô hình tƣ vấn tích hợp Hybrid recommender models HRM 
Mô hình tƣ vấn dựa trên tính 
toán thông minh 
Computational Intelligence-based 
recommender models 
CIRM 
Mô hình tƣ vấn dựa trên mạng 
xã hội 
Social network-based recommender 
models 
SNRM 
Mô hình tƣ vấn dựa trên ngữ 
cảnh 
Context awareness-based 
recommender models 
CARM 
Đánh giá dựa trên giá trị xếp 
hạng 
Evaluation based on the ratings 
Đánh giá dựa trên kết quả tƣ vấn 
Evaluation based on 
recommendation results 
viii 
DANH CÁC MỤC BẢNG 
Bảng 1.1. Ma trận hỗn độn ........................................................................................ 30 
Bảng 2.1. Kết quả khảo sát các độ đo dựa trên đạo hàm riêng 4 tham số ................ 42 
Bảng 2.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ..................... 43 
Bảng 2.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ................... 45 
Bảng 2.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ................... 47 
Bảng 2.5. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ̅ ................. 49 
Bảng 3.1. Tập dữ liệu phân nhóm thí sinh ................................................................ 55 
Bảng 3.2. Kết quả sinh tập phổ biến 1 phần tử ......................................................... 55 
Bảng 3.3. Kết quả sinh tập phổ biến 2 phần tử ......................................................... 55 
Bảng 3.4. Kết quả sinh tập phổ biến 3 phần tử ......................................................... 56 
Bảng 3.5. Kết quả sinh luật kết hợp dựa trên thuộc tính quyết định ......................... 56 
Bảng 3.6. Kết quả chuyển từ dữ liệu giao dịch sang dạng ma trận nhị phân ............ 57 
Bảng 3.7. Kết quả chuyển từ luật kết hợp sang dạng ma trận nhị phân .................... 58 
Bảng 3.8. Kết quả chuyển vế trái của luật kết hợp sang dạng ma trận nhị phân ...... 59 
Bảng 3.9. Kết quả chuyển vế phải của luật kết hợp sang dạng ma trận nhị phân ..... 59 
Bảng 3.10. Giá trị các tham số ... rences on Web Intelligence and Intelligent Agent 
Technologies, WI-IAT '09., IET, pp. 187-190. 
[50] L. Geng and H. J. Hamilton (2006), “Interestingness measures for data mining: A 
survey”, ACM Computing Surveys, Vol. 38, pp. 1-32. 
[51] M. Bjelica (2010), “Towards TV recommender system: experiments with user 
modeling”, IEEE Transactions on Consumer Electronics, 56, pp. 1763-1769. 
[52] M. Nilashi, O.b. Ibrahim, N. Ithnin (2014), “Multi-criteria collaborative filtering 
with high accuracy using higher order singular value decomposition and Neuro-
Fuzzy system”, Knowledge-Based Systems, 60, pp. 82-101. 
[53] M. Pazzani (1999), “A framework for collaborative, content-based and 
demographic filtering”, Artificial Intelligence Review, 13, pp. 5-6. 
[54] M. Pazzani, D. Billsus (2007), “Content-based recommendation systems”, in: P. 
Brusilovsky, A. Kobsa, W. Nejdl (Eds.) The Adaptive Web, Springer Berlin 
Heidelberg2007, pp. 325-341. 
[55] M.A. Ghazanfar, A. Prügel-Bennett (2014), “Leveraging clustering approaches to 
solve the gray-sheep users problem in recommender systems”, Expert Systems 
with Applications, 41, pp. 3261-3275. 
[56] M.A. Goncalves, E.A. Fox, L.T. Watson (2004), “N.A. Kipp, Streams, structures, 
spaces, scenarios, societies (5s): a formal model for digital libraries”, ACM 
Transactions on Information Systems (TOIS), 22, pp. 270-312. 
[57] Martin P. Robillard, Walid Maalej, Robert J. Walker and Thomas Zimmermann 
(2014), Recommendation Systems in Software Engineering, Springer 
Heidelberg New York Dordrecht London, ISBN 978-3-642-45135-5. 
[58] Michael D. Ekstrand, John T. Riedl and Joseph A. Konstan (2010), 
“Collaborative Filtering Recommender Systems”, Foundations and Trends in 
Human–Computer Interaction, Vol. 4, No. 2, pp. 81-173. 
[59] Michael Hahsler (2011), “recommenderlab: A Framework for Developing and 
Testing Recommendation Algorithms”, The Intelligent Data Analysis Lab at 
SMU,  
[60] Michael Hahsler (2015), Lab for Developing and Testing Recommender 
Algorithms, Copyright (C) Michael Hahsler (PCA and SVD implementation (C) 
Saurabh Bathnagar),  
[61] Nick Littlestone (1988), "Learning Quickly When Irrelevant Attributes Abound: 
A New Linear-threshold Algorithm", Machine Learning, Vol.2, pp. 285-318. 
[62] O.C. Santos, J.G. Boticario, D. Pérez-Marín (2014), “Extending web-based 
educational systems with personalised support through user centred designed 
recommendations along the e-learning life cycle”, Science of Computer 
Programming, 88, pp. 92-109. 
[63] P. Lenca, P. Meyer, B. Vaillant, and S. Lallich (2004), “A multicriteria decision 
aid for interestingness measures selection”, LUSSI-TR-2004-01-EN, pp. 1-27. 
[64] P. Lenca, P. Meyer, B. Vaillant, and S. Lallich (2008), “On selecting 
interestingness measures for association rules: user oriented description and 
multiple criteria decision aid”, European Journal of Operational Research, Vol. 
184, Issue. 2, pp. 610-626. 
[65] P. N. Tan, M. Steinbach & V. Kumar (2005), Introduction to Data Mining, 
Addison-Wesley, ISBN 0-321-32136-7, chapter 8; page 500. 
[66] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, and J. Riedl (1994), 
“GroupLens: an open architecture for collaborative filtering of netnews”, ACM 
CSCW ’94, pp. 175-186. 
[67] Q. Shambour, J. Lu (2011), “A hybrid trust-enhanced collaborative filtering 
recommendation approach for personalized government-to-business e-services”, 
International Journal of Intelligent Systems, 26, pp. 814-843. 
[68] Q. Shambour, J. Lu (2012), “A trust-semantic fusion-based recommendation 
approach for e-business applications”, Decision Support Systems, 54, pp. 768-
780.
[69] R. Burke (2000), “Knowledge-based recommender systems”, Encyclopedia of 
Library and Information Systems, 69, pp. 175-186. 
[70] R. Agrawal and R. Srikant (1994), “Fast algorithms for mining association rules”, 
VLDB'94 - Proceedings of the 20th International Conference on Very Large 
Data Bases, pp. 487-499. 
[71] R. Burke (2007), “Hybrid web recommender systems”, in: P. Brusilovsky, A. 
Kobsa, W. Nejdl (Eds.) The Adaptive Web, Springer-Verlag, Berlin 
Heidelberg2007, pp. 377-408. 
[72] R. Gras (1996), L’implication statistique – Nouvelle méthode exploratoire de 
données, La pensée sauvage édition. 
[73] R. Gras and P. Kuntz (2008), “An overview of the Statistical Implicative 
Analysis (SIA) development”, Statistical Implicative Analysis - Studies in 
Computational Intelligence, Springer-Verlag, 127, pp. 11-40. 
[74] R. Gras, Pascale Kuntz, and Nicolas Greffard (2015), “Notion of Implicative 
Fields in Statistical Implicative Analysis”, VIII Colloque International - VIII 
International Conference A.S.I. Analyse Statistique Implicative - Statistical 
Implicative Analysis Radès (Tunisie) - Novembre 2015, pp. 29-46. 
[75] S. Guillaume, D. Grissa, E. M. Nguifo (2012), “Categorization of interestingness 
measures for knowledge extraction”, journals/corr/abs-1206-6741, pp. 1-34. 
[76] S.K. Shinde, U. Kulkarni (2012), “Hybrid personalized recommender system 
using centering-bunching based clustering algorithm”, Expert Systems with 
Applications, 39, pp. 1381-1387. 
[77] T. Chellatamilan, and R. Suresh (2011), “An e-Learning Recommendation 
System using Association Rule Mining Technique”, European Journal of 
Scientific Research, Vol. 64, No. 2, pp. 330-339. 
[78] T. Nguyen, H. Lu, and J. Lu (2013), “Web-page recommendation based on web 
usage and domain knowledge”, IEEE Transactions on Knowledge and Data 
Engineering, Vol. 26, No. 10, pp. 1041-4347. 
[79] Ujwala H. Wanaskar, Sheetal R. Vij, Debajyoti Mukhopadhyay (2013), “A 
Hybrid Web Recommendation System Based on the Improved Association Rule 
Mining Algorithm”, Journal of Software Engineering and Applications, 6, 
pp.396-404. 
[80] W. Woerndl, M. Brocco, R. Eigner (2009), “Context-aware recommender 
systems in mobile scenarios”, International Journal of Information Technology 
and Web Engineering (IJITWE), 4, pp. 67-85. 
[81] W.-S. Yang, S.-Y. Hwang (2013), “iTravel: a recommender system in mobile 
peer-to-peer environment”, Journal of Systems and Software, 86, pp. 12-20. 
[82] X. Amatriain, A. Jaimes, N. Oliver, J. Pujol (2011), Data mining methods for 
recommender systems, in: F. Ricci, L. Rokach, B. Shapira, P.B. Kantor (Eds.) 
Recommender Systems Handbook, Springer US2011, pp. 39-71. 
[83] Xiaoyuan Su and Taghi M. Khoshgoftaar (2009), “A Survey of Collaborative 
Filtering Techniques”, Advances in Artificial Intelligence archive, Vol. 
2009, Article No. 4, pp. 1-20. 
[84] Xuan-Hiep Huynh, Fabrice Guillet, Julien Blanchard, Pascale Kuntz, Henri 
Briand, Regis Gras (2007), “A graph-based clustering approach to evaluate 
interestingness measures: a tool and a comparative study” (Chapter 2), Quality 
Measures in Data Mining, Springer-Verlag, pp. 25-50. 
[85] Z. Zhang, H. Lin, K. Liu, D. Wu, G. Zhang, and J. Lu (2013), “A hybrid fuzzy-
based personalized recommender system for telecom products/services”, 
Information Sciences, 235, pp. 117-129. 
PHỤ LỤC 
Phụ lục 1: Các độ đo hấp dẫn khách quan bất đối xứng 
TT Tên độ đo Công thức tính theo 4 tham số ̅ 
1. 1-way Support 
 ̅
 ̅ 
2. 
Added value, 
Pavillon, 
Centred 
Confidence, 
Dependency 
 ̅
3. 
Bayes factor, 
Odd multiplier 
 ̅ ̅
 ̅
4. 
Causal-
Confidence 
(
) ̅ 
5. 
Causal-
Confirmed 
confidence 
(
) ̅ 
6. 
Loevinger, 
Certainty 
Factor, 
Satisfaction 
 ̅
7. 
 Relative Risk , 
Class 
correlation 
ratio 
 ̅ 
 ̅ 
8. 
Collective 
strength 
 ̅ ̅ 
 ̅ 
9. Confidence 
 ̅
10. Causal Confirm 
 ̅
11. Conviction 
 ̅
12. Coverage 
13. 
Descriptive 
Confirmed-
Confidence, 
Ganascia Index 
 ̅
14. 
Descriptive-
Confirm 
 ̅
15. 
Entropic 
Implication 
Intensity 1 
√ (( | 
 )( ̅| ̅
 ))
 with (α=1) and 
 | 
 ̅
 ̅ 
 ̅
 ̅
Where II is Inplication intensity 
16. 
Entropic 
Implication 
Intensity 2 
√ (( | 
 )( ̅| ̅
 ))
 with (α=2) and 
 | 
 ̅
 ̅ 
 ̅
 ̅
17. 
Examples and 
counter-
examples rate 
(Exam-Cex-
rate, 
Excounterex 
rate) 
 ̅
 ̅
18. Gain, Fukuda 
 ̅
19. Gini index 
 ̅ 
 ̅
 ̅ 
 ̅ 
20. 
Goodman–
Kruskal 
 where 
 (
 ̅
 ̅
)
 (
 ̅
 ̅
)
 (
 ̅
 ̅
)
 (
 ̅
 ̅
) (
)
 (
) 
 (
) (
) 
21. 
Implication 
index 
 ̅ 
 ̅ 
√ 
22. 
Implication Int
ensity (II) 
),(
2
2
2
1
BAq
t
dte
 hoặc ∑
 ̅
23. 
Probabilistic 
measures of 
deviation from 
equilibrium 
(IPEE),Indice 
Probabiliste 
d’Ecart 
d’Equilibre 
∑ 
 ̅
24. 
Directed 
Information 
ratio(DIR) 
{
 ̅
 ̅
 ̅
 ̅
 ̅
 ̅
 ̅
 ̅
 ̅
 ̅
 ̅
 ̅
25. MGK, Ion 
{
 ̅
 ̅
 ̅ 
26. J-measures 
 ̅
 ̅ 
 ̅
 ̅
27. Klosgen √
 ̅
(
 ̅
) 
28. K-measures (
 ̅
 ̅
) 
29. 
Kulczynski 
index 
 ̅ 
(
) 
30. Laplace 
 ̅ 
31. 
Least 
contradiction 
 ̅
32. 
Leverage, 
Leverage 1 
 ̅
33. 
Mutual 
Information 
MI, 2-way 
Support 
Variation 
 ̅
 ̅ 
 ̅
 ̅
 ̅
 ̅ 
 ̅
 ̅ 
34. Prevalence 
35. 
Putative Causal 
Dependency 
 (
) ̅ 
36. 
Recall, 
Completeness 
 ̅
37. 
Sebag and 
Schoenauer 
 ̅
38. 
Specificity 1, 
Negative 
Reliability 
 ̅
39. Zhang Zhang 
 ̅
 ̅ ̅ 
Phụ lục 2: Công thức đạo hàm riêng của các độ đo theo tham số n 
TT Đạo hàm riêng theo tham số n 
1 
 ̅
2 
3 
 ̅
 ̅
4 
 ̅
5 
 ̅
6 
 ̅
7 
 ̅ 
 ̅ 
8 
 ̅ ( ( ) ̅ ) ( ) ̅ 
(( ) ̅ )
 ̅ ( ( ) ̅ ) 
 ̅ 
9 0 
10 
 ̅
11 
 ̅ 
12 
13 0 
14 
 ̅
15 
 ( ( 
)( ( 
 )))
 √ 
 ( 
)( 
 ( 
)) 
16 
 ( ( 
)
) 
 √ 
 ( 
)
( 
 ( 
)
) 
 ( ( 
) 
 ) 
17 0 
18 
 ̅
19 
 ̅ 
 ̅
 ̅ 
 ̅ ̅ 
20 
 where 
 (
 ̅
 ̅
 ̅
 ̅
) ( 
 (
) (
))
 ( (
 ̅
 ̅
) (
 ̅
 ̅
)
 (
 ̅
 ̅
) (
 ̅
 ̅
)
 (
) (
))( 
) 
 (
) (
) 
21 
 √ 
( ̅ 
) 
22 ∑
 ̅
23 0 
24 
{
25 
{
 ̅ 
 ̅
 ̅ 
26 
 ̅
 ̅ 
 ̅
( 
 ̅
) 
27 
(
 ̅
 √
 ̅
(
 ̅
)
)
 (√
 ̅
) (
) 
28 
( 
 ̅ 
) 
 (
 ̅
 ̅
) (
) 
29 0 
30 0 
31 0 
32 
33 
 ̅
 ̅ 
 ̅ 
 ̅ 
 ̅
 ̅
 ̅
 ̅ 
 ̅ ̅ 
 ̅ 
 ̅
 ̅ 
 ̅ ̅ 
 ̅ 
34 
35 
 ̅
36 0 
37 0 
38 
 ̅
39 
 ̅ ( ̅ ̅) ̅ ̅ 
 ( ̅ ̅) 
Phụ lục 3: Công thức đạo hàm riêng của các độ đo theo tham số 
TT Đạo hàm riêng theo tham số 
1 
 ̅
 ̅ 
2 
 ̅
3 
 ̅
4 
 ̅
5 
 ̅
6 
 ̅
7 
 ̅ ̅ ̅
 ̅ 
8 
 ̅ ̅ ( ) ̅ 
(( ) ̅ )
 ( ̅ )( ( ) ̅ 
 )( ) ̅ 
9 
 ̅
10 
11 
 ̅
12 
13 
 ̅
14 
15 
 ((
 ) ( ( 
)))
 √ ( ( 
) ( ( 
)))
 ( 
)( 
 ( 
)) 
16 
 (( ( 
)
) )
 √ 
 ( 
)
( 
 ( 
)
) 
 ( 
)( 
 ) 
17 
 ̅
 ̅ 
18 
19 
 ̅ ̅ 
 ̅
 ̅ ̅ 
 ̅ 
20 
 where 
 (
)( (
) (
))
 ( (
 ̅
 ̅
) (
 ̅
 ̅
)
 (
 ̅
 ̅
) (
 ̅
 ̅
)
 (
) (
)) 
 (
) (
) 
21 
A
B
AB
BA
n
nn
n
n
n
nn
n 
2
1
)(
2
1
2
3
22 ∑
 ̅
23 
∑
 ̅
24 
{
25 
{
 ̅
 ̅
 ̅ ̅ 
26 
 ̅ 
 ̅
 ̅
27 
(
 √
 ̅
(
 ̅
)
)
 √
 ̅
(
 ̅
) 
28 (
 ̅ 
 ̅
) 
29 
(
 ̅
 ) 
30 
 ̅
31 
32 
 ̅
33 
 ̅ 
 ̅
 ̅
 ̅ 
 ̅
 ̅ 
 ̅ 
 ̅
( ̅ ) 
34 0 
35 
 ̅
36 
37 
 ̅
38 
 ̅
39 
 ( ̅ ̅) ̅ 
 ( ̅ ̅) 
Phụ lục 4: Công thức đạo hàm riêng của các độ đo theo tham số 
TT Đạo hàm riêng theo tham số 
1 
 ̅
2 
3 
 ̅
 ̅
4 
 ̅
5 
 ̅
6 
 ̅
7 
 ̅ 
 ̅ 
8 
 ( ̅ ) 
(( ) ̅ )
 ( ( ) ̅ ) ( ) 
 ̅ 
 ̅ ̅ ( ) 
 ( ̅ ) ̅ 
9 
10 
11 
 ̅
12 
13 
14 
15 
 ( ( 
) ((
 ))
)
 √ ( ( 
) ( ( 
)))
 ( 
)( 
 ( 
)) 
16 
 ( ( 
)
 )
 √ ( ( 
)
( ( 
)
))
 ( 
)
( 
 ( 
)
) 
 ( ( 
)( 
 )) 
17 
18 
19 
 ̅ ̅ 
20 
 (
)( (
) (
)) (
 ̅
 ̅
)
 (
 ̅
 ̅
)
 (
 ̅
 ̅
) (
 ̅
 ̅
)
 (
) (
) 
 (
) (
) 
21 2
1
2
1
2
3
2
1
)()(
2
1
)()(
2
1 
 B
A
B
A
BA
nn
n
n
nn
n
n
n
22 ∑
 ̅
23 
24 
{
25 
{
 ̅
 ̅
 ̅ 
26 
 ̅
 ̅
27 
√
 ̅
28 
(
) 
 (
 ̅
 ̅
) (
) 
29 (
 ̅
 ) 
30 
31 
 ̅
32 
33 
 ̅
 ̅
 ̅ 
 ̅
(
 ̅
 ̅ 
)
 ̅ 
 ̅
 ̅ 
 ̅ 
34 
35 
 ̅
36 
 ̅
37 
38 
39 
 ̅ 
 ( ̅ ̅) 
Phụ lục 5: Công thức đạo hàm riêng của các độ đo theo tham số ̅ 
TT Đạo hàm riêng theo tham số ̅ 
1 
 ̅ 
 ̅ 
2 
3 
 ̅
4 
(
) 
5 
(
) 
6 
7 
 ̅ 
8 
 ( )
(( ) ̅ )
 ( ) ( ( ) ̅ ) 
 ̅ ̅ ̅ ( ) 
 ̅ ̅ 
9 
10 
11 
 ̅
12 
13 
14 
15 
 ( ( ( 
) ((
 ))))
 √ ( ( 
) ( ( 
)))
 ( 
)( 
 ( 
)) 
 (( 
 )( 
 ( 
))) 
16 
 ( ( 
)
 )
 √ ( ( 
)
( ( 
)
))
 ( 
)
( 
 ( 
)
) 
 ( 
) (
 )( 
 ( 
)
) 
 ( ( 
) ( 
 )) 
17 
 ̅ 
18 
19 
 ̅ ̅
 ̅ ̅ 
20 
 ( (
) (
) (
) (
)) 
 (
) (
) 
21 
n
nnn BA )(
1
22 ∑
 ̅ 
23 
24 
{
25 {
 ̅
26 
 ̅ 
 ̅
27 
 √
 ̅
(
 ̅
) 
√
 ̅
28 (
) 
29 
(
) 
30 
31 
32 
33 
 ̅ 
 ̅
 ̅ 
 ̅
 ̅ 
 ̅
 ̅ 
 ̅ 
 ̅
 ̅ 
34 
35 (
) 
36 
37 
 ̅
38 
39 
 ( ̅ ̅) ̅ 
 ( ̅ ̅) 
Phụ lục 6: Bộ công cụ ARQAT trên ngôn ngữ R 
Kiến trúc tổng thể: 
Các thành phần chính của ARQAT: 
- Data: là dữ liệu sử dụng cho thực nghiệm. Dữ liệu thực nghiệm có thể là dữ 
liệu giao dịch hoặc ma trận xếp hạng. 
- Data proceesing: là các hàm tiện ích dùng để xử lý dữ liệu cho thực nghiệm 
các mô hình tƣ vấn và đánh giá các mô hình tƣ vấn. 
- Apriori algorithm: hàm sinh luật kết hợp dựa trên ngƣỡng độ đo Support và 
độ đo Confidence. 
- IIsRule algorithm: hàm sinh luật kết hợp dựa trên ngƣỡng độ đo cƣờng độ 
hàm ý thống kê (Implication intensity). 
- Cardinality: chức năng xác định giá trị cho các tham số hàm ý thống kê. 
Mỗi luật kết hợp sẽ có một bộ gồm 4 tham số { ̅}. Cardinality 
sinh ra một ma trận chứa giá trị các tham số hàm ý thống kê của toàn bộ tập luật kết 
hợp với mỗi dòng của ma trận là bộ các tham số của một luật kết hợp. 
- Utility: là tập các hàm tiện ích đƣợc sử dụng bởi chức năng Cardinality. 
Apriori 
algorithm 
Data 
proceesing 
Cardinality 
Interest 
Values 
Interest 
Measures 
Application 
- Recommendation models 
- Evaluation models 
ARQAT TOOLS 
A
sso
ciatio
n
ru
les 
Utility 
IIsRule 
algorithm 
Data 
- Interest Values: chức năng xác định giá trị hấp dẫn của luật kết hợp trên các 
độ đo đƣợc lựa chọn. Mỗi luật kết hợp sẽ có một giá trị hấp dẫn theo độ đo 
hấp dẫn cụ thể. Interest Value sinh ra một ma trận chứa các giá trị hấp dẫn của toàn 
bộ tập luật kết hợp theo các độ đo đƣợc chọn bởi ngƣời sử dụng. Mỗi dòng của ma 
trận lƣu giá trị hấp dẫn của một luật kết hợp theo các độ đo đƣợc chọn. 
- Interest Measures: là các hàm tính giá trị hấp dẫn của từng độ đo cho một 
luật kết hợp . Tổng số hàm độ đo đƣợc cài đặt cho công cụ là 109. Những 
hàm này đƣợc sử dụng bởi InterestValues. 
- Application: là thƣ viện mở lƣu những ứng dụng đƣợc xây dựng dựa trên 
các chức năng chính nêu trên. Hiện tại, công cụ đã cài đặt: các mô hình tƣ vấn trong 
luận án đƣợc cài đặt, các chức năng đánh giá mô hình, các chức năng tích hợp các 
mô hình. Ngƣời sử dụng có thể dùng các cài đặt này trên tập dữ liệu thực tế (chẳng 
hạn: dữ liệu đăng ký học phần, dữ liệu mua hàng hóa, dữ liệu tuyển sinh) để tìm 
danh sách các kết quả tƣ vấn và kết quả đánh giá các mô hình. 

File đính kèm:

  • pdfhe_tu_van_dua_tren_phan_tich_ham_y_thong_ke.pdf
  • pdfPhan Quoc Nghia - Tom tat luan an Tieng Anh.pdf
  • pdfPhan Quoc Nghia - Tom tat luan an Tieng Viet.pdf
  • pdfPhan Quoc Nghia - Trich yeu luan an.pdf
  • pdfPhan Quoc Nghia -Nhung dong gop moi cua luan an.pdf