Hệ tư vấn dựa trên phân tích hàm ý thống kê
Vấn đề quá tải thông tin (information overload) [6] thật sự trở nên phổ biến
với sự phát triển mạnh mẽ của Internet và các mạng xã hội, lƣợng thông tin mà con
ngƣời đƣợc tiếp cận đang ngày càng mở rộng. Mỗi ngày, chúng ta sẽ tiếp xúc với
nhiều nguồn thông tin: các thông tin trao đổi qua email, các bài báo trên mạng
Internet, các bài đăng tải trên mạng xã hội, các thông tin quảng cáo từ các trang
thƣơng mại điện tử. Với sự mở rộng thông tin từ Internet và các mạng xã hội nhƣ
hiện này, việc lựa chọn thông tin hữu ích để ra quyết định của ngƣời dùng máy tính
và các thiết bị thông minh sẽ ngày một khó khăn hơn. Mô hình tƣ vấn
(recommender models) [27] đƣợc xem là một giải pháp hỗ trợ ngƣời dùng lựa chọn
thông tin hiệu quả và đƣợc ứng dụng rộng rãi trong nhiều lĩnh vực.
Tóm tắt nội dung tài liệu: Hệ tư vấn dựa trên phân tích hàm ý thống kê
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN QUỐC NGHĨA HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý THỐNG KÊ LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - Năm 2018 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN QUỐC NGHĨA HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý THỐNG KÊ Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Cán bộ hƣớng dẫn: 1. PGS. TS. Huỳnh Xuân Hiệp 2. TS. Đặng Hoài Phƣơng Đà Nẵng - Năm 2018 i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng dẫn của PGS.TS. Huỳnh Xuân Hiệp và TS. Đặng Hoài Phương. Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ công trình nghiên cứu nào khác. Một số kết quả nghiên cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng trong luận án. Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ. Tác giả Phan Quốc Nghĩa ii MỤC LỤC LỜI CAM ĐOAN ........................................................................................................ i MỤC LỤC ................................................................................................................... ii DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT ..................................................... vi DANH MỤC CÁC BẢNG ...................................................................................... viii DANH MỤC CÁC HÌNH ........................................................................................... x MỞ ĐẦU ..................................................................................................................... 1 1. Tính cấp thiết của luận án ............................................................................ 1 2. Mục tiêu, phƣơng pháp, đối tƣợng và phạm vi nghiên cứu của luận án ...... 3 3. Các đóng góp của luận án ............................................................................ 4 4. Bố cục của luận án ....................................................................................... 5 CHƢƠNG 1. TỔNG QUAN ....................................................................................... 9 1.1. Phân tích hàm ý thống kê ..................................................................................... 9 1.2. Khuynh hƣớng biến thiên hàm ý thống kê ......................................................... 11 1.3. Mô hình tƣ vấn ................................................................................................... 13 1.3.1. Các khái niệm cơ bản ............................................................................. 13 1.3.2. Mô hình tƣ vấn dựa trên lọc nội dung .................................................... 14 1.3.2.1. Bài toán tƣ vấn lọc nội dung ............................................................ 14 1.3.2.2. Các nhƣợc điểm của mô hình tƣ vấn dựa trên lọc nội dung............. 16 1.3.3. Mô hình tƣ vấn dựa trên lọc cộng tác ..................................................... 17 1.3.3.1. Bài toán tƣ vấn dựa trên lọc cộng tác ............................................... 18 1.3.3.2. Lọc cộng tác dựa trên bộ nhớ ........................................................... 18 1.3.3.3. Lọc cộng tác dựa trên mô hình ......................................................... 20 1.3.3.4. Các nhƣợc điểm của mô hình tƣ vấn lọc cộng tác ........................... 20 1.3.4. Mô hình tƣ vấn dựa trên các đặc tính nhân khẩu học ............................. 21 1.3.5. Mô hình tƣ vấn dựa trên tri thức ............................................................ 22 1.3.6. Mô hình tƣ vấn dựa trên luật kết hợp ..................................................... 24 1.3.7. Mô hình tƣ vấn dựa trên phân tích hàm ý thống kê ............................... 25 iii 1.3.8. Mô hình tƣ vấn tích hợp ......................................................................... 26 1.4. Đánh giá mô hình tƣ vấn .................................................................................... 27 1.4.1. Phƣơng pháp xây dựng dữ liệu đánh giá ................................................ 28 1.4.2. Phƣơng pháp đánh giá mô hình tƣ vấn ................................................... 29 1.4.2.1. Đánh giá dựa trên giá trị xếp hạng dự đoán ..................................... 29 1.4.2.2. Đánh giá dựa trên kết quả tƣ vấn ..................................................... 29 1.5. Ứng dụng của mô hình tƣ vấn ............................................................................ 30 1.6. Hƣớng phát triển của mô hình tƣ vấn ................................................................ 31 1.7. Kết luận chƣơng 1 .............................................................................................. 32 CHƢƠNG 2. PHÂN LỚP ĐỘ ĐO HẤP DẪN KHÁCH QUAN THEO THAM SỐ HÀM Ý THỐNG KÊ ................................................................................................ 34 2.1. Độ đo hấp dẫn khách quan ................................................................................. 34 2.2. Phân lớp độ đo hấp dẫn khách quan ................................................................... 36 2.2.1. Phân lớp độ đo dựa trên khảo sát các thuộc tính .................................... 36 2.2.2. Phân lớp độ đo dựa trên khảo sát các hành vi ........................................ 37 2.3. Phân lớp độ đo hấp dẫn khách quan theo tham số hàm ý thống kê ................... 37 2.3.1. Quy tắc xác định giá trị biến thiên của độ đo dựa trên đạo hàm riêng ... 38 2.3.2. Quy tắc phân lớp độ đo dựa trên thuộc tính biến thiên .......................... 40 2.4. Kết quả phân lớp các độ đo hấp dẫn khách quan bất đối xứng .......................... 41 2.4.1. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................... 43 2.4.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 45 2.4.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 47 2.4.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n .............. 48 2.5. So sánh và đánh giá kết quả phân lớp theo tham số hàm ý thống kê ................. 51 2.6. Kết luận chƣơng 2 .............................................................................................. 52 CHƢƠNG 3. MÔ HÌNH TƢ VẤN DỰA TRÊN CHỈ SỐ HÀM Ý THỐNG KÊ .... 53 3.1. Luật kết hợp dựa trên thuộc tính quyết định ...................................................... 53 3.1.1. Định nghĩa luật kết hợp dựa trên thuộc tính quyết định ......................... 53 3.1.2. Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định .................. 54 iv 3.2. Tham số hàm ý thống kê của luật kết hợp ......................................................... 56 3.2.1. Tham số hàm ý thống kê ........................................................................ 56 3.2.2. Tham số hàm ý thống kê dựa trên ma trận nhị phân .............................. 57 3.2.2.1. Chuyển tập dữ liệu giao dịch sang ma trận thƣa nhị phân .............. 57 3.2.2.2. Chuyển tập luật kết hợp sang ma trận thƣa nhị phân ...................... 58 3.2.2.3. Xác định giá trị cho các tham hàm ý thống kê của từng luật kết hợp59 3.3. Tính giá trị chỉ số hàm ý thống kê và giá trị đạo hàm riêng dựa trên các tham số hàm ý thống kê .......................................................................................................... 61 3.4. Mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê................................................. 61 3.4.1. Định nghĩa mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê .................. 61 3.4.2. Thuật toán tƣ vấn dựa trên chỉ số hàm ý thống kê ................................. 63 3.5. Thực nghiệm ...................................................................................................... 64 3.5.1. Dữ liệu thực nghiệm ............................................................................... 64 3.5.2. Đánh giá độ chính xác của mô hình trên tập dữ liệu chuẩn ................... 67 3.5.3. Đánh giá độ chính xác của mô hình trên tập dữ liệu thực ...................... 68 3.6. Kết luận chƣơng 3 .............................................................................................. 72 CHƢƠNG 4. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN CƢỜNG ĐỘ HÀM Ý THỐNG KÊ............................................................................................................ 73 4.1. Luật kết hợp dựa trên cƣờng độ hàm ý thống kê ............................................... 73 4.1.1. Định nghĩa luật kết hợp dựa trên cƣờng độ hàm ý thống kê .................. 73 4.1.2. Thuật toán sinh luật kết hợp dựa trên cƣờng độ hàm ý thống kê ........... 74 4.2. Mô hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê ...................... 76 4.2.1. Định nghĩa mô hình tƣ vấn dựa trên cƣờng độ hàm ý thống kê ............. 76 4.2.2. Thuật toán tƣ vấn dựa trên cƣờng độ hàm ý thống kê ............................ 78 4.2.3. Đánh giá độ chính xác của mô hình ....................................................... 79 4.3. Thực nghiệm ...................................................................................................... 81 4.3.1. Dữ liệu thực nghiệm ............................................................................... 81 4.3.2. So sánh độ chính xác của mô hình trên dữ liệu xếp hạng dạng nhị phân và dữ liệu xếp hạng dạng số thực .................................................................. 81 v 4.3.3. Độ chính xác của mô hình so với các mô hình tƣ vấn lọc cộng tác khác82 4.4. Kết luận chƣơng 4 .............................................................................................. 84 CHƢƠNG 5. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN TƢƠNG ĐỒNG HÀM Ý THỐNG KÊ .................................................................................... 85 5.1. Độ đo tƣơng đồng dựa trên cƣờng độ hàm ý thống kê ...................................... 85 5.1.1. Độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ....................... 86 5.1.2. Thuật toán đo độ tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ...... 86 5.1.3. Tính chất của độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng . 87 5.2. Mô hình tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê ................... 89 5.2.1. Định nghĩa mô hình tƣ vấn dựa trên tƣơng đồng hàm ý thống kê ......... 89 5.2.2. Thuật toán tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê .... 90 5.3. Thực nghiệm ...................................................................................................... 92 5.3.1. Dữ liệu thực nghiệm ............................................................................... 92 5.3.2. Đánh giá mô hình trên dữ liệu xếp hạng dạng số thực ........................... 92 5.3.2.1. Đánh giá mô hình dựa trên kết quả xếp hạng ................................. 93 5.3.2.2. Đánh giá mô hình dựa trên kết quả tƣ vấn ...................................... 94 5.3.3. Đánh giá mô hình trên dữ liệu xếp hạng dạng nhị phân ........................ 94 5.4. Kết luận chƣơng 5 .............................................................................................. 97 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................ 98 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ TÀI LIỆU THAM KHẢO PHỤ LỤC vi DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Tiếng Anh Viết tắt Phân tích hàm ý thống kê Statistical implicative analysis ASI Khuynh hƣớng biến thiên hàm ý thống kê Tendency of variation in statistical implications Độ đo hấp dẫn khách quan Objective interestingness measures Độ đo hấp dẫn chủ quan Subjective interestingness measures Độ đo chỉ số hàm ý thống kê Implication index Độ đo cƣờng độ hàm ý thống kê Implication intensity Độ đo tƣơng đồng Similarity measures Độ đo tƣơng đồng hàm ý thống kê Statistical implicative similarity measures Hệ tƣ vấn Recommender systems RS Mô hình tƣ vấn Recommender models RM Mô hình tƣ vấn dựa trên lọc nội dung Content-based recommender models CB Hồ sơ ngƣời dùng User profile Mô hình tƣ vấn dựa trên lọc cộng tác Collaborative filtering recommender models CF Mô hình tƣ vấn lọc cộng tác dựa trên ngƣời dùng User-based collaborative filtering recommender models UBCF Mô hình tƣ vấn lọc cộng tác dựa trên sản phẩm Item-based collaborative filtering recommender models IBCF Mô hình tƣ vấn dựa trên luật kết hợp Recommender based on association rule models AR Mô hình tƣ vấn dựa trên đặc tính nhân khẩu học Demographic recommender models DRM Mô hình tƣ vấn dựa trên tri thức Knowledge-based recommender models KRM vii Mô hình tƣ vấn dựa trên phân tích hàm ý thống kê Recommender model based on statistical implicative analysis ASICF Mô hình tƣ vấn tích hợp Hybrid recommender models HRM Mô hình tƣ vấn dựa trên tính toán thông minh Computational Intelligence-based recommender models CIRM Mô hình tƣ vấn dựa trên mạng xã hội Social network-based recommender models SNRM Mô hình tƣ vấn dựa trên ngữ cảnh Context awareness-based recommender models CARM Đánh giá dựa trên giá trị xếp hạng Evaluation based on the ratings Đánh giá dựa trên kết quả tƣ vấn Evaluation based on recommendation results viii DANH CÁC MỤC BẢNG Bảng 1.1. Ma trận hỗn độn ........................................................................................ 30 Bảng 2.1. Kết quả khảo sát các độ đo dựa trên đạo hàm riêng 4 tham số ................ 42 Bảng 2.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ..................... 43 Bảng 2.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ................... 45 Bảng 2.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ................... 47 Bảng 2.5. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ̅ ................. 49 Bảng 3.1. Tập dữ liệu phân nhóm thí sinh ................................................................ 55 Bảng 3.2. Kết quả sinh tập phổ biến 1 phần tử ......................................................... 55 Bảng 3.3. Kết quả sinh tập phổ biến 2 phần tử ......................................................... 55 Bảng 3.4. Kết quả sinh tập phổ biến 3 phần tử ......................................................... 56 Bảng 3.5. Kết quả sinh luật kết hợp dựa trên thuộc tính quyết định ......................... 56 Bảng 3.6. Kết quả chuyển từ dữ liệu giao dịch sang dạng ma trận nhị phân ............ 57 Bảng 3.7. Kết quả chuyển từ luật kết hợp sang dạng ma trận nhị phân .................... 58 Bảng 3.8. Kết quả chuyển vế trái của luật kết hợp sang dạng ma trận nhị phân ...... 59 Bảng 3.9. Kết quả chuyển vế phải của luật kết hợp sang dạng ma trận nhị phân ..... 59 Bảng 3.10. Giá trị các tham số ... rences on Web Intelligence and Intelligent Agent Technologies, WI-IAT '09., IET, pp. 187-190. [50] L. Geng and H. J. Hamilton (2006), “Interestingness measures for data mining: A survey”, ACM Computing Surveys, Vol. 38, pp. 1-32. [51] M. Bjelica (2010), “Towards TV recommender system: experiments with user modeling”, IEEE Transactions on Consumer Electronics, 56, pp. 1763-1769. [52] M. Nilashi, O.b. Ibrahim, N. Ithnin (2014), “Multi-criteria collaborative filtering with high accuracy using higher order singular value decomposition and Neuro- Fuzzy system”, Knowledge-Based Systems, 60, pp. 82-101. [53] M. Pazzani (1999), “A framework for collaborative, content-based and demographic filtering”, Artificial Intelligence Review, 13, pp. 5-6. [54] M. Pazzani, D. Billsus (2007), “Content-based recommendation systems”, in: P. Brusilovsky, A. Kobsa, W. Nejdl (Eds.) The Adaptive Web, Springer Berlin Heidelberg2007, pp. 325-341. [55] M.A. Ghazanfar, A. Prügel-Bennett (2014), “Leveraging clustering approaches to solve the gray-sheep users problem in recommender systems”, Expert Systems with Applications, 41, pp. 3261-3275. [56] M.A. Goncalves, E.A. Fox, L.T. Watson (2004), “N.A. Kipp, Streams, structures, spaces, scenarios, societies (5s): a formal model for digital libraries”, ACM Transactions on Information Systems (TOIS), 22, pp. 270-312. [57] Martin P. Robillard, Walid Maalej, Robert J. Walker and Thomas Zimmermann (2014), Recommendation Systems in Software Engineering, Springer Heidelberg New York Dordrecht London, ISBN 978-3-642-45135-5. [58] Michael D. Ekstrand, John T. Riedl and Joseph A. Konstan (2010), “Collaborative Filtering Recommender Systems”, Foundations and Trends in Human–Computer Interaction, Vol. 4, No. 2, pp. 81-173. [59] Michael Hahsler (2011), “recommenderlab: A Framework for Developing and Testing Recommendation Algorithms”, The Intelligent Data Analysis Lab at SMU, [60] Michael Hahsler (2015), Lab for Developing and Testing Recommender Algorithms, Copyright (C) Michael Hahsler (PCA and SVD implementation (C) Saurabh Bathnagar), [61] Nick Littlestone (1988), "Learning Quickly When Irrelevant Attributes Abound: A New Linear-threshold Algorithm", Machine Learning, Vol.2, pp. 285-318. [62] O.C. Santos, J.G. Boticario, D. Pérez-Marín (2014), “Extending web-based educational systems with personalised support through user centred designed recommendations along the e-learning life cycle”, Science of Computer Programming, 88, pp. 92-109. [63] P. Lenca, P. Meyer, B. Vaillant, and S. Lallich (2004), “A multicriteria decision aid for interestingness measures selection”, LUSSI-TR-2004-01-EN, pp. 1-27. [64] P. Lenca, P. Meyer, B. Vaillant, and S. Lallich (2008), “On selecting interestingness measures for association rules: user oriented description and multiple criteria decision aid”, European Journal of Operational Research, Vol. 184, Issue. 2, pp. 610-626. [65] P. N. Tan, M. Steinbach & V. Kumar (2005), Introduction to Data Mining, Addison-Wesley, ISBN 0-321-32136-7, chapter 8; page 500. [66] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, and J. Riedl (1994), “GroupLens: an open architecture for collaborative filtering of netnews”, ACM CSCW ’94, pp. 175-186. [67] Q. Shambour, J. Lu (2011), “A hybrid trust-enhanced collaborative filtering recommendation approach for personalized government-to-business e-services”, International Journal of Intelligent Systems, 26, pp. 814-843. [68] Q. Shambour, J. Lu (2012), “A trust-semantic fusion-based recommendation approach for e-business applications”, Decision Support Systems, 54, pp. 768- 780. [69] R. Burke (2000), “Knowledge-based recommender systems”, Encyclopedia of Library and Information Systems, 69, pp. 175-186. [70] R. Agrawal and R. Srikant (1994), “Fast algorithms for mining association rules”, VLDB'94 - Proceedings of the 20th International Conference on Very Large Data Bases, pp. 487-499. [71] R. Burke (2007), “Hybrid web recommender systems”, in: P. Brusilovsky, A. Kobsa, W. Nejdl (Eds.) The Adaptive Web, Springer-Verlag, Berlin Heidelberg2007, pp. 377-408. [72] R. Gras (1996), L’implication statistique – Nouvelle méthode exploratoire de données, La pensée sauvage édition. [73] R. Gras and P. Kuntz (2008), “An overview of the Statistical Implicative Analysis (SIA) development”, Statistical Implicative Analysis - Studies in Computational Intelligence, Springer-Verlag, 127, pp. 11-40. [74] R. Gras, Pascale Kuntz, and Nicolas Greffard (2015), “Notion of Implicative Fields in Statistical Implicative Analysis”, VIII Colloque International - VIII International Conference A.S.I. Analyse Statistique Implicative - Statistical Implicative Analysis Radès (Tunisie) - Novembre 2015, pp. 29-46. [75] S. Guillaume, D. Grissa, E. M. Nguifo (2012), “Categorization of interestingness measures for knowledge extraction”, journals/corr/abs-1206-6741, pp. 1-34. [76] S.K. Shinde, U. Kulkarni (2012), “Hybrid personalized recommender system using centering-bunching based clustering algorithm”, Expert Systems with Applications, 39, pp. 1381-1387. [77] T. Chellatamilan, and R. Suresh (2011), “An e-Learning Recommendation System using Association Rule Mining Technique”, European Journal of Scientific Research, Vol. 64, No. 2, pp. 330-339. [78] T. Nguyen, H. Lu, and J. Lu (2013), “Web-page recommendation based on web usage and domain knowledge”, IEEE Transactions on Knowledge and Data Engineering, Vol. 26, No. 10, pp. 1041-4347. [79] Ujwala H. Wanaskar, Sheetal R. Vij, Debajyoti Mukhopadhyay (2013), “A Hybrid Web Recommendation System Based on the Improved Association Rule Mining Algorithm”, Journal of Software Engineering and Applications, 6, pp.396-404. [80] W. Woerndl, M. Brocco, R. Eigner (2009), “Context-aware recommender systems in mobile scenarios”, International Journal of Information Technology and Web Engineering (IJITWE), 4, pp. 67-85. [81] W.-S. Yang, S.-Y. Hwang (2013), “iTravel: a recommender system in mobile peer-to-peer environment”, Journal of Systems and Software, 86, pp. 12-20. [82] X. Amatriain, A. Jaimes, N. Oliver, J. Pujol (2011), Data mining methods for recommender systems, in: F. Ricci, L. Rokach, B. Shapira, P.B. Kantor (Eds.) Recommender Systems Handbook, Springer US2011, pp. 39-71. [83] Xiaoyuan Su and Taghi M. Khoshgoftaar (2009), “A Survey of Collaborative Filtering Techniques”, Advances in Artificial Intelligence archive, Vol. 2009, Article No. 4, pp. 1-20. [84] Xuan-Hiep Huynh, Fabrice Guillet, Julien Blanchard, Pascale Kuntz, Henri Briand, Regis Gras (2007), “A graph-based clustering approach to evaluate interestingness measures: a tool and a comparative study” (Chapter 2), Quality Measures in Data Mining, Springer-Verlag, pp. 25-50. [85] Z. Zhang, H. Lin, K. Liu, D. Wu, G. Zhang, and J. Lu (2013), “A hybrid fuzzy- based personalized recommender system for telecom products/services”, Information Sciences, 235, pp. 117-129. PHỤ LỤC Phụ lục 1: Các độ đo hấp dẫn khách quan bất đối xứng TT Tên độ đo Công thức tính theo 4 tham số ̅ 1. 1-way Support ̅ ̅ 2. Added value, Pavillon, Centred Confidence, Dependency ̅ 3. Bayes factor, Odd multiplier ̅ ̅ ̅ 4. Causal- Confidence ( ) ̅ 5. Causal- Confirmed confidence ( ) ̅ 6. Loevinger, Certainty Factor, Satisfaction ̅ 7. Relative Risk , Class correlation ratio ̅ ̅ 8. Collective strength ̅ ̅ ̅ 9. Confidence ̅ 10. Causal Confirm ̅ 11. Conviction ̅ 12. Coverage 13. Descriptive Confirmed- Confidence, Ganascia Index ̅ 14. Descriptive- Confirm ̅ 15. Entropic Implication Intensity 1 √ (( | )( ̅| ̅ )) with (α=1) and | ̅ ̅ ̅ ̅ Where II is Inplication intensity 16. Entropic Implication Intensity 2 √ (( | )( ̅| ̅ )) with (α=2) and | ̅ ̅ ̅ ̅ 17. Examples and counter- examples rate (Exam-Cex- rate, Excounterex rate) ̅ ̅ 18. Gain, Fukuda ̅ 19. Gini index ̅ ̅ ̅ ̅ 20. Goodman– Kruskal where ( ̅ ̅ ) ( ̅ ̅ ) ( ̅ ̅ ) ( ̅ ̅ ) ( ) ( ) ( ) ( ) 21. Implication index ̅ ̅ √ 22. Implication Int ensity (II) ),( 2 2 2 1 BAq t dte hoặc ∑ ̅ 23. Probabilistic measures of deviation from equilibrium (IPEE),Indice Probabiliste d’Ecart d’Equilibre ∑ ̅ 24. Directed Information ratio(DIR) { ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ 25. MGK, Ion { ̅ ̅ ̅ 26. J-measures ̅ ̅ ̅ ̅ 27. Klosgen √ ̅ ( ̅ ) 28. K-measures ( ̅ ̅ ) 29. Kulczynski index ̅ ( ) 30. Laplace ̅ 31. Least contradiction ̅ 32. Leverage, Leverage 1 ̅ 33. Mutual Information MI, 2-way Support Variation ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ 34. Prevalence 35. Putative Causal Dependency ( ) ̅ 36. Recall, Completeness ̅ 37. Sebag and Schoenauer ̅ 38. Specificity 1, Negative Reliability ̅ 39. Zhang Zhang ̅ ̅ ̅ Phụ lục 2: Công thức đạo hàm riêng của các độ đo theo tham số n TT Đạo hàm riêng theo tham số n 1 ̅ 2 3 ̅ ̅ 4 ̅ 5 ̅ 6 ̅ 7 ̅ ̅ 8 ̅ ( ( ) ̅ ) ( ) ̅ (( ) ̅ ) ̅ ( ( ) ̅ ) ̅ 9 0 10 ̅ 11 ̅ 12 13 0 14 ̅ 15 ( ( )( ( ))) √ ( )( ( )) 16 ( ( ) ) √ ( ) ( ( ) ) ( ( ) ) 17 0 18 ̅ 19 ̅ ̅ ̅ ̅ ̅ 20 where ( ̅ ̅ ̅ ̅ ) ( ( ) ( )) ( ( ̅ ̅ ) ( ̅ ̅ ) ( ̅ ̅ ) ( ̅ ̅ ) ( ) ( ))( ) ( ) ( ) 21 √ ( ̅ ) 22 ∑ ̅ 23 0 24 { 25 { ̅ ̅ ̅ 26 ̅ ̅ ̅ ( ̅ ) 27 ( ̅ √ ̅ ( ̅ ) ) (√ ̅ ) ( ) 28 ( ̅ ) ( ̅ ̅ ) ( ) 29 0 30 0 31 0 32 33 ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ 34 35 ̅ 36 0 37 0 38 ̅ 39 ̅ ( ̅ ̅) ̅ ̅ ( ̅ ̅) Phụ lục 3: Công thức đạo hàm riêng của các độ đo theo tham số TT Đạo hàm riêng theo tham số 1 ̅ ̅ 2 ̅ 3 ̅ 4 ̅ 5 ̅ 6 ̅ 7 ̅ ̅ ̅ ̅ 8 ̅ ̅ ( ) ̅ (( ) ̅ ) ( ̅ )( ( ) ̅ )( ) ̅ 9 ̅ 10 11 ̅ 12 13 ̅ 14 15 (( ) ( ( ))) √ ( ( ) ( ( ))) ( )( ( )) 16 (( ( ) ) ) √ ( ) ( ( ) ) ( )( ) 17 ̅ ̅ 18 19 ̅ ̅ ̅ ̅ ̅ ̅ 20 where ( )( ( ) ( )) ( ( ̅ ̅ ) ( ̅ ̅ ) ( ̅ ̅ ) ( ̅ ̅ ) ( ) ( )) ( ) ( ) 21 A B AB BA n nn n n n nn n 2 1 )( 2 1 2 3 22 ∑ ̅ 23 ∑ ̅ 24 { 25 { ̅ ̅ ̅ ̅ 26 ̅ ̅ ̅ 27 ( √ ̅ ( ̅ ) ) √ ̅ ( ̅ ) 28 ( ̅ ̅ ) 29 ( ̅ ) 30 ̅ 31 32 ̅ 33 ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ( ̅ ) 34 0 35 ̅ 36 37 ̅ 38 ̅ 39 ( ̅ ̅) ̅ ( ̅ ̅) Phụ lục 4: Công thức đạo hàm riêng của các độ đo theo tham số TT Đạo hàm riêng theo tham số 1 ̅ 2 3 ̅ ̅ 4 ̅ 5 ̅ 6 ̅ 7 ̅ ̅ 8 ( ̅ ) (( ) ̅ ) ( ( ) ̅ ) ( ) ̅ ̅ ̅ ( ) ( ̅ ) ̅ 9 10 11 ̅ 12 13 14 15 ( ( ) (( )) ) √ ( ( ) ( ( ))) ( )( ( )) 16 ( ( ) ) √ ( ( ) ( ( ) )) ( ) ( ( ) ) ( ( )( )) 17 18 19 ̅ ̅ 20 ( )( ( ) ( )) ( ̅ ̅ ) ( ̅ ̅ ) ( ̅ ̅ ) ( ̅ ̅ ) ( ) ( ) ( ) ( ) 21 2 1 2 1 2 3 2 1 )()( 2 1 )()( 2 1 B A B A BA nn n n nn n n n 22 ∑ ̅ 23 24 { 25 { ̅ ̅ ̅ 26 ̅ ̅ 27 √ ̅ 28 ( ) ( ̅ ̅ ) ( ) 29 ( ̅ ) 30 31 ̅ 32 33 ̅ ̅ ̅ ̅ ( ̅ ̅ ) ̅ ̅ ̅ ̅ 34 35 ̅ 36 ̅ 37 38 39 ̅ ( ̅ ̅) Phụ lục 5: Công thức đạo hàm riêng của các độ đo theo tham số ̅ TT Đạo hàm riêng theo tham số ̅ 1 ̅ ̅ 2 3 ̅ 4 ( ) 5 ( ) 6 7 ̅ 8 ( ) (( ) ̅ ) ( ) ( ( ) ̅ ) ̅ ̅ ̅ ( ) ̅ ̅ 9 10 11 ̅ 12 13 14 15 ( ( ( ) (( )))) √ ( ( ) ( ( ))) ( )( ( )) (( )( ( ))) 16 ( ( ) ) √ ( ( ) ( ( ) )) ( ) ( ( ) ) ( ) ( )( ( ) ) ( ( ) ( )) 17 ̅ 18 19 ̅ ̅ ̅ ̅ 20 ( ( ) ( ) ( ) ( )) ( ) ( ) 21 n nnn BA )( 1 22 ∑ ̅ 23 24 { 25 { ̅ 26 ̅ ̅ 27 √ ̅ ( ̅ ) √ ̅ 28 ( ) 29 ( ) 30 31 32 33 ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ 34 35 ( ) 36 37 ̅ 38 39 ( ̅ ̅) ̅ ( ̅ ̅) Phụ lục 6: Bộ công cụ ARQAT trên ngôn ngữ R Kiến trúc tổng thể: Các thành phần chính của ARQAT: - Data: là dữ liệu sử dụng cho thực nghiệm. Dữ liệu thực nghiệm có thể là dữ liệu giao dịch hoặc ma trận xếp hạng. - Data proceesing: là các hàm tiện ích dùng để xử lý dữ liệu cho thực nghiệm các mô hình tƣ vấn và đánh giá các mô hình tƣ vấn. - Apriori algorithm: hàm sinh luật kết hợp dựa trên ngƣỡng độ đo Support và độ đo Confidence. - IIsRule algorithm: hàm sinh luật kết hợp dựa trên ngƣỡng độ đo cƣờng độ hàm ý thống kê (Implication intensity). - Cardinality: chức năng xác định giá trị cho các tham số hàm ý thống kê. Mỗi luật kết hợp sẽ có một bộ gồm 4 tham số { ̅}. Cardinality sinh ra một ma trận chứa giá trị các tham số hàm ý thống kê của toàn bộ tập luật kết hợp với mỗi dòng của ma trận là bộ các tham số của một luật kết hợp. - Utility: là tập các hàm tiện ích đƣợc sử dụng bởi chức năng Cardinality. Apriori algorithm Data proceesing Cardinality Interest Values Interest Measures Application - Recommendation models - Evaluation models ARQAT TOOLS A sso ciatio n ru les Utility IIsRule algorithm Data - Interest Values: chức năng xác định giá trị hấp dẫn của luật kết hợp trên các độ đo đƣợc lựa chọn. Mỗi luật kết hợp sẽ có một giá trị hấp dẫn theo độ đo hấp dẫn cụ thể. Interest Value sinh ra một ma trận chứa các giá trị hấp dẫn của toàn bộ tập luật kết hợp theo các độ đo đƣợc chọn bởi ngƣời sử dụng. Mỗi dòng của ma trận lƣu giá trị hấp dẫn của một luật kết hợp theo các độ đo đƣợc chọn. - Interest Measures: là các hàm tính giá trị hấp dẫn của từng độ đo cho một luật kết hợp . Tổng số hàm độ đo đƣợc cài đặt cho công cụ là 109. Những hàm này đƣợc sử dụng bởi InterestValues. - Application: là thƣ viện mở lƣu những ứng dụng đƣợc xây dựng dựa trên các chức năng chính nêu trên. Hiện tại, công cụ đã cài đặt: các mô hình tƣ vấn trong luận án đƣợc cài đặt, các chức năng đánh giá mô hình, các chức năng tích hợp các mô hình. Ngƣời sử dụng có thể dùng các cài đặt này trên tập dữ liệu thực tế (chẳng hạn: dữ liệu đăng ký học phần, dữ liệu mua hàng hóa, dữ liệu tuyển sinh) để tìm danh sách các kết quả tƣ vấn và kết quả đánh giá các mô hình.
File đính kèm:
- he_tu_van_dua_tren_phan_tich_ham_y_thong_ke.pdf
- Phan Quoc Nghia - Tom tat luan an Tieng Anh.pdf
- Phan Quoc Nghia - Tom tat luan an Tieng Viet.pdf
- Phan Quoc Nghia - Trich yeu luan an.pdf
- Phan Quoc Nghia -Nhung dong gop moi cua luan an.pdf