Hệ tư vấn dựa trên phân tích hàm ý thống kê
Vấn đề quá tải thông tin (information overload) [6] thật sự trở nên phổ biến
với sự phát triển mạnh mẽ của Internet và các mạng xã hội, lƣợng thông tin mà con
ngƣời đƣợc tiếp cận đang ngày càng mở rộng. Mỗi ngày, chúng ta sẽ tiếp xúc với
nhiều nguồn thông tin: các thông tin trao đổi qua email, các bài báo trên mạng
Internet, các bài đăng tải trên mạng xã hội, các thông tin quảng cáo từ các trang
thƣơng mại điện tử. Với sự mở rộng thông tin từ Internet và các mạng xã hội nhƣ
hiện này, việc lựa chọn thông tin hữu ích để ra quyết định của ngƣời dùng máy tính
và các thiết bị thông minh sẽ ngày một khó khăn hơn. Mô hình tƣ vấn
(recommender models) [27] đƣợc xem là một giải pháp hỗ trợ ngƣời dùng lựa chọn
thông tin hiệu quả và đƣợc ứng dụng rộng rãi trong nhiều lĩnh vực.
Tóm tắt nội dung tài liệu: Hệ tư vấn dựa trên phân tích hàm ý thống kê
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
PHAN QUỐC NGHĨA
HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý
THỐNG KÊ
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng - Năm 2018
ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
PHAN QUỐC NGHĨA
HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý
THỐNG KÊ
Chuyên ngành: Khoa học máy tính
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Cán bộ hƣớng dẫn:
1. PGS. TS. Huỳnh Xuân Hiệp
2. TS. Đặng Hoài Phƣơng
Đà Nẵng - Năm 2018
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự
hướng dẫn của PGS.TS. Huỳnh Xuân Hiệp và TS. Đặng Hoài Phương. Tôi cam
đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không
sao chép từ bất kỳ công trình nghiên cứu nào khác. Một số kết quả nghiên cứu là
thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng trong luận án.
Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ.
Tác giả
Phan Quốc Nghĩa
ii
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
MỤC LỤC ................................................................................................................... ii
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT ..................................................... vi
DANH MỤC CÁC BẢNG ...................................................................................... viii
DANH MỤC CÁC HÌNH ........................................................................................... x
MỞ ĐẦU ..................................................................................................................... 1
1. Tính cấp thiết của luận án ............................................................................ 1
2. Mục tiêu, phƣơng pháp, đối tƣợng và phạm vi nghiên cứu của luận án ...... 3
3. Các đóng góp của luận án ............................................................................ 4
4. Bố cục của luận án ....................................................................................... 5
CHƢƠNG 1. TỔNG QUAN ....................................................................................... 9
1.1. Phân tích hàm ý thống kê ..................................................................................... 9
1.2. Khuynh hƣớng biến thiên hàm ý thống kê ......................................................... 11
1.3. Mô hình tƣ vấn ................................................................................................... 13
1.3.1. Các khái niệm cơ bản ............................................................................. 13
1.3.2. Mô hình tƣ vấn dựa trên lọc nội dung .................................................... 14
1.3.2.1. Bài toán tƣ vấn lọc nội dung ............................................................ 14
1.3.2.2. Các nhƣợc điểm của mô hình tƣ vấn dựa trên lọc nội dung............. 16
1.3.3. Mô hình tƣ vấn dựa trên lọc cộng tác ..................................................... 17
1.3.3.1. Bài toán tƣ vấn dựa trên lọc cộng tác ............................................... 18
1.3.3.2. Lọc cộng tác dựa trên bộ nhớ ........................................................... 18
1.3.3.3. Lọc cộng tác dựa trên mô hình ......................................................... 20
1.3.3.4. Các nhƣợc điểm của mô hình tƣ vấn lọc cộng tác ........................... 20
1.3.4. Mô hình tƣ vấn dựa trên các đặc tính nhân khẩu học ............................. 21
1.3.5. Mô hình tƣ vấn dựa trên tri thức ............................................................ 22
1.3.6. Mô hình tƣ vấn dựa trên luật kết hợp ..................................................... 24
1.3.7. Mô hình tƣ vấn dựa trên phân tích hàm ý thống kê ............................... 25
iii
1.3.8. Mô hình tƣ vấn tích hợp ......................................................................... 26
1.4. Đánh giá mô hình tƣ vấn .................................................................................... 27
1.4.1. Phƣơng pháp xây dựng dữ liệu đánh giá ................................................ 28
1.4.2. Phƣơng pháp đánh giá mô hình tƣ vấn ................................................... 29
1.4.2.1. Đánh giá dựa trên giá trị xếp hạng dự đoán ..................................... 29
1.4.2.2. Đánh giá dựa trên kết quả tƣ vấn ..................................................... 29
1.5. Ứng dụng của mô hình tƣ vấn ............................................................................ 30
1.6. Hƣớng phát triển của mô hình tƣ vấn ................................................................ 31
1.7. Kết luận chƣơng 1 .............................................................................................. 32
CHƢƠNG 2. PHÂN LỚP ĐỘ ĐO HẤP DẪN KHÁCH QUAN THEO THAM SỐ
HÀM Ý THỐNG KÊ ................................................................................................ 34
2.1. Độ đo hấp dẫn khách quan ................................................................................. 34
2.2. Phân lớp độ đo hấp dẫn khách quan ................................................................... 36
2.2.1. Phân lớp độ đo dựa trên khảo sát các thuộc tính .................................... 36
2.2.2. Phân lớp độ đo dựa trên khảo sát các hành vi ........................................ 37
2.3. Phân lớp độ đo hấp dẫn khách quan theo tham số hàm ý thống kê ................... 37
2.3.1. Quy tắc xác định giá trị biến thiên của độ đo dựa trên đạo hàm riêng ... 38
2.3.2. Quy tắc phân lớp độ đo dựa trên thuộc tính biến thiên .......................... 40
2.4. Kết quả phân lớp các độ đo hấp dẫn khách quan bất đối xứng .......................... 41
2.4.1. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................... 43
2.4.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 45
2.4.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ................ 47
2.4.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n .............. 48
2.5. So sánh và đánh giá kết quả phân lớp theo tham số hàm ý thống kê ................. 51
2.6. Kết luận chƣơng 2 .............................................................................................. 52
CHƢƠNG 3. MÔ HÌNH TƢ VẤN DỰA TRÊN CHỈ SỐ HÀM Ý THỐNG KÊ .... 53
3.1. Luật kết hợp dựa trên thuộc tính quyết định ...................................................... 53
3.1.1. Định nghĩa luật kết hợp dựa trên thuộc tính quyết định ......................... 53
3.1.2. Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định .................. 54
iv
3.2. Tham số hàm ý thống kê của luật kết hợp ......................................................... 56
3.2.1. Tham số hàm ý thống kê ........................................................................ 56
3.2.2. Tham số hàm ý thống kê dựa trên ma trận nhị phân .............................. 57
3.2.2.1. Chuyển tập dữ liệu giao dịch sang ma trận thƣa nhị phân .............. 57
3.2.2.2. Chuyển tập luật kết hợp sang ma trận thƣa nhị phân ...................... 58
3.2.2.3. Xác định giá trị cho các tham hàm ý thống kê của từng luật kết hợp59
3.3. Tính giá trị chỉ số hàm ý thống kê và giá trị đạo hàm riêng dựa trên các tham số
hàm ý thống kê .......................................................................................................... 61
3.4. Mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê................................................. 61
3.4.1. Định nghĩa mô hình tƣ vấn dựa trên chỉ số hàm ý thống kê .................. 61
3.4.2. Thuật toán tƣ vấn dựa trên chỉ số hàm ý thống kê ................................. 63
3.5. Thực nghiệm ...................................................................................................... 64
3.5.1. Dữ liệu thực nghiệm ............................................................................... 64
3.5.2. Đánh giá độ chính xác của mô hình trên tập dữ liệu chuẩn ................... 67
3.5.3. Đánh giá độ chính xác của mô hình trên tập dữ liệu thực ...................... 68
3.6. Kết luận chƣơng 3 .............................................................................................. 72
CHƢƠNG 4. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN CƢỜNG ĐỘ HÀM
Ý THỐNG KÊ............................................................................................................ 73
4.1. Luật kết hợp dựa trên cƣờng độ hàm ý thống kê ............................................... 73
4.1.1. Định nghĩa luật kết hợp dựa trên cƣờng độ hàm ý thống kê .................. 73
4.1.2. Thuật toán sinh luật kết hợp dựa trên cƣờng độ hàm ý thống kê ........... 74
4.2. Mô hình tƣ vấn lọc cộng tác dựa trên cƣờng độ hàm ý thống kê ...................... 76
4.2.1. Định nghĩa mô hình tƣ vấn dựa trên cƣờng độ hàm ý thống kê ............. 76
4.2.2. Thuật toán tƣ vấn dựa trên cƣờng độ hàm ý thống kê ............................ 78
4.2.3. Đánh giá độ chính xác của mô hình ....................................................... 79
4.3. Thực nghiệm ...................................................................................................... 81
4.3.1. Dữ liệu thực nghiệm ............................................................................... 81
4.3.2. So sánh độ chính xác của mô hình trên dữ liệu xếp hạng dạng nhị phân
và dữ liệu xếp hạng dạng số thực .................................................................. 81
v
4.3.3. Độ chính xác của mô hình so với các mô hình tƣ vấn lọc cộng tác khác82
4.4. Kết luận chƣơng 4 .............................................................................................. 84
CHƢƠNG 5. MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN TƢƠNG
ĐỒNG HÀM Ý THỐNG KÊ .................................................................................... 85
5.1. Độ đo tƣơng đồng dựa trên cƣờng độ hàm ý thống kê ...................................... 85
5.1.1. Độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ....................... 86
5.1.2. Thuật toán đo độ tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng ...... 86
5.1.3. Tính chất của độ đo tƣơng đồng hàm ý thống kê giữa hai ngƣời dùng . 87
5.2. Mô hình tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê ................... 89
5.2.1. Định nghĩa mô hình tƣ vấn dựa trên tƣơng đồng hàm ý thống kê ......... 89
5.2.2. Thuật toán tƣ vấn lọc cộng tác dựa trên tƣơng đồng hàm ý thống kê .... 90
5.3. Thực nghiệm ...................................................................................................... 92
5.3.1. Dữ liệu thực nghiệm ............................................................................... 92
5.3.2. Đánh giá mô hình trên dữ liệu xếp hạng dạng số thực ........................... 92
5.3.2.1. Đánh giá mô hình dựa trên kết quả xếp hạng ................................. 93
5.3.2.2. Đánh giá mô hình dựa trên kết quả tƣ vấn ...................................... 94
5.3.3. Đánh giá mô hình trên dữ liệu xếp hạng dạng nhị phân ........................ 94
5.4. Kết luận chƣơng 5 .............................................................................................. 97
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................ 98
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
TÀI LIỆU THAM KHẢO
PHỤ LỤC
vi
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Thuật ngữ Tiếng Anh Viết tắt
Phân tích hàm ý thống kê Statistical implicative analysis ASI
Khuynh hƣớng biến thiên hàm ý
thống kê
Tendency of variation in statistical
implications
Độ đo hấp dẫn khách quan Objective interestingness measures
Độ đo hấp dẫn chủ quan Subjective interestingness measures
Độ đo chỉ số hàm ý thống kê Implication index
Độ đo cƣờng độ hàm ý thống kê Implication intensity
Độ đo tƣơng đồng Similarity measures
Độ đo tƣơng đồng hàm ý thống
kê
Statistical implicative similarity
measures
Hệ tƣ vấn Recommender systems RS
Mô hình tƣ vấn Recommender models RM
Mô hình tƣ vấn dựa trên lọc nội
dung
Content-based recommender models CB
Hồ sơ ngƣời dùng User profile
Mô hình tƣ vấn dựa trên lọc
cộng tác
Collaborative filtering recommender
models
CF
Mô hình tƣ vấn lọc cộng tác dựa
trên ngƣời dùng
User-based collaborative filtering
recommender models
UBCF
Mô hình tƣ vấn lọc cộng tác dựa
trên sản phẩm
Item-based collaborative filtering
recommender models
IBCF
Mô hình tƣ vấn dựa trên luật kết
hợp
Recommender based on association
rule models
AR
Mô hình tƣ vấn dựa trên đặc tính
nhân khẩu học
Demographic recommender models DRM
Mô hình tƣ vấn dựa trên tri thức
Knowledge-based recommender
models
KRM
vii
Mô hình tƣ vấn dựa trên phân
tích hàm ý thống kê
Recommender model based on
statistical implicative analysis
ASICF
Mô hình tƣ vấn tích hợp Hybrid recommender models HRM
Mô hình tƣ vấn dựa trên tính
toán thông minh
Computational Intelligence-based
recommender models
CIRM
Mô hình tƣ vấn dựa trên mạng
xã hội
Social network-based recommender
models
SNRM
Mô hình tƣ vấn dựa trên ngữ
cảnh
Context awareness-based
recommender models
CARM
Đánh giá dựa trên giá trị xếp
hạng
Evaluation based on the ratings
Đánh giá dựa trên kết quả tƣ vấn
Evaluation based on
recommendation results
viii
DANH CÁC MỤC BẢNG
Bảng 1.1. Ma trận hỗn độn ........................................................................................ 30
Bảng 2.1. Kết quả khảo sát các độ đo dựa trên đạo hàm riêng 4 tham số ................ 42
Bảng 2.2. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n ..................... 43
Bảng 2.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ................... 45
Bảng 2.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ................... 47
Bảng 2.5. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ̅ ................. 49
Bảng 3.1. Tập dữ liệu phân nhóm thí sinh ................................................................ 55
Bảng 3.2. Kết quả sinh tập phổ biến 1 phần tử ......................................................... 55
Bảng 3.3. Kết quả sinh tập phổ biến 2 phần tử ......................................................... 55
Bảng 3.4. Kết quả sinh tập phổ biến 3 phần tử ......................................................... 56
Bảng 3.5. Kết quả sinh luật kết hợp dựa trên thuộc tính quyết định ......................... 56
Bảng 3.6. Kết quả chuyển từ dữ liệu giao dịch sang dạng ma trận nhị phân ............ 57
Bảng 3.7. Kết quả chuyển từ luật kết hợp sang dạng ma trận nhị phân .................... 58
Bảng 3.8. Kết quả chuyển vế trái của luật kết hợp sang dạng ma trận nhị phân ...... 59
Bảng 3.9. Kết quả chuyển vế phải của luật kết hợp sang dạng ma trận nhị phân ..... 59
Bảng 3.10. Giá trị các tham số ... rences on Web Intelligence and Intelligent Agent
Technologies, WI-IAT '09., IET, pp. 187-190.
[50] L. Geng and H. J. Hamilton (2006), “Interestingness measures for data mining: A
survey”, ACM Computing Surveys, Vol. 38, pp. 1-32.
[51] M. Bjelica (2010), “Towards TV recommender system: experiments with user
modeling”, IEEE Transactions on Consumer Electronics, 56, pp. 1763-1769.
[52] M. Nilashi, O.b. Ibrahim, N. Ithnin (2014), “Multi-criteria collaborative filtering
with high accuracy using higher order singular value decomposition and Neuro-
Fuzzy system”, Knowledge-Based Systems, 60, pp. 82-101.
[53] M. Pazzani (1999), “A framework for collaborative, content-based and
demographic filtering”, Artificial Intelligence Review, 13, pp. 5-6.
[54] M. Pazzani, D. Billsus (2007), “Content-based recommendation systems”, in: P.
Brusilovsky, A. Kobsa, W. Nejdl (Eds.) The Adaptive Web, Springer Berlin
Heidelberg2007, pp. 325-341.
[55] M.A. Ghazanfar, A. Prügel-Bennett (2014), “Leveraging clustering approaches to
solve the gray-sheep users problem in recommender systems”, Expert Systems
with Applications, 41, pp. 3261-3275.
[56] M.A. Goncalves, E.A. Fox, L.T. Watson (2004), “N.A. Kipp, Streams, structures,
spaces, scenarios, societies (5s): a formal model for digital libraries”, ACM
Transactions on Information Systems (TOIS), 22, pp. 270-312.
[57] Martin P. Robillard, Walid Maalej, Robert J. Walker and Thomas Zimmermann
(2014), Recommendation Systems in Software Engineering, Springer
Heidelberg New York Dordrecht London, ISBN 978-3-642-45135-5.
[58] Michael D. Ekstrand, John T. Riedl and Joseph A. Konstan (2010),
“Collaborative Filtering Recommender Systems”, Foundations and Trends in
Human–Computer Interaction, Vol. 4, No. 2, pp. 81-173.
[59] Michael Hahsler (2011), “recommenderlab: A Framework for Developing and
Testing Recommendation Algorithms”, The Intelligent Data Analysis Lab at
SMU,
[60] Michael Hahsler (2015), Lab for Developing and Testing Recommender
Algorithms, Copyright (C) Michael Hahsler (PCA and SVD implementation (C)
Saurabh Bathnagar),
[61] Nick Littlestone (1988), "Learning Quickly When Irrelevant Attributes Abound:
A New Linear-threshold Algorithm", Machine Learning, Vol.2, pp. 285-318.
[62] O.C. Santos, J.G. Boticario, D. Pérez-Marín (2014), “Extending web-based
educational systems with personalised support through user centred designed
recommendations along the e-learning life cycle”, Science of Computer
Programming, 88, pp. 92-109.
[63] P. Lenca, P. Meyer, B. Vaillant, and S. Lallich (2004), “A multicriteria decision
aid for interestingness measures selection”, LUSSI-TR-2004-01-EN, pp. 1-27.
[64] P. Lenca, P. Meyer, B. Vaillant, and S. Lallich (2008), “On selecting
interestingness measures for association rules: user oriented description and
multiple criteria decision aid”, European Journal of Operational Research, Vol.
184, Issue. 2, pp. 610-626.
[65] P. N. Tan, M. Steinbach & V. Kumar (2005), Introduction to Data Mining,
Addison-Wesley, ISBN 0-321-32136-7, chapter 8; page 500.
[66] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, and J. Riedl (1994),
“GroupLens: an open architecture for collaborative filtering of netnews”, ACM
CSCW ’94, pp. 175-186.
[67] Q. Shambour, J. Lu (2011), “A hybrid trust-enhanced collaborative filtering
recommendation approach for personalized government-to-business e-services”,
International Journal of Intelligent Systems, 26, pp. 814-843.
[68] Q. Shambour, J. Lu (2012), “A trust-semantic fusion-based recommendation
approach for e-business applications”, Decision Support Systems, 54, pp. 768-
780.
[69] R. Burke (2000), “Knowledge-based recommender systems”, Encyclopedia of
Library and Information Systems, 69, pp. 175-186.
[70] R. Agrawal and R. Srikant (1994), “Fast algorithms for mining association rules”,
VLDB'94 - Proceedings of the 20th International Conference on Very Large
Data Bases, pp. 487-499.
[71] R. Burke (2007), “Hybrid web recommender systems”, in: P. Brusilovsky, A.
Kobsa, W. Nejdl (Eds.) The Adaptive Web, Springer-Verlag, Berlin
Heidelberg2007, pp. 377-408.
[72] R. Gras (1996), L’implication statistique – Nouvelle méthode exploratoire de
données, La pensée sauvage édition.
[73] R. Gras and P. Kuntz (2008), “An overview of the Statistical Implicative
Analysis (SIA) development”, Statistical Implicative Analysis - Studies in
Computational Intelligence, Springer-Verlag, 127, pp. 11-40.
[74] R. Gras, Pascale Kuntz, and Nicolas Greffard (2015), “Notion of Implicative
Fields in Statistical Implicative Analysis”, VIII Colloque International - VIII
International Conference A.S.I. Analyse Statistique Implicative - Statistical
Implicative Analysis Radès (Tunisie) - Novembre 2015, pp. 29-46.
[75] S. Guillaume, D. Grissa, E. M. Nguifo (2012), “Categorization of interestingness
measures for knowledge extraction”, journals/corr/abs-1206-6741, pp. 1-34.
[76] S.K. Shinde, U. Kulkarni (2012), “Hybrid personalized recommender system
using centering-bunching based clustering algorithm”, Expert Systems with
Applications, 39, pp. 1381-1387.
[77] T. Chellatamilan, and R. Suresh (2011), “An e-Learning Recommendation
System using Association Rule Mining Technique”, European Journal of
Scientific Research, Vol. 64, No. 2, pp. 330-339.
[78] T. Nguyen, H. Lu, and J. Lu (2013), “Web-page recommendation based on web
usage and domain knowledge”, IEEE Transactions on Knowledge and Data
Engineering, Vol. 26, No. 10, pp. 1041-4347.
[79] Ujwala H. Wanaskar, Sheetal R. Vij, Debajyoti Mukhopadhyay (2013), “A
Hybrid Web Recommendation System Based on the Improved Association Rule
Mining Algorithm”, Journal of Software Engineering and Applications, 6,
pp.396-404.
[80] W. Woerndl, M. Brocco, R. Eigner (2009), “Context-aware recommender
systems in mobile scenarios”, International Journal of Information Technology
and Web Engineering (IJITWE), 4, pp. 67-85.
[81] W.-S. Yang, S.-Y. Hwang (2013), “iTravel: a recommender system in mobile
peer-to-peer environment”, Journal of Systems and Software, 86, pp. 12-20.
[82] X. Amatriain, A. Jaimes, N. Oliver, J. Pujol (2011), Data mining methods for
recommender systems, in: F. Ricci, L. Rokach, B. Shapira, P.B. Kantor (Eds.)
Recommender Systems Handbook, Springer US2011, pp. 39-71.
[83] Xiaoyuan Su and Taghi M. Khoshgoftaar (2009), “A Survey of Collaborative
Filtering Techniques”, Advances in Artificial Intelligence archive, Vol.
2009, Article No. 4, pp. 1-20.
[84] Xuan-Hiep Huynh, Fabrice Guillet, Julien Blanchard, Pascale Kuntz, Henri
Briand, Regis Gras (2007), “A graph-based clustering approach to evaluate
interestingness measures: a tool and a comparative study” (Chapter 2), Quality
Measures in Data Mining, Springer-Verlag, pp. 25-50.
[85] Z. Zhang, H. Lin, K. Liu, D. Wu, G. Zhang, and J. Lu (2013), “A hybrid fuzzy-
based personalized recommender system for telecom products/services”,
Information Sciences, 235, pp. 117-129.
PHỤ LỤC
Phụ lục 1: Các độ đo hấp dẫn khách quan bất đối xứng
TT Tên độ đo Công thức tính theo 4 tham số ̅
1. 1-way Support
̅
̅
2.
Added value,
Pavillon,
Centred
Confidence,
Dependency
̅
3.
Bayes factor,
Odd multiplier
̅ ̅
̅
4.
Causal-
Confidence
(
) ̅
5.
Causal-
Confirmed
confidence
(
) ̅
6.
Loevinger,
Certainty
Factor,
Satisfaction
̅
7.
Relative Risk ,
Class
correlation
ratio
̅
̅
8.
Collective
strength
̅ ̅
̅
9. Confidence
̅
10. Causal Confirm
̅
11. Conviction
̅
12. Coverage
13.
Descriptive
Confirmed-
Confidence,
Ganascia Index
̅
14.
Descriptive-
Confirm
̅
15.
Entropic
Implication
Intensity 1
√ (( |
)( ̅| ̅
))
with (α=1) and
|
̅
̅
̅
̅
Where II is Inplication intensity
16.
Entropic
Implication
Intensity 2
√ (( |
)( ̅| ̅
))
with (α=2) and
|
̅
̅
̅
̅
17.
Examples and
counter-
examples rate
(Exam-Cex-
rate,
Excounterex
rate)
̅
̅
18. Gain, Fukuda
̅
19. Gini index
̅
̅
̅
̅
20.
Goodman–
Kruskal
where
(
̅
̅
)
(
̅
̅
)
(
̅
̅
)
(
̅
̅
) (
)
(
)
(
) (
)
21.
Implication
index
̅
̅
√
22.
Implication Int
ensity (II)
),(
2
2
2
1
BAq
t
dte
hoặc ∑
̅
23.
Probabilistic
measures of
deviation from
equilibrium
(IPEE),Indice
Probabiliste
d’Ecart
d’Equilibre
∑
̅
24.
Directed
Information
ratio(DIR)
{
̅
̅
̅
̅
̅
̅
̅
̅
̅
̅
̅
̅
25. MGK, Ion
{
̅
̅
̅
26. J-measures
̅
̅
̅
̅
27. Klosgen √
̅
(
̅
)
28. K-measures (
̅
̅
)
29.
Kulczynski
index
̅
(
)
30. Laplace
̅
31.
Least
contradiction
̅
32.
Leverage,
Leverage 1
̅
33.
Mutual
Information
MI, 2-way
Support
Variation
̅
̅
̅
̅
̅
̅
̅
̅
34. Prevalence
35.
Putative Causal
Dependency
(
) ̅
36.
Recall,
Completeness
̅
37.
Sebag and
Schoenauer
̅
38.
Specificity 1,
Negative
Reliability
̅
39. Zhang Zhang
̅
̅ ̅
Phụ lục 2: Công thức đạo hàm riêng của các độ đo theo tham số n
TT Đạo hàm riêng theo tham số n
1
̅
2
3
̅
̅
4
̅
5
̅
6
̅
7
̅
̅
8
̅ ( ( ) ̅ ) ( ) ̅
(( ) ̅ )
̅ ( ( ) ̅ )
̅
9 0
10
̅
11
̅
12
13 0
14
̅
15
( (
)( (
)))
√
(
)(
(
))
16
( (
)
)
√
(
)
(
(
)
)
( (
)
)
17 0
18
̅
19
̅
̅
̅
̅ ̅
20
where
(
̅
̅
̅
̅
) (
(
) (
))
( (
̅
̅
) (
̅
̅
)
(
̅
̅
) (
̅
̅
)
(
) (
))(
)
(
) (
)
21
√
( ̅
)
22 ∑
̅
23 0
24
{
25
{
̅
̅
̅
26
̅
̅
̅
(
̅
)
27
(
̅
√
̅
(
̅
)
)
(√
̅
) (
)
28
(
̅
)
(
̅
̅
) (
)
29 0
30 0
31 0
32
33
̅
̅
̅
̅
̅
̅
̅
̅
̅ ̅
̅
̅
̅
̅ ̅
̅
34
35
̅
36 0
37 0
38
̅
39
̅ ( ̅ ̅) ̅ ̅
( ̅ ̅)
Phụ lục 3: Công thức đạo hàm riêng của các độ đo theo tham số
TT Đạo hàm riêng theo tham số
1
̅
̅
2
̅
3
̅
4
̅
5
̅
6
̅
7
̅ ̅ ̅
̅
8
̅ ̅ ( ) ̅
(( ) ̅ )
( ̅ )( ( ) ̅
)( ) ̅
9
̅
10
11
̅
12
13
̅
14
15
((
) ( (
)))
√ ( (
) ( (
)))
(
)(
(
))
16
(( (
)
) )
√
(
)
(
(
)
)
(
)(
)
17
̅
̅
18
19
̅ ̅
̅
̅ ̅
̅
20
where
(
)( (
) (
))
( (
̅
̅
) (
̅
̅
)
(
̅
̅
) (
̅
̅
)
(
) (
))
(
) (
)
21
A
B
AB
BA
n
nn
n
n
n
nn
n
2
1
)(
2
1
2
3
22 ∑
̅
23
∑
̅
24
{
25
{
̅
̅
̅ ̅
26
̅
̅
̅
27
(
√
̅
(
̅
)
)
√
̅
(
̅
)
28 (
̅
̅
)
29
(
̅
)
30
̅
31
32
̅
33
̅
̅
̅
̅
̅
̅
̅
̅
( ̅ )
34 0
35
̅
36
37
̅
38
̅
39
( ̅ ̅) ̅
( ̅ ̅)
Phụ lục 4: Công thức đạo hàm riêng của các độ đo theo tham số
TT Đạo hàm riêng theo tham số
1
̅
2
3
̅
̅
4
̅
5
̅
6
̅
7
̅
̅
8
( ̅ )
(( ) ̅ )
( ( ) ̅ ) ( )
̅
̅ ̅ ( )
( ̅ ) ̅
9
10
11
̅
12
13
14
15
( (
) ((
))
)
√ ( (
) ( (
)))
(
)(
(
))
16
( (
)
)
√ ( (
)
( (
)
))
(
)
(
(
)
)
( (
)(
))
17
18
19
̅ ̅
20
(
)( (
) (
)) (
̅
̅
)
(
̅
̅
)
(
̅
̅
) (
̅
̅
)
(
) (
)
(
) (
)
21 2
1
2
1
2
3
2
1
)()(
2
1
)()(
2
1
B
A
B
A
BA
nn
n
n
nn
n
n
n
22 ∑
̅
23
24
{
25
{
̅
̅
̅
26
̅
̅
27
√
̅
28
(
)
(
̅
̅
) (
)
29 (
̅
)
30
31
̅
32
33
̅
̅
̅
̅
(
̅
̅
)
̅
̅
̅
̅
34
35
̅
36
̅
37
38
39
̅
( ̅ ̅)
Phụ lục 5: Công thức đạo hàm riêng của các độ đo theo tham số ̅
TT Đạo hàm riêng theo tham số ̅
1
̅
̅
2
3
̅
4
(
)
5
(
)
6
7
̅
8
( )
(( ) ̅ )
( ) ( ( ) ̅ )
̅ ̅ ̅ ( )
̅ ̅
9
10
11
̅
12
13
14
15
( ( (
) ((
))))
√ ( (
) ( (
)))
(
)(
(
))
((
)(
(
)))
16
( (
)
)
√ ( (
)
( (
)
))
(
)
(
(
)
)
(
) (
)(
(
)
)
( (
) (
))
17
̅
18
19
̅ ̅
̅ ̅
20
( (
) (
) (
) (
))
(
) (
)
21
n
nnn BA )(
1
22 ∑
̅
23
24
{
25 {
̅
26
̅
̅
27
√
̅
(
̅
)
√
̅
28 (
)
29
(
)
30
31
32
33
̅
̅
̅
̅
̅
̅
̅
̅
̅
̅
34
35 (
)
36
37
̅
38
39
( ̅ ̅) ̅
( ̅ ̅)
Phụ lục 6: Bộ công cụ ARQAT trên ngôn ngữ R
Kiến trúc tổng thể:
Các thành phần chính của ARQAT:
- Data: là dữ liệu sử dụng cho thực nghiệm. Dữ liệu thực nghiệm có thể là dữ
liệu giao dịch hoặc ma trận xếp hạng.
- Data proceesing: là các hàm tiện ích dùng để xử lý dữ liệu cho thực nghiệm
các mô hình tƣ vấn và đánh giá các mô hình tƣ vấn.
- Apriori algorithm: hàm sinh luật kết hợp dựa trên ngƣỡng độ đo Support và
độ đo Confidence.
- IIsRule algorithm: hàm sinh luật kết hợp dựa trên ngƣỡng độ đo cƣờng độ
hàm ý thống kê (Implication intensity).
- Cardinality: chức năng xác định giá trị cho các tham số hàm ý thống kê.
Mỗi luật kết hợp sẽ có một bộ gồm 4 tham số { ̅}. Cardinality
sinh ra một ma trận chứa giá trị các tham số hàm ý thống kê của toàn bộ tập luật kết
hợp với mỗi dòng của ma trận là bộ các tham số của một luật kết hợp.
- Utility: là tập các hàm tiện ích đƣợc sử dụng bởi chức năng Cardinality.
Apriori
algorithm
Data
proceesing
Cardinality
Interest
Values
Interest
Measures
Application
- Recommendation models
- Evaluation models
ARQAT TOOLS
A
sso
ciatio
n
ru
les
Utility
IIsRule
algorithm
Data
- Interest Values: chức năng xác định giá trị hấp dẫn của luật kết hợp trên các
độ đo đƣợc lựa chọn. Mỗi luật kết hợp sẽ có một giá trị hấp dẫn theo độ đo
hấp dẫn cụ thể. Interest Value sinh ra một ma trận chứa các giá trị hấp dẫn của toàn
bộ tập luật kết hợp theo các độ đo đƣợc chọn bởi ngƣời sử dụng. Mỗi dòng của ma
trận lƣu giá trị hấp dẫn của một luật kết hợp theo các độ đo đƣợc chọn.
- Interest Measures: là các hàm tính giá trị hấp dẫn của từng độ đo cho một
luật kết hợp . Tổng số hàm độ đo đƣợc cài đặt cho công cụ là 109. Những
hàm này đƣợc sử dụng bởi InterestValues.
- Application: là thƣ viện mở lƣu những ứng dụng đƣợc xây dựng dựa trên
các chức năng chính nêu trên. Hiện tại, công cụ đã cài đặt: các mô hình tƣ vấn trong
luận án đƣợc cài đặt, các chức năng đánh giá mô hình, các chức năng tích hợp các
mô hình. Ngƣời sử dụng có thể dùng các cài đặt này trên tập dữ liệu thực tế (chẳng
hạn: dữ liệu đăng ký học phần, dữ liệu mua hàng hóa, dữ liệu tuyển sinh) để tìm
danh sách các kết quả tƣ vấn và kết quả đánh giá các mô hình.
File đính kèm:
he_tu_van_dua_tren_phan_tich_ham_y_thong_ke.pdf
Phan Quoc Nghia - Tom tat luan an Tieng Anh.pdf
Phan Quoc Nghia - Tom tat luan an Tieng Viet.pdf
Phan Quoc Nghia - Trich yeu luan an.pdf
Phan Quoc Nghia -Nhung dong gop moi cua luan an.pdf

