Luận án Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy
Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá
trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ
liệu. Khai phá tập mục thường xuyên là một hướng cơ bản trong khai phá dữ liệu. Bài
toán khai phá tập mục thường xuyên được Agrawal và Srikant giới thiệu trong [1]
với mục đích tìm ra các mục thường xuất hiện cùng nhau trong CSDL giao dịch. Ví
dụ như một tập mục thường xuyên {Máy in; Giấy} thể hiện rằng các sản phẩm này
thường được mua cùng nhau. Các tập mục thường xuyên có dạng đơn giản và dễ hiểu
đối với con người nhưng lại rất hữu ích trong việc ra quyết định.
Từ khi ra đời, lĩnh vực khai phá tập mục thường xuyên đã thu hút rất nhiều
nhà nghiên cứu. Rất nhiều công trình đã và đang tiếp tục được công bố nhằm phát
triển các kỹ thuật khai phá tập mục thường xuyên cũng như mở rộng bài toán khai
phá tập mục thường xuyên. Tuy nhiên, trong bài toán này, thứ tự của các mục lại bị
bỏ qua. Điều này có thể dẫn tới việc không tìm được các tập mục hữu ích hoặc các
tập mục được tìm thấy không thực sự hữu ích. Khai phá các mẫu dãy tiềm năng và
và hữu ích trong các cơ sở dữ liệu dãy là một trong những nội dung quan trọng trong
khai phá dữ liệu cơ bản. Những năm gần đây, các xu hướng nghiên cứu các vấn đề
khai phá dữ liệu là đề xuất các thuật toán để khai phá các mẫu dãy trong các loại
CSDL dữ liệu dãy. Một trong những nội dung khai thác dữ liệu phổ biến nhất trên
dãy là khai phá các mẫu dãy tuần tự. Để có thể giải quyết vấn đề này, bài toán khai
phá mẫu dãy thường xuyên đã được Agrawal và Srikant đề xuất trong [2].
Tóm tắt nội dung tài liệu: Luận án Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- TRẦN HUY DƯƠNG KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU DÃY LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH HÀ NỘI – 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- Trần Huy Dương KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU DÃY Chuyên ngành: Hệ thống thông tin Mã số: 9 48 01 04 LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Nguyễn Trường Thắng 2. GS.TS. Vũ Đức Thi Hà Nội – Năm 2021 1 i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của tôi và những kết quả trình bày trong luận án là mới, trung thực và chưa từng được công bố trong bất kỳ công trình của người khác. Những kết quả viết chung với cán bộ hướng dẫn và các tác giả khác đều được sự đồng ý khi đưa vào luận án. Việc tham khảo các nguồn tài liệu, bài viết được thực hiện trích dẫn và ghi nguồn tham khảo theo đúng quy định. Tác giả luận án NCS. Trần Huy Dương 2 ii LỜI CẢM ƠN Lời đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới TS.Nguyễn Trường Thắng và GS.TS.Vũ Đức Thi đã tận tình hướng dẫn, giúp đỡ tôi trong quá trình nghiên cứu, đăng bài và hoàn thành luận án này. Tôi cũng xin chân thành cảm ơn Ban lãnh đạo Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam, lãnh đạo Học viện Khoa học và Công nghệ đã tạo điều kiện thuận lợi cho quá trình nghiên cứu của tôi, cảm ơn các cán bộ của phòng Công nghệ phần mềm trong quản lý đã nhiệt tình trong công tác, giúp tôi dành thời gian tập trung nghiên cứu và hoàn thành luận án. Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn là nguồn động viên, ủng hộ, giúp tôi thêm động lực để hoàn thành luận án này. Người thực hiện Trần Huy Dương 1 MỤC LỤC DANH MỤC HÌNH VẼ ............................................................................................ 3 DANH MỤC BẢNG BIỂU ....................................................................................... 4 DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................... 6 MỞ ĐẦU .................................................................................................................... 7 CHƯƠNG 1. TỔNG QUAN KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU DÃY ............................................................................................ 15 1.1. Tổng quan tình hình nghiên cứu .................................................................. 15 1.2. Khai phá mẫu dãy có trọng số trong CSDL dãy .......................................... 25 1.3. Khai phá mẫu dãy có trọng số trong CSDL dãy với khoảng cách thời gian ... ..................................................................................................................... 32 1.4. Khai phá mẫu dãy lợi ích cao trong CSDL định lượng có khoảng cách thời gian ..................................................................................................................... 47 Kết luận Chương 1 .................................................................................................... 61 CHƯƠNG 2. KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU DÃY CÓ KHOẢNG CÁCH THỜI GIAN ..................................................... 63 2.1. Giới thiệu ..................................................................................................... 63 2.2. Thuật toán khai phá top-k mẫu dãy thường xuyên trọng số với khoảng cách thời gian (TopKWFP) ............................................................................................... 65 2.2.1. Bài toán đặt ra .............................................................................................. 65 2.2.2. Ý tưởng thuật toán ....................................................................................... 66 2.2.3. Thuật toán TopKWFP ................................................................................. 67 2.2.4. Phân tích thuật toán TopKWFP ................................................................... 70 2.2.5. Thử nghiệm thuật toán ................................................................................. 78 Kết luận Chương 2 .................................................................................................... 86 CHƯƠNG 3. KHAI PHÁ MẪU DÃY LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU DÃY CÓ KHOẢNG CÁCH THỜI GIAN ............................................................... 87 3.1. Giới thiệu ..................................................................................................... 87 3.2. Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian (UIPrefixSpan) .......................................................................................................... 89 3.2.1. Bài toán đặt ra .............................................................................................. 89 3.2.2. Ý tưởng thuật toán ....................................................................................... 90 3.2.3. Thuật toán UIPrefixSpan ............................................................................. 90 3.2.4. Phân tích thuật toán UIPrefixSpan .............................................................. 92 2 3.2.5. Thử nghiệm thuật toán ...............................................................................103 3.3. Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian 1 pha (HUISP) ...................................................................................................................109 3.3.1. Bài toán đặt ra ............................................................................................109 3.3.2. Ý tưởng thuật toán .....................................................................................110 3.3.3. Thuật toán HUISP .....................................................................................112 3.3.4. Phân tích thuật toán HUISP .......................................................................114 3.3.5. Thử nghiệm thuật toán ...............................................................................126 Kết luận Chương 3 ..................................................................................................133 KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................134 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ ........................................................137 TÀI LIỆU THAM KHẢO .......................................................................................138 3 DANH MỤC HÌNH VẼ Hình 1.1. Các vấn đề nghiên cứu của luận án ........................................................... 25 Hình 2.1 Ảnh hưởng của tham số k .......................................................................... 80 Hình 2.2 Ảnh hưởng của chiến lược tối ưu lên thời gian chạy ................................. 81 Hình 2.3 Ảnh hưởng của chiến lược tối ưu lên số ứng viên tạo ra ........................... 82 Hình 2.4. So sánh 2 thuật toán WIPrefixSpan và TopKWFP ................................... 85 Hình 3.1 Biểu đồ phân phối giá trị lợi nhuận của 1000 mục (UIPrefixSpan) ........104 Hình 3.2 Thời gian chạy UIPrefixSpan ...................................................................106 Hình 3.3 Bộ nhớ sử dụng UIPrefixSpan .................................................................107 Hình 3.4 Số mẫu dãy lợi ích cao UIPrefixSpan ......................................................109 Hình 3.5 Biểu đồ phân phối giá trị lợi nhuận của 1000 mục (HUISP) ...................127 Hình 3.6 Thời gian chạy HUISP .............................................................................128 Hình 3.7 Bộ nhớ sử dụng HUISP ............................................................................129 Hình 3.8 Ảnh hưởng của số lượng mẫu dãy với thời gian chạy và bộ nhớ ............132 4 DANH MỤC BẢNG BIỂU Bảng 1.1 Danh sách một số công trình liên quan đến luận án .................................. 22 Bảng 1.2 CSDL dãy SDB ......................................................................................... 26 Bảng 1.3 Trọng số của các mục trong SDB .............................................................. 26 Bảng 1.4 CSDL dãy iSDB với khoảng cách thời gian .............................................. 33 Bảng 1.5 Trọng số của các mục trong iSDB ............................................................. 34 Bảng 1.6 CSDL dãy QiSDB với khoảng cách thời gian ........................................... 48 Bảng 1.7 Trọng số của các mục trong QiSDB .......................................................... 49 Bảng 1.8 Bảng lợi ích QiSDB ................................................................................... 56 Bảng 1.9 Bảng chỉ mục ............................................................................................. 56 Bảng 2.1 CSDL dãy iSDB với khoảng cách thời gian .............................................. 75 Bảng 2.2 Trọng số của các mục trong iSDB ............................................................. 75 Bảng 2.3 CSDL chiếu của dãy ........................................................................ 77 Bảng 2.4 Các bộ dữ liệu thực nghiệm ....................................................................... 79 Bảng 2.5 Thống kê chi tiết số lượng mẫu dãy ứng viên tạo ra ................................. 83 Bảng 3.1 Cơ sở dữ liệu điều kiện với tiền tố .................................................. 97 Bảng 3.2 Cơ sở dữ liệu điều kiện với tiền tố ....................................... 97 Bảng 3.3 Cơ sở dữ liệu điều kiện với tiền tố ............................ 98 Bảng 3.4 Cơ sở dữ liệu điều kiện với tiền tố .......................... 98 Bảng 3.5 Các mẫu dãy ứng viên ứng với tiền tố ........................................... 99 Bảng 3.6 Bảng thống kê khai phá mẫu dãy lợi ích cao với khoảng cách thời gian trong QiSDB. ....................................................................................................................100 Bảng 3.7 Lợi ích của mẫu dãy 1 phần tử ................................................................118 5 Bảng 3.8 Lợi ích của các dãu đầu vào ....................................................................119 Bảng 3.9 Bảng lợi ích của các mẫu dãy 1 phần tử ..................................................119 Bảng 3.10 Bảng chỉ mục trong QiSDB ...................................................................120 Bảng 3.11 CSDL chiếu của QiSDB| ....................................................121 Bảng 3.12 Bảng lợi ích của các mẫu ứng viên độ dài 2 với tiền tố ..............122 Bảng 3.13 CSDL chiếu của QiSDB| ................................122 Bảng 3.14 Bảng lợi ích của các mục ứng viên độ dài 3 với tiền tố .....123 Bảng 3.15 CSDL chiếu của QiSDB| ..............123 Bảng 3.16 Bảng lợi ích của các mục ứng viên độ dài 4 với tiền tố .................................................................................................................................124 Bảng 3.17 Bảng mẫu dãy lợi ích cao tìm được với tiền tố ...........................124 Bảng 3.18 Bảng mẫu dãy lợi ích cao với khoảng cách thời gian của QiSDB ........125 Bảng 3.19 Bảng thống kê số lượng mẫu dãy ứng viên và số mẫu dãy lợi ích cao của UIPrefixSpan và HUISP .........................................................................................130 6 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CSDL Database Cơ sở dữ liệu UL Utility Level Thuật toán khai phá mẫu dãy lợi ích cao theo phương pháp Apriori US Utility Span Thuật toán khai phá lợi ích cao theo phương pháp PrefixSpan PrefixSpan Prefix-Projected Sequential Patterns Mining Algorithm Thuật toán khai phá mẫu dãy thường xuyên theo phương pháp tăng trưởng mẫu dãy TopKWFP Top-k weighted sequential pattern mining with item interval Algorithm Thuật toán khai phá top-k mẫu dãy trọng số có khoảng cách thời gian WIPrefixSpan Weighted sequential pattern mining with item interval Algorithm Thuật toán khai phá mẫu dãy trọng số có khoảng cách thời gian UIPrefixSpan High Utility Sequential Patterns with Time Interval Algorithm Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian theo phương pháp 2 pha HUISP High Utility Item Interval Sequential Pattern Algorithm Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian theo phương pháp sử dụng bảng lợi ích GSP Generalized Sequential Pattern Thuật toán khai phá mẫu dãy tổng quát SDB Sequence Database Cơ sở dữ liệu dãy iSDB Sequence Database with item interval Cơ sở dữ liệu dãy có khoảng cách thời gian QiSDB Quantitative Sequence Database with item interval Cơ sở dữ liệu dãy định lượng có khoảng cách thời gian UCI UC Irvine Machine Kho dữ liệu chuẩn UCI 7 MỞ ĐẦU 1. Tổng quan Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu. Khai phá tập mục thường xuyên là một hướng cơ bản trong khai phá dữ liệu. Bài toán khai phá tập mục thường xuyên được Agrawal và Srikant giới thiệu trong [1] với mục đích tìm ra các mục thường xuất hiện cùng nhau trong CSDL giao dịch. Ví dụ như một tập mục thường xuyên {Máy in; Giấy} thể hiện rằng các sản phẩm này thường được mua cùng nhau. Các tập mục thường xuyên có dạng đơn giản và dễ hiểu đối với con người nhưng lại rất hữu ích trong việc ra quyết định. Từ khi ra đời, lĩnh vực khai phá tập mục thường xuyên đã thu hút rất nhiều nhà nghiên cứu. Rất nhiều công trình đã và đang tiếp tục được công bố nhằm phát triển các kỹ thuật khai phá tập mục thường xuyên cũng như mở rộng bài toán khai phá tập mục thường xuyên. Tuy nhiên, trong bài toán này, thứ tự của các mục lại bị bỏ qua. Điều này có thể dẫn tới việc không tìm được các tập mục hữu ích hoặc các tập mục được tìm thấy không thực sự hữu ích. Khai phá các mẫu dãy tiềm năng và và hữu ích trong các cơ sở dữ liệu dãy là một trong những nội dung quan trọng trong khai phá dữ liệu cơ bản. Những năm gần đây, các xu hướng nghiên cứu các vấn đề khai phá dữ liệu là đề xuất các thuật toán để khai phá các mẫu dãy trong các loại CSDL dữ liệu dãy. Một trong những nội dung khai thác dữ liệu phổ biến nhất trên dãy là khai phá các mẫu dãy tuần tự. Để có thể giải quyết vấn đề này, bài toán khai phá mẫu dãy thường xuyên đã được Agrawal và Srikant đề xuất trong [2]. Nội dung theo hướng này bao gồm các việc khai phá các mẫu dãy tiềm năng, hữu ích trong một tập hợp các dãy dữ liệu, trong đó mức độ hữu ích của một dãy con có thể được tính toán và xác định theo nhiều tiêu ... Knowledge, 2012. [44] Lan, G.C., Hong, T.P., Tseng, V.S., Wang, S.L, "Applying the maximum utility measure in high utility sequential pattern mining," Expert Syst. Appl, vol. 41, no. 11, p. 5071–5081, 2014. [45] Alkan, O. K. and Karagoz, P. , "CRoM and HuspExt: Improving efficiency of high utility sequential pattern extraction," in 2016 IEEE 32nd International Conference on Data Engineering (ICDE), Helsinki, 2016. [46] Wang, J.Z., Huang, J.L., Chen, Y.C, "On efficiently mining high utility sequential patterns," Knowl. Inf. Syst, vol. 49, no. 2, p. 597–627, 2016. [47] Truong-Chi T., Fournier-Viger P, "A Survey of High Utility Sequential Pattern Mining," in High-Utility Pattern Mining: Theory, Algorithms and Applications, vol. 51, P. Fournier-Viger, J. Lin, R. Nkambou, B. Vo and V. Tseng, Eds., Springer, Cham, 2019. [48] Truong Duc Phuong, Do Van Thanh, Nguyen Duc Dung, "Mining Fuzzy Sequential Patterns with Fuzzy Time-Intervals in Quantitative Sequence Databases," Cybernetics and Information Technologies, vol. 18, no. 2, pp. 3-19, 2018. 142 [49] J. Pei, J. Han, and W. Wang, "Constraint-based sequential pattern mining: the pattern-growth methods," Journal of Intelligent Information Systems, vol. 28, no. 2, p. 133–60, 2007. [50] J. D. Ren, J. Yang, and Y. Li, "Mining weighted closed sequential patterns in large databases," in The International Conference on Fuzzy Systems and Knowledge Discovery, 2008. [51] M. N. Quang, T. Dinh, U. Huynh, and B. Le, "MHHUSP: An integrated algorithm for mining and hiding high utility sequential patterns," in The International Conference on Knowledge and Systems Engineering, 2016. [52] S. Zida, P. Fournier-Viger, C. W. Wu, J. C. Lin, and V. S. Tseng, "Efficient mining of high-utility sequential rules," in The International Conference on Machine Learning and Data Mining, 2015. [53] A. Sirisha, Suresh Pabboju, G. Narsimha, "An approach to mine Time Interval based Weighted Sequential Patterns in Sequence Databases," in International Conference on Signal-Image Technology & Internet-Based Systems, 2017. [54] Asima Jamil, Abdus Salam and Farhat Amin, "Performance evaluation of top-k sequential mining methods on synthetic and real datasets," International Journal of Advanced Computer Research, vol. 7, no. 32, pp. 176- 184, 2017. [55] Chuang.K, Huang.J and Chen.M, "Mining Top-K Frequent Patterns in the Presence of the Memory Constraint," VLDB Journal, vol. 17, pp. 1321- 1344, 2008. [56] Karishma B Hathi , Jatin R Ambasana, "Top K Sequential Pattern Mining Algorithm.," International Conference on Information Engineering, Management and Security, pp. 115-120, 2015. [57] Tzvetkov.P, Yan.X and Han.J, "TSP: Mining Top-K Closed Sequential Patterns," ICDM, pp. 347-354, 2003. [58] Wang.J and Han.J, TFP, "An Efficient Algorithm for Mining Top-K Frequent Closed Itemsets," TKDE, vol. 17, pp. 652-664, 2005. [59] Feremans Len, Cule Boris, Goethals Bart, "Mining Top-k Quantile- based Cohesive Sequential Patterns," in Siam International Conference on Data Mining (SDM18), 2019. [60] Zheng.Z, Cao.L, Song.Y and Wei.W, "Efficiently Mining Top-K High Utility Sequential Patterns," 2013 IEEE 13th International Conference on Data Mining, pp. 1259-1264, 2013. 143 [61] Philippe-fournier-viger, "The SPMF Open-Source Data Mining Library," 2020. [Online]. Available: viger.com/spmf/index.php?link=datasets.php. [62] János Demetrovics, Hoang Minh Quang, Vu Duc Thi, Nguyen Viet Anh, "An Efficient Method to Reduce the Size of Consistent Decision Tables," Acta Cybern, vol. 23, no. 4, pp. 1039-1054 , 2018. [63] Dalmas, B., Fournier-Viger, P., Norre, S, "TWINCLE: a constrained sequential rule mining algorithm for event logs," in Proceedings 9th International KES Conference, 2017. [64] Dinh, T., Huynh, V.N., Le, B, "Mining periodic high utility sequential patterns," in In Asian Conference on Intelligent Information and Database Systems, 2017. [65] Xu, T., Dong, X., Xu, J., Dong, X, "Mining high utility sequential patterns with negative item Mining high utility sequential patterns with negative item," International Journal of Pattern Recognition and Artificial Intelligence, vol. 31, no. 10, pp. 1-17, 2017. [66] Sharda Khode, Sudhir Mohod, "Mining high utility itemsets using TKO and TKU to find top-k high utility web access patterns," in 2017 International conference of Electronics, Communication and Aerospace Technology (ICECA), Coimbatore, 2017. [67] Lin, J.C.W., Zhang, J., Fournier-Viger, P, "High-utility sequential pattern mining with multiple minimum utility thresholds," in Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint Conference on Web and Big Data (2017), 2017. [68] Zihayat, M., Davoudi, H., An, A, "Top-k utility-based gene regulation sequential pattern discovery," in Bioinformatics and Biomedicine (BIBM), 2016 IEEE International Conference, 2016. [69] R. Campisano, F. Porto, E. Pacitti, F. Masseglia, and E. Ogasawara, "Spatial sequential pattern mining for seismic data," The Brazilian Symposium on Databases, p. 241–246, 2016. [70] L. Cao, X. Dong, and Z. Zheng, "e-NSP: Efficient negative sequential pattern mining," Artificial Intelligence, vol. 235, pp. 156-182, 2016. [71] Zihayat, M., Hut, Z.Z., An, A., Hut, Y, "Distributed and parallel high utility sequential pattern mining," in Big Data (Big Data), 2016 IEEE International Conference , 2016. [72] P. Fournier-Viger, C. W. Wu, V. S. Tseng, L. Cao, R. Nkambou, "Mining partially-ordered sequential rules common to multiple sequences," 144 IEEE Transactions on Knowledge and Data Engineering, vol. 27, no. 8, p. 2203–2216, 2015. [73] Zihayat, M., Wu, C.W., An, A., Tseng, V.S, "Mining high utility sequential patterns from evolving data streams," in Proceedings of the ASE Big Data and Social Informatics, 2015. [74] Dave, U., Shah, J, "Efficient mining of high utility sequential pattern from incremental sequential dataset," Int. J. Comput. Appl, vol. 122, no. 12, pp. 22-28, 2015. [75] Janos Demetrovics, Vu Duc Thi, Tran Huy Duong, "An algorithm to mine normalized weighted sequential patterns using Prefix-Projected Database," Serdica Journal of Computing, Sofia, Bulgarian Academy of Sciences, vol. 9, no. 2, p. 105–122, 2015. [76] Dinh, T., Quang, M.N., Le, B., "A Novel approach for hiding high utility sequential patterns," in Proceedings International Symposium Information and Communication Technology, 2015. [77] Show-Jane Yen,Yue-Shi Lee, "Mining non-redundant time-gap sequential patterns," in Appl Intell (2013) 39:, 2013. [78] Shie, B.E., Yu, P.S., Tseng, V.S, "Mining interesting user behavior patterns in mobile commerce environments," Appl. Intell, vol. 38, no. 3, p. 418–435, 2013. [79] Huang, Tony Cheng-Kui, "Discovery of fuzzy quantitative sequential patterns with multiple minimum supports and adjustable membership functions," Information sciences, vol. 222, pp. 126-146, 2013. [80] Gomariz, A., Campos, M., Marin, R., Goethals, B, "ClaSP: an efficient algorithm for mining frequent closed sequences," in Proceedings of 17th Pacific-Asia Conference, 2013. [81] Yin, J., Zheng, Z., Cao, L., Song, Y., Wei, W, " Efficiently mining top- k high utility sequential patterns," in IEEE 13th International Conference on Data Mining, 2013. [82] Shie, B.E., Cheng, J.H., Chuang, K.T., Tseng, V.S, "A one-phase method for mining high utility mobile sequential patterns in mobile commerce environments.," in Advanced Research in Applied Artificial Intelligence, 2012. [83] Fournier-Viger, Philippe, Roger Nkambou, and Vincent Shin-Mu Tseng, "RuleGrowth: mining sequential rules common to several sequences by pattern-growth," in Proceedings of the 2011 ACM symposium on applied computing, 2011. 145 [84] P. Fournier-Viger, and V. S. Tseng, "Mining top-k sequential rules," in The International Conference on Advanced Data Mining and Applications, 2011. [85] Shie, B.E., Hsiao, H., Tseng, V.S., Yu, P.S, "Mining high utility mobile sequential patterns in mobile commerce environments," in International Conference on Database Systems for Advanced Applications, 2011. [86] Kuo, R. J., C. M. Chao, and C. Y. Liu, "Integration of K-means algorithm and AprioriSome algorithm for fuzzy sequential pattern mining," Applied Soft Computing, vol. 9, no. 1, pp. 85-93, 2009. [87] Khan.M.S, Muyeba.M, Coenen.F, "Weighted Association Rule Mining from Binary and Fuzzy Data," in Proceedings of 8th Industrial Conference, ICDM 2008, 2008. [88] L. Chang, T. Wang, D. Yang, and H. Luan, "Seqstream: Mining closed sequential patterns over," in IEEE International Conference on Data Mining, 2008. [89] C. Fiot, A. Laurent, and M. Teisseire, "From crispness to fuzziness: Three algorithms for soft sequential pattern mining," IEEE Transactions on Fuzzy Systems, vol. 15, no. 6, p. 1263–1277, 2007. [90] Hong, Tzung-Pei, Kuei-Ying Lin, and Shyue-Liang Wang, "Mining fuzzy sequential patterns from quantitative transactions," Soft Computing, vol. 10, no. 10, pp. 925-932, 2006. [91] R. A. Garcia-Hernandez, J. F. Martanez-Trinidad, and J. A. Carrasco- Ochoa, "A new algorithm for fast discovery of maximal sequential patterns in a document collection," in The International Conference on Intelligent Text Processing and Computational Linguistics, 2006. [92] Yun.U, Leggett.J.J, "WFIM: weighted frequent itemset mining with a weight range and a minimum weight," in 5th SIAM Int. Conf. on Data Mining, 2005. [93] J. Ho, L. Lukov, and S. Chawla, "Sequential pattern mining with constraints on large protein databases," in The International Conference on Management of Data, 2005. [94] J. H. Chang, and W. S. Lee, "Efficient mining method for retrieving sequential patterns over online," Journal of Information Science, vol. 31, no. 5, p. 420–432, 2005. [95] Cheung.Y.L and Fu.A.W, "Mining frequent itemsets without support threshold: with and without item constraints," TKDE, vol. 16, pp. 1052-1069, 2004. 146 [96] H. Cheng, X. Yan, and J. Han, "IncSpan: incremental mining of sequential patterns in large database," in ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004. [97] Hu, Yi-Chung, Gwo-Hshiung Tzeng, and Chin-Mi Chen. , "Deriving two-stage learning sequences from knowledge in fuzzy sequential pattern mining.," Information Sciences, vol. 159, no. 1, pp. 69-86, 2004. [98] Tao.F, Murtagh.F, Farid.M, "Weighted Association Rule Mining Using Weighted Support and Significance Framework," in Proceedings of 9th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 2003. [99] Y.-C. Hu, R.-S. Chen, G.-H. Tzeng, and J.-H. Shieh, "A fuzzy data mining algorithm for finding sequential patterns," Int. J. Uncertainty, Fuzziness Knowledge-Based Syst, vol. 11, no. 2, p. 173–193, 2003. [100] Kitakami, H., Kanbara, T., Mori, Y., Kuroki, S. and Ya-mazaki, Y., "Modified PrefixSpan Method for Motif Dis-covery in Sequence Databases," in in Proc. of PRICAI2002, 2002. [101] Chen, Yen-Liang, Shih-Sheng Chen, and Ping-Yu Hsu, "Mining hybrid sequential patterns and sequential rules," Information Systems, vol. 27, no. 5, pp. 345-362, 2002. [102] Hong, Tzung-Pei, Kuie-Ying Lin, and Shyue-Liang Wang, "Mining fuzzy sequential patterns from multiple-item transactions.," in IFSA World Congress and 20th NAFIPS International Conference, 2001. Joint 9th, 2001. [103] Chen, Ruey-Shun, et al., "Discovery of fuzzy sequential patterns for fuzzy partitions in quantitative attributes," in Computer Systems and Applications, ACS/IEEE International Conference on. 2001, 2001. [104] Wang.W, Yang.J, and Yu.P.S, "Efficient Mining of Weighted Association Rules (WAR)," in Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2000. [105] Garofalakis, Minos N., Rajeev Rastogi, and Kyuseok Shim, "SPIRIT: Sequential pattern mining with regular expression constraints.," VLDB, vol. 99, 1999. [106] Hong, Tzung-pei, Chan-Sheng Kuo, and Sheng-Chai Chi., "Mining fuzzy sequential patterns from quantitative data.," in IEEE SMC'99 Conference Proceedings, 1999. [107] Cai.C.H, Chee Fu.A.W, Cheng.C.H, and Kwong.W.W, "Mining Association Rules with Weighted Items," in Proceedings of the 1998 International Symposium on Database Engineering & Applications, Cardiff, Wales, 1998. 147 [108] R. B. V Subramanyam and A. Goswami, "A fuzzy data mining algorithm for incremental mining of quantitative sequential patterns," Int. J. Uncertainty, Fuzziness Knowledge-Based Syst, vol. 13, no. 6, p. 633–652, 2005. [109] T. Huang, R. Huang, B. Liu, and Y. Yan, "Extracting Various Types of Informative Web Content via Fuzzy Sequential Pattern Mining," in sia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint Conference on Web and Big Data, 2017. [110] M. Yoshida, T. Iizuka, H. Shiohara, and M. Ishiguro, "Mining sequential patterns including time intervals," Data Mining and Knowledge Discovery: Theory, Tools, and Technology II, vol. 4057, p. 213–220, 2000. [111] F. Giannotti, M. Nanni, D. Pedreschi, and F. Pinelli, "Mining sequences with temporal annotations," in Proceedings of the 2006 ACM symposium on Applied computing, 2006. [112] I. Mukhlash, D. Yuanda, and M. Iqbal, "Mining Fuzzy Time Interval Periodic Patterns in Smart Home Data," International Journal of Electrical and Computer Engineering (IJECE), vol. 8, no. 5, p. 3374, 2018. [113] C.-I. Chang, H.-E. Chueh, and N. P. Lin, "Sequential patterns mining with fuzzy time-intervals," in Sixth International Conference on Fuzzy Systems and Knowledge Discovery, 2009. [114] C.-I. Chang, H.-E. Chueh, and Y.-C. Luo, "An integrated sequential patterns mining with fuzzy time-intervals," in International Conference on Systems and Informatics (ICSAI2012), 2012. [115] Sahugu`ede, A., Le Corronc, E., and Le Lann, M.-V, "An ordered chronicle discovery algorithm," in 3nd ECML/PKDD Workshop on Advanced Analytics and Learning on Temporal Data, 2018. [116] Guyet, T. and Quiniou, R., "NegPSpan: efficient extraction of negative sequential patterns with embedding constraints," Data Mining and Knowledge Discovery, vol. 34, no. 2, pp. 563-609, 2020. [117] J. Bakalara, "Temporal models of care sequences for the exploration of medico-administrative data.," in In Proceedings of the 17th Conference on Artificial Intelligence in Medicine (AIME),, Poznan, Poland, 2019. [118] Mathonat, R., Nurbakova, D., Boulicaut, J.-F., and Kaytoue, M., "SeqScout: Using a Bandit Model to Discover Interesting Subgroups in Labeled Sequences," in In IEEE International Conference on Data Science and Advanced Analytics (DSAA), Washington, United States, 2019.
File đính kèm:
- luan_an_khai_pha_mau_day_co_trong_so_trong_co_so_du_lieu_day.pdf
- DanhMucCongTrinhCongBo_Tran Huy Duong.pdf
- Nhung dong gop moi cua Luan an _Tran Huy Duong_01062021.doc
- Tieng Anh_ TomTatLuanAn-Tran Huy Duong.pdf
- TomTatLuanAn-Tran Huy Duong.pdf
- Trang thông tin đóng góp mới TA và TV, trích yếu LA Tran Huy Duong_0001.pdf
- TrichYeuLuanAn_HuyDuong.docx