Luận án Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy

Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá

trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ

liệu. Khai phá tập mục thường xuyên là một hướng cơ bản trong khai phá dữ liệu. Bài

toán khai phá tập mục thường xuyên được Agrawal và Srikant giới thiệu trong [1]

với mục đích tìm ra các mục thường xuất hiện cùng nhau trong CSDL giao dịch. Ví

dụ như một tập mục thường xuyên {Máy in; Giấy} thể hiện rằng các sản phẩm này

thường được mua cùng nhau. Các tập mục thường xuyên có dạng đơn giản và dễ hiểu

đối với con người nhưng lại rất hữu ích trong việc ra quyết định.

Từ khi ra đời, lĩnh vực khai phá tập mục thường xuyên đã thu hút rất nhiều

nhà nghiên cứu. Rất nhiều công trình đã và đang tiếp tục được công bố nhằm phát

triển các kỹ thuật khai phá tập mục thường xuyên cũng như mở rộng bài toán khai

phá tập mục thường xuyên. Tuy nhiên, trong bài toán này, thứ tự của các mục lại bị

bỏ qua. Điều này có thể dẫn tới việc không tìm được các tập mục hữu ích hoặc các

tập mục được tìm thấy không thực sự hữu ích. Khai phá các mẫu dãy tiềm năng và

và hữu ích trong các cơ sở dữ liệu dãy là một trong những nội dung quan trọng trong

khai phá dữ liệu cơ bản. Những năm gần đây, các xu hướng nghiên cứu các vấn đề

khai phá dữ liệu là đề xuất các thuật toán để khai phá các mẫu dãy trong các loại

CSDL dữ liệu dãy. Một trong những nội dung khai thác dữ liệu phổ biến nhất trên

dãy là khai phá các mẫu dãy tuần tự. Để có thể giải quyết vấn đề này, bài toán khai

phá mẫu dãy thường xuyên đã được Agrawal và Srikant đề xuất trong [2].

pdf 151 trang dienloan 20100
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy

Luận án Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC 
VÀ CÔNG NGHỆ VIỆT NAM 
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ 
----------------------------- 
TRẦN HUY DƯƠNG 
KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ 
TRONG CƠ SỞ DỮ LIỆU DÃY 
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH 
HÀ NỘI – 2021 
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC 
VÀ CÔNG NGHỆ VIỆT NAM 
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ 
----------------------------- 
Trần Huy Dương 
KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ 
TRONG CƠ SỞ DỮ LIỆU DÃY 
Chuyên ngành: Hệ thống thông tin 
Mã số: 9 48 01 04 
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH 
 NGƯỜI HƯỚNG DẪN KHOA HỌC: 
1. TS. Nguyễn Trường Thắng 
2. GS.TS. Vũ Đức Thi 
Hà Nội – Năm 2021 
1 
i 
LỜI CAM ĐOAN 
Tôi xin cam đoan đây là công trình nghiên cứu của tôi và những kết quả trình 
bày trong luận án là mới, trung thực và chưa từng được công bố trong bất kỳ công 
trình của người khác. Những kết quả viết chung với cán bộ hướng dẫn và các tác giả 
khác đều được sự đồng ý khi đưa vào luận án. Việc tham khảo các nguồn tài liệu, bài 
viết được thực hiện trích dẫn và ghi nguồn tham khảo theo đúng quy định. 
 Tác giả luận án 
 NCS. Trần Huy Dương 
2 
ii 
 LỜI CẢM ƠN 
Lời đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới TS.Nguyễn Trường Thắng và 
GS.TS.Vũ Đức Thi đã tận tình hướng dẫn, giúp đỡ tôi trong quá trình nghiên cứu, 
đăng bài và hoàn thành luận án này. 
Tôi cũng xin chân thành cảm ơn Ban lãnh đạo Viện Công nghệ thông tin - Viện 
Hàn lâm Khoa học và Công nghệ Việt Nam, lãnh đạo Học viện Khoa học và Công 
nghệ đã tạo điều kiện thuận lợi cho quá trình nghiên cứu của tôi, cảm ơn các cán bộ 
của phòng Công nghệ phần mềm trong quản lý đã nhiệt tình trong công tác, giúp tôi 
dành thời gian tập trung nghiên cứu và hoàn thành luận án. 
Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn là nguồn động 
viên, ủng hộ, giúp tôi thêm động lực để hoàn thành luận án này. 
Người thực hiện 
Trần Huy Dương 
1 
MỤC LỤC 
DANH MỤC HÌNH VẼ ............................................................................................ 3 
DANH MỤC BẢNG BIỂU ....................................................................................... 4 
DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................... 6 
MỞ ĐẦU .................................................................................................................... 7 
CHƯƠNG 1. TỔNG QUAN KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG 
CƠ SỞ DỮ LIỆU DÃY ............................................................................................ 15 
1.1. Tổng quan tình hình nghiên cứu .................................................................. 15 
1.2. Khai phá mẫu dãy có trọng số trong CSDL dãy .......................................... 25 
1.3. Khai phá mẫu dãy có trọng số trong CSDL dãy với khoảng cách thời gian ... 
 ..................................................................................................................... 32 
1.4. Khai phá mẫu dãy lợi ích cao trong CSDL định lượng có khoảng cách thời 
gian ..................................................................................................................... 47 
Kết luận Chương 1 .................................................................................................... 61 
CHƯƠNG 2. KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ 
LIỆU DÃY CÓ KHOẢNG CÁCH THỜI GIAN ..................................................... 63 
2.1. Giới thiệu ..................................................................................................... 63 
2.2. Thuật toán khai phá top-k mẫu dãy thường xuyên trọng số với khoảng cách 
thời gian (TopKWFP) ............................................................................................... 65 
2.2.1. Bài toán đặt ra .............................................................................................. 65 
2.2.2. Ý tưởng thuật toán ....................................................................................... 66 
2.2.3. Thuật toán TopKWFP ................................................................................. 67 
2.2.4. Phân tích thuật toán TopKWFP ................................................................... 70 
2.2.5. Thử nghiệm thuật toán ................................................................................. 78 
Kết luận Chương 2 .................................................................................................... 86 
CHƯƠNG 3. KHAI PHÁ MẪU DÃY LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU 
DÃY CÓ KHOẢNG CÁCH THỜI GIAN ............................................................... 87 
3.1. Giới thiệu ..................................................................................................... 87 
3.2. Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian 
(UIPrefixSpan) .......................................................................................................... 89 
3.2.1. Bài toán đặt ra .............................................................................................. 89 
3.2.2. Ý tưởng thuật toán ....................................................................................... 90 
3.2.3. Thuật toán UIPrefixSpan ............................................................................. 90 
3.2.4. Phân tích thuật toán UIPrefixSpan .............................................................. 92 
2 
3.2.5. Thử nghiệm thuật toán ...............................................................................103 
3.3. Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian 1 pha 
(HUISP) ...................................................................................................................109 
3.3.1. Bài toán đặt ra ............................................................................................109 
3.3.2. Ý tưởng thuật toán .....................................................................................110 
3.3.3. Thuật toán HUISP .....................................................................................112 
3.3.4. Phân tích thuật toán HUISP .......................................................................114 
3.3.5. Thử nghiệm thuật toán ...............................................................................126 
Kết luận Chương 3 ..................................................................................................133 
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................134 
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ ........................................................137 
TÀI LIỆU THAM KHẢO .......................................................................................138 
3 
DANH MỤC HÌNH VẼ 
Hình 1.1. Các vấn đề nghiên cứu của luận án ........................................................... 25 
Hình 2.1 Ảnh hưởng của tham số k .......................................................................... 80 
Hình 2.2 Ảnh hưởng của chiến lược tối ưu lên thời gian chạy ................................. 81 
Hình 2.3 Ảnh hưởng của chiến lược tối ưu lên số ứng viên tạo ra ........................... 82 
Hình 2.4. So sánh 2 thuật toán WIPrefixSpan và TopKWFP ................................... 85 
Hình 3.1 Biểu đồ phân phối giá trị lợi nhuận của 1000 mục (UIPrefixSpan) ........104 
Hình 3.2 Thời gian chạy UIPrefixSpan ...................................................................106 
Hình 3.3 Bộ nhớ sử dụng UIPrefixSpan .................................................................107 
Hình 3.4 Số mẫu dãy lợi ích cao UIPrefixSpan ......................................................109 
Hình 3.5 Biểu đồ phân phối giá trị lợi nhuận của 1000 mục (HUISP) ...................127 
Hình 3.6 Thời gian chạy HUISP .............................................................................128 
Hình 3.7 Bộ nhớ sử dụng HUISP ............................................................................129 
Hình 3.8 Ảnh hưởng của số lượng mẫu dãy với thời gian chạy và bộ nhớ ............132 
4 
DANH MỤC BẢNG BIỂU 
Bảng 1.1 Danh sách một số công trình liên quan đến luận án .................................. 22 
Bảng 1.2 CSDL dãy SDB ......................................................................................... 26 
Bảng 1.3 Trọng số của các mục trong SDB .............................................................. 26 
Bảng 1.4 CSDL dãy iSDB với khoảng cách thời gian .............................................. 33 
Bảng 1.5 Trọng số của các mục trong iSDB ............................................................. 34 
Bảng 1.6 CSDL dãy QiSDB với khoảng cách thời gian ........................................... 48 
Bảng 1.7 Trọng số của các mục trong QiSDB .......................................................... 49 
Bảng 1.8 Bảng lợi ích QiSDB ................................................................................... 56 
Bảng 1.9 Bảng chỉ mục ............................................................................................. 56 
Bảng 2.1 CSDL dãy iSDB với khoảng cách thời gian .............................................. 75 
Bảng 2.2 Trọng số của các mục trong iSDB ............................................................. 75 
Bảng 2.3 CSDL chiếu của dãy ........................................................................ 77 
Bảng 2.4 Các bộ dữ liệu thực nghiệm ....................................................................... 79 
Bảng 2.5 Thống kê chi tiết số lượng mẫu dãy ứng viên tạo ra ................................. 83 
Bảng 3.1 Cơ sở dữ liệu điều kiện với tiền tố .................................................. 97 
Bảng 3.2 Cơ sở dữ liệu điều kiện với tiền tố ....................................... 97 
Bảng 3.3 Cơ sở dữ liệu điều kiện với tiền tố ............................ 98 
Bảng 3.4 Cơ sở dữ liệu điều kiện với tiền tố .......................... 98 
Bảng 3.5 Các mẫu dãy ứng viên ứng với tiền tố ........................................... 99 
Bảng 3.6 Bảng thống kê khai phá mẫu dãy lợi ích cao với khoảng cách thời gian trong 
QiSDB. ....................................................................................................................100 
Bảng 3.7 Lợi ích của mẫu dãy 1 phần tử ................................................................118 
5 
Bảng 3.8 Lợi ích của các dãu đầu vào ....................................................................119 
Bảng 3.9 Bảng lợi ích của các mẫu dãy 1 phần tử ..................................................119 
Bảng 3.10 Bảng chỉ mục trong QiSDB ...................................................................120 
Bảng 3.11 CSDL chiếu của QiSDB| ....................................................121 
Bảng 3.12 Bảng lợi ích của các mẫu ứng viên độ dài 2 với tiền tố ..............122 
Bảng 3.13 CSDL chiếu của QiSDB| ................................122 
Bảng 3.14 Bảng lợi ích của các mục ứng viên độ dài 3 với tiền tố .....123 
Bảng 3.15 CSDL chiếu của QiSDB| ..............123 
Bảng 3.16 Bảng lợi ích của các mục ứng viên độ dài 4 với tiền tố 
 .................................................................................................................................124 
Bảng 3.17 Bảng mẫu dãy lợi ích cao tìm được với tiền tố ...........................124 
Bảng 3.18 Bảng mẫu dãy lợi ích cao với khoảng cách thời gian của QiSDB ........125 
Bảng 3.19 Bảng thống kê số lượng mẫu dãy ứng viên và số mẫu dãy lợi ích cao của 
UIPrefixSpan và HUISP .........................................................................................130 
6 
DANH MỤC CÁC TỪ VIẾT TẮT 
Từ viết tắt Tiếng Anh Tiếng Việt 
CSDL Database Cơ sở dữ liệu 
UL Utility Level Thuật toán khai phá mẫu dãy 
lợi ích cao theo phương pháp 
Apriori 
US Utility Span Thuật toán khai phá lợi ích cao 
theo phương pháp PrefixSpan 
PrefixSpan Prefix-Projected Sequential 
Patterns Mining Algorithm 
Thuật toán khai phá mẫu dãy 
thường xuyên theo phương 
pháp tăng trưởng mẫu dãy 
TopKWFP Top-k weighted sequential 
pattern mining with item interval 
Algorithm 
Thuật toán khai phá top-k mẫu 
dãy trọng số có khoảng cách 
thời gian 
WIPrefixSpan Weighted sequential pattern 
mining with item interval 
Algorithm 
Thuật toán khai phá mẫu dãy 
trọng số có khoảng cách thời 
gian 
UIPrefixSpan High Utility Sequential Patterns 
with Time Interval Algorithm 
Thuật toán khai phá mẫu dãy 
lợi ích cao có khoảng cách thời 
gian theo phương pháp 2 pha 
HUISP High Utility Item Interval 
Sequential Pattern Algorithm 
Thuật toán khai phá mẫu dãy 
lợi ích cao có khoảng cách thời 
gian theo phương pháp sử 
dụng bảng lợi ích 
GSP Generalized Sequential Pattern Thuật toán khai phá mẫu dãy 
tổng quát 
SDB Sequence Database Cơ sở dữ liệu dãy 
iSDB Sequence Database with item 
interval 
Cơ sở dữ liệu dãy có khoảng 
cách thời gian 
QiSDB Quantitative Sequence Database 
with item interval 
Cơ sở dữ liệu dãy định lượng 
có khoảng cách thời gian 
UCI UC Irvine Machine Kho dữ liệu chuẩn UCI 
7 
MỞ ĐẦU 
1. Tổng quan 
Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá 
trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ 
liệu. Khai phá tập mục thường xuyên là một hướng cơ bản trong khai phá dữ liệu. Bài 
toán khai phá tập mục thường xuyên được Agrawal và Srikant giới thiệu trong [1] 
với mục đích tìm ra các mục thường xuất hiện cùng nhau trong CSDL giao dịch. Ví 
dụ như một tập mục thường xuyên {Máy in; Giấy} thể hiện rằng các sản phẩm này 
thường được mua cùng nhau. Các tập mục thường xuyên có dạng đơn giản và dễ hiểu 
đối với con người nhưng lại rất hữu ích trong việc ra quyết định. 
Từ khi ra đời, lĩnh vực khai phá tập mục thường xuyên đã thu hút rất nhiều 
nhà nghiên cứu. Rất nhiều công trình đã và đang tiếp tục được công bố nhằm phát 
triển các kỹ thuật khai phá tập mục thường xuyên cũng như mở rộng bài toán khai 
phá tập mục thường xuyên. Tuy nhiên, trong bài toán này, thứ tự của các mục lại bị 
bỏ qua. Điều này có thể dẫn tới việc không tìm được các tập mục hữu ích hoặc các 
tập mục được tìm thấy không thực sự hữu ích. Khai phá các mẫu dãy tiềm năng và 
và hữu ích trong các cơ sở dữ liệu dãy là một trong những nội dung quan trọng trong 
khai phá dữ liệu cơ bản. Những năm gần đây, các xu hướng nghiên cứu các vấn đề 
khai phá dữ liệu là đề xuất các thuật toán để khai phá các mẫu dãy trong các loại 
CSDL dữ liệu dãy. Một trong những nội dung khai thác dữ liệu phổ biến nhất trên 
dãy là khai phá các mẫu dãy tuần tự. Để có thể giải quyết vấn đề này, bài toán khai 
phá mẫu dãy thường xuyên đã được Agrawal và Srikant đề xuất trong [2]. Nội dung 
theo hướng này bao gồm các việc khai phá các mẫu dãy tiềm năng, hữu ích trong một 
tập hợp các dãy dữ liệu, trong đó mức độ hữu ích của một dãy con có thể được tính 
toán và xác định theo nhiều tiêu ...  Knowledge, 2012. 
[44] Lan, G.C., Hong, T.P., Tseng, V.S., Wang, S.L, "Applying the 
maximum utility measure in high utility sequential pattern mining," Expert 
Syst. Appl, vol. 41, no. 11, p. 5071–5081, 2014. 
[45] Alkan, O. K. and Karagoz, P. , "CRoM and HuspExt: Improving 
efficiency of high utility sequential pattern extraction," in 2016 IEEE 32nd 
International Conference on Data Engineering (ICDE), Helsinki, 2016. 
[46] Wang, J.Z., Huang, J.L., Chen, Y.C, "On efficiently mining high utility 
sequential patterns," Knowl. Inf. Syst, vol. 49, no. 2, p. 597–627, 2016. 
[47] Truong-Chi T., Fournier-Viger P, "A Survey of High Utility Sequential 
Pattern Mining," in High-Utility Pattern Mining: Theory, Algorithms and 
Applications, vol. 51, P. Fournier-Viger, J. Lin, R. Nkambou, B. Vo and V. 
Tseng, Eds., Springer, Cham, 2019. 
[48] Truong Duc Phuong, Do Van Thanh, Nguyen Duc Dung, "Mining 
Fuzzy Sequential Patterns with Fuzzy Time-Intervals in Quantitative 
Sequence Databases," Cybernetics and Information Technologies, vol. 18, no. 
2, pp. 3-19, 2018. 
142 
[49] J. Pei, J. Han, and W. Wang, "Constraint-based sequential pattern 
mining: the pattern-growth methods," Journal of Intelligent Information 
Systems, vol. 28, no. 2, p. 133–60, 2007. 
[50] J. D. Ren, J. Yang, and Y. Li, "Mining weighted closed sequential 
patterns in large databases," in The International Conference on Fuzzy Systems 
and Knowledge Discovery, 2008. 
[51] M. N. Quang, T. Dinh, U. Huynh, and B. Le, "MHHUSP: An integrated 
algorithm for mining and hiding high utility sequential patterns," in The 
International Conference on Knowledge and Systems Engineering, 2016. 
[52] S. Zida, P. Fournier-Viger, C. W. Wu, J. C. Lin, and V. S. Tseng, 
"Efficient mining of high-utility sequential rules," in The International 
Conference on Machine Learning and Data Mining, 2015. 
[53] A. Sirisha, Suresh Pabboju, G. Narsimha, "An approach to mine Time 
Interval based Weighted Sequential Patterns in Sequence Databases," in 
International Conference on Signal-Image Technology & Internet-Based 
Systems, 2017. 
[54] Asima Jamil, Abdus Salam and Farhat Amin, "Performance evaluation 
of top-k sequential mining methods on synthetic and real datasets," 
International Journal of Advanced Computer Research, vol. 7, no. 32, pp. 176-
184, 2017. 
[55] Chuang.K, Huang.J and Chen.M, "Mining Top-K Frequent Patterns in 
the Presence of the Memory Constraint," VLDB Journal, vol. 17, pp. 1321-
1344, 2008. 
[56] Karishma B Hathi , Jatin R Ambasana, "Top K Sequential Pattern 
Mining Algorithm.," International Conference on Information Engineering, 
Management and Security, pp. 115-120, 2015. 
[57] Tzvetkov.P, Yan.X and Han.J, "TSP: Mining Top-K Closed Sequential 
Patterns," ICDM, pp. 347-354, 2003. 
[58] Wang.J and Han.J, TFP, "An Efficient Algorithm for Mining Top-K 
Frequent Closed Itemsets," TKDE, vol. 17, pp. 652-664, 2005. 
[59] Feremans Len, Cule Boris, Goethals Bart, "Mining Top-k Quantile-
based Cohesive Sequential Patterns," in Siam International Conference on 
Data Mining (SDM18), 2019. 
[60] Zheng.Z, Cao.L, Song.Y and Wei.W, "Efficiently Mining Top-K High 
Utility Sequential Patterns," 2013 IEEE 13th International Conference on 
Data Mining, pp. 1259-1264, 2013. 
143 
[61] Philippe-fournier-viger, "The SPMF Open-Source Data Mining 
Library," 2020. [Online]. Available: 
viger.com/spmf/index.php?link=datasets.php. 
[62] János Demetrovics, Hoang Minh Quang, Vu Duc Thi, Nguyen Viet 
Anh, "An Efficient Method to Reduce the Size of Consistent Decision Tables," 
Acta Cybern, vol. 23, no. 4, pp. 1039-1054 , 2018. 
[63] Dalmas, B., Fournier-Viger, P., Norre, S, "TWINCLE: a constrained 
sequential rule mining algorithm for event logs," in Proceedings 9th 
International KES Conference, 2017. 
[64] Dinh, T., Huynh, V.N., Le, B, "Mining periodic high utility sequential 
patterns," in In Asian Conference on Intelligent Information and Database 
Systems, 2017. 
[65] Xu, T., Dong, X., Xu, J., Dong, X, "Mining high utility sequential 
patterns with negative item Mining high utility sequential patterns with 
negative item," International Journal of Pattern Recognition and Artificial 
Intelligence, vol. 31, no. 10, pp. 1-17, 2017. 
[66] Sharda Khode, Sudhir Mohod, "Mining high utility itemsets using TKO 
and TKU to find top-k high utility web access patterns," in 2017 International 
conference of Electronics, Communication and Aerospace Technology 
(ICECA), Coimbatore, 2017. 
[67] Lin, J.C.W., Zhang, J., Fournier-Viger, P, "High-utility sequential 
pattern mining with multiple minimum utility thresholds," in Asia-Pacific Web 
(APWeb) and Web-Age Information Management (WAIM) Joint Conference 
on Web and Big Data (2017), 2017. 
[68] Zihayat, M., Davoudi, H., An, A, "Top-k utility-based gene regulation 
sequential pattern discovery," in Bioinformatics and Biomedicine (BIBM), 
2016 IEEE International Conference, 2016. 
[69] R. Campisano, F. Porto, E. Pacitti, F. Masseglia, and E. Ogasawara, 
"Spatial sequential pattern mining for seismic data," The Brazilian Symposium 
on Databases, p. 241–246, 2016. 
[70] L. Cao, X. Dong, and Z. Zheng, "e-NSP: Efficient negative sequential 
pattern mining," Artificial Intelligence, vol. 235, pp. 156-182, 2016. 
[71] Zihayat, M., Hut, Z.Z., An, A., Hut, Y, "Distributed and parallel high 
utility sequential pattern mining," in Big Data (Big Data), 2016 IEEE 
International Conference , 2016. 
[72] P. Fournier-Viger, C. W. Wu, V. S. Tseng, L. Cao, R. Nkambou, 
"Mining partially-ordered sequential rules common to multiple sequences," 
144 
IEEE Transactions on Knowledge and Data Engineering, vol. 27, no. 8, p. 
2203–2216, 2015. 
[73] Zihayat, M., Wu, C.W., An, A., Tseng, V.S, "Mining high utility 
sequential patterns from evolving data streams," in Proceedings of the ASE 
Big Data and Social Informatics, 2015. 
[74] Dave, U., Shah, J, "Efficient mining of high utility sequential pattern 
from incremental sequential dataset," Int. J. Comput. Appl, vol. 122, no. 12, 
pp. 22-28, 2015. 
[75] Janos Demetrovics, Vu Duc Thi, Tran Huy Duong, "An algorithm to 
mine normalized weighted sequential patterns using Prefix-Projected 
Database," Serdica Journal of Computing, Sofia, Bulgarian Academy of 
Sciences, vol. 9, no. 2, p. 105–122, 2015. 
[76] Dinh, T., Quang, M.N., Le, B., "A Novel approach for hiding high 
utility sequential patterns," in Proceedings International Symposium 
Information and Communication Technology, 2015. 
[77] Show-Jane Yen,Yue-Shi Lee, "Mining non-redundant time-gap 
sequential patterns," in Appl Intell (2013) 39:, 2013. 
[78] Shie, B.E., Yu, P.S., Tseng, V.S, "Mining interesting user behavior 
patterns in mobile commerce environments," Appl. Intell, vol. 38, no. 3, p. 
418–435, 2013. 
[79] Huang, Tony Cheng-Kui, "Discovery of fuzzy quantitative sequential 
patterns with multiple minimum supports and adjustable membership 
functions," Information sciences, vol. 222, pp. 126-146, 2013. 
[80] Gomariz, A., Campos, M., Marin, R., Goethals, B, "ClaSP: an efficient 
algorithm for mining frequent closed sequences," in Proceedings of 17th 
Pacific-Asia Conference, 2013. 
[81] Yin, J., Zheng, Z., Cao, L., Song, Y., Wei, W, " Efficiently mining top-
k high utility sequential patterns," in IEEE 13th International Conference on 
Data Mining, 2013. 
[82] Shie, B.E., Cheng, J.H., Chuang, K.T., Tseng, V.S, "A one-phase 
method for mining high utility mobile sequential patterns in mobile commerce 
environments.," in Advanced Research in Applied Artificial Intelligence, 2012. 
[83] Fournier-Viger, Philippe, Roger Nkambou, and Vincent Shin-Mu 
Tseng, "RuleGrowth: mining sequential rules common to several sequences 
by pattern-growth," in Proceedings of the 2011 ACM symposium on applied 
computing, 2011. 
145 
[84] P. Fournier-Viger, and V. S. Tseng, "Mining top-k sequential rules," in 
The International Conference on Advanced Data Mining and Applications, 
2011. 
[85] Shie, B.E., Hsiao, H., Tseng, V.S., Yu, P.S, "Mining high utility mobile 
sequential patterns in mobile commerce environments," in International 
Conference on Database Systems for Advanced Applications, 2011. 
[86] Kuo, R. J., C. M. Chao, and C. Y. Liu, "Integration of K-means 
algorithm and AprioriSome algorithm for fuzzy sequential pattern mining," 
Applied Soft Computing, vol. 9, no. 1, pp. 85-93, 2009. 
[87] Khan.M.S, Muyeba.M, Coenen.F, "Weighted Association Rule Mining 
from Binary and Fuzzy Data," in Proceedings of 8th Industrial Conference, 
ICDM 2008, 2008. 
[88] L. Chang, T. Wang, D. Yang, and H. Luan, "Seqstream: Mining closed 
sequential patterns over," in IEEE International Conference on Data Mining, 
2008. 
[89] C. Fiot, A. Laurent, and M. Teisseire, "From crispness to fuzziness: 
Three algorithms for soft sequential pattern mining," IEEE Transactions on 
Fuzzy Systems, vol. 15, no. 6, p. 1263–1277, 2007. 
[90] Hong, Tzung-Pei, Kuei-Ying Lin, and Shyue-Liang Wang, "Mining 
fuzzy sequential patterns from quantitative transactions," Soft Computing, vol. 
10, no. 10, pp. 925-932, 2006. 
[91] R. A. Garcia-Hernandez, J. F. Martanez-Trinidad, and J. A. Carrasco-
Ochoa, "A new algorithm for fast discovery of maximal sequential patterns in 
a document collection," in The International Conference on Intelligent Text 
Processing and Computational Linguistics, 2006. 
[92] Yun.U, Leggett.J.J, "WFIM: weighted frequent itemset mining with a 
weight range and a minimum weight," in 5th SIAM Int. Conf. on Data Mining, 
2005. 
[93] J. Ho, L. Lukov, and S. Chawla, "Sequential pattern mining with 
constraints on large protein databases," in The International Conference on 
Management of Data, 2005. 
[94] J. H. Chang, and W. S. Lee, "Efficient mining method for retrieving 
sequential patterns over online," Journal of Information Science, vol. 31, no. 
5, p. 420–432, 2005. 
[95] Cheung.Y.L and Fu.A.W, "Mining frequent itemsets without support 
threshold: with and without item constraints," TKDE, vol. 16, pp. 1052-1069, 
2004. 
146 
[96] H. Cheng, X. Yan, and J. Han, "IncSpan: incremental mining of 
sequential patterns in large database," in ACM SIGKDD International 
Conference on Knowledge Discovery and Data Mining, 2004. 
[97] Hu, Yi-Chung, Gwo-Hshiung Tzeng, and Chin-Mi Chen. , "Deriving 
two-stage learning sequences from knowledge in fuzzy sequential pattern 
mining.," Information Sciences, vol. 159, no. 1, pp. 69-86, 2004. 
[98] Tao.F, Murtagh.F, Farid.M, "Weighted Association Rule Mining Using 
Weighted Support and Significance Framework," in Proceedings of 9th ACM 
SIGKDD Conference on Knowledge Discovery and Data Mining, 2003. 
[99] Y.-C. Hu, R.-S. Chen, G.-H. Tzeng, and J.-H. Shieh, "A fuzzy data 
mining algorithm for finding sequential patterns," Int. J. Uncertainty, 
Fuzziness Knowledge-Based Syst, vol. 11, no. 2, p. 173–193, 2003. 
[100] Kitakami, H., Kanbara, T., Mori, Y., Kuroki, S. and Ya-mazaki, Y., 
"Modified PrefixSpan Method for Motif Dis-covery in Sequence Databases," 
in in Proc. of PRICAI2002, 2002. 
[101] Chen, Yen-Liang, Shih-Sheng Chen, and Ping-Yu Hsu, "Mining hybrid 
sequential patterns and sequential rules," Information Systems, vol. 27, no. 5, 
pp. 345-362, 2002. 
[102] Hong, Tzung-Pei, Kuie-Ying Lin, and Shyue-Liang Wang, "Mining 
fuzzy sequential patterns from multiple-item transactions.," in IFSA World 
Congress and 20th NAFIPS International Conference, 2001. Joint 9th, 2001. 
[103] Chen, Ruey-Shun, et al., "Discovery of fuzzy sequential patterns for 
fuzzy partitions in quantitative attributes," in Computer Systems and 
Applications, ACS/IEEE International Conference on. 2001, 2001. 
[104] Wang.W, Yang.J, and Yu.P.S, "Efficient Mining of Weighted 
Association Rules (WAR)," in Proceedings of the Sixth ACM SIGKDD 
International Conference on Knowledge Discovery and Data Mining, 2000. 
[105] Garofalakis, Minos N., Rajeev Rastogi, and Kyuseok Shim, "SPIRIT: 
Sequential pattern mining with regular expression constraints.," VLDB, vol. 
99, 1999. 
[106] Hong, Tzung-pei, Chan-Sheng Kuo, and Sheng-Chai Chi., "Mining 
fuzzy sequential patterns from quantitative data.," in IEEE SMC'99 
Conference Proceedings, 1999. 
[107] Cai.C.H, Chee Fu.A.W, Cheng.C.H, and Kwong.W.W, "Mining 
Association Rules with Weighted Items," in Proceedings of the 1998 
International Symposium on Database Engineering & Applications, Cardiff, 
Wales, 1998. 
147 
[108] R. B. V Subramanyam and A. Goswami, "A fuzzy data mining 
algorithm for incremental mining of quantitative sequential patterns," Int. J. 
Uncertainty, Fuzziness Knowledge-Based Syst, vol. 13, no. 6, p. 633–652, 
2005. 
[109] T. Huang, R. Huang, B. Liu, and Y. Yan, "Extracting Various Types of 
Informative Web Content via Fuzzy Sequential Pattern Mining," in sia-Pacific 
Web (APWeb) and Web-Age Information Management (WAIM) Joint 
Conference on Web and Big Data, 2017. 
[110] M. Yoshida, T. Iizuka, H. Shiohara, and M. Ishiguro, "Mining 
sequential patterns including time intervals," Data Mining and Knowledge 
Discovery: Theory, Tools, and Technology II, vol. 4057, p. 213–220, 2000. 
[111] F. Giannotti, M. Nanni, D. Pedreschi, and F. Pinelli, "Mining sequences 
with temporal annotations," in Proceedings of the 2006 ACM symposium on 
Applied computing, 2006. 
[112] I. Mukhlash, D. Yuanda, and M. Iqbal, "Mining Fuzzy Time Interval 
Periodic Patterns in Smart Home Data," International Journal of Electrical 
and Computer Engineering (IJECE), vol. 8, no. 5, p. 3374, 2018. 
[113] C.-I. Chang, H.-E. Chueh, and N. P. Lin, "Sequential patterns mining 
with fuzzy time-intervals," in Sixth International Conference on Fuzzy 
Systems and Knowledge Discovery, 2009. 
[114] C.-I. Chang, H.-E. Chueh, and Y.-C. Luo, "An integrated sequential 
patterns mining with fuzzy time-intervals," in International Conference on 
Systems and Informatics (ICSAI2012), 2012. 
[115] Sahugu`ede, A., Le Corronc, E., and Le Lann, M.-V, "An ordered 
chronicle discovery algorithm," in 3nd ECML/PKDD Workshop on Advanced 
Analytics and Learning on Temporal Data, 2018. 
[116] Guyet, T. and Quiniou, R., "NegPSpan: efficient extraction of negative 
sequential patterns with embedding constraints," Data Mining and Knowledge 
Discovery, vol. 34, no. 2, pp. 563-609, 2020. 
[117] J. Bakalara, "Temporal models of care sequences for the exploration of 
medico-administrative data.," in In Proceedings of the 17th Conference on 
Artificial Intelligence in Medicine (AIME),, Poznan, Poland, 2019. 
[118] Mathonat, R., Nurbakova, D., Boulicaut, J.-F., and Kaytoue, M., 
"SeqScout: Using a Bandit Model to Discover Interesting Subgroups in 
Labeled Sequences," in In IEEE International Conference on Data Science 
and Advanced Analytics (DSAA), Washington, United States, 2019. 

File đính kèm:

  • pdfluan_an_khai_pha_mau_day_co_trong_so_trong_co_so_du_lieu_day.pdf
  • pdfDanhMucCongTrinhCongBo_Tran Huy Duong.pdf
  • docNhung dong gop moi cua Luan an _Tran Huy Duong_01062021.doc
  • pdfTieng Anh_ TomTatLuanAn-Tran Huy Duong.pdf
  • pdfTomTatLuanAn-Tran Huy Duong.pdf
  • pdfTrang thông tin đóng góp mới TA và TV, trích yếu LA Tran Huy Duong_0001.pdf
  • docxTrichYeuLuanAn_HuyDuong.docx