Luận án Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy

Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá

trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ

liệu. Khai phá tập mục thường xuyên là một hướng cơ bản trong khai phá dữ liệu. Bài

toán khai phá tập mục thường xuyên được Agrawal và Srikant giới thiệu trong [1]

với mục đích tìm ra các mục thường xuất hiện cùng nhau trong CSDL giao dịch. Ví

dụ như một tập mục thường xuyên {Máy in; Giấy} thể hiện rằng các sản phẩm này

thường được mua cùng nhau. Các tập mục thường xuyên có dạng đơn giản và dễ hiểu

đối với con người nhưng lại rất hữu ích trong việc ra quyết định.

Từ khi ra đời, lĩnh vực khai phá tập mục thường xuyên đã thu hút rất nhiều

nhà nghiên cứu. Rất nhiều công trình đã và đang tiếp tục được công bố nhằm phát

triển các kỹ thuật khai phá tập mục thường xuyên cũng như mở rộng bài toán khai

phá tập mục thường xuyên. Tuy nhiên, trong bài toán này, thứ tự của các mục lại bị

bỏ qua. Điều này có thể dẫn tới việc không tìm được các tập mục hữu ích hoặc các

tập mục được tìm thấy không thực sự hữu ích. Khai phá các mẫu dãy tiềm năng và

và hữu ích trong các cơ sở dữ liệu dãy là một trong những nội dung quan trọng trong

khai phá dữ liệu cơ bản. Những năm gần đây, các xu hướng nghiên cứu các vấn đề

khai phá dữ liệu là đề xuất các thuật toán để khai phá các mẫu dãy trong các loại

CSDL dữ liệu dãy. Một trong những nội dung khai thác dữ liệu phổ biến nhất trên

dãy là khai phá các mẫu dãy tuần tự. Để có thể giải quyết vấn đề này, bài toán khai

phá mẫu dãy thường xuyên đã được Agrawal và Srikant đề xuất trong [2].

151 trang dienloan 32920

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
TRẦN HUY DƯƠNG
KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ
TRONG CƠ SỞ DỮ LIỆU DÃY
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
HÀ NỘI – 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
Trần Huy Dương
KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ
TRONG CƠ SỞ DỮ LIỆU DÃY
Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Nguyễn Trường Thắng
2. GS.TS. Vũ Đức Thi
Hà Nội – Năm 2021
1
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của tôi và những kết quả trình
bày trong luận án là mới, trung thực và chưa từng được công bố trong bất kỳ công
trình của người khác. Những kết quả viết chung với cán bộ hướng dẫn và các tác giả
khác đều được sự đồng ý khi đưa vào luận án. Việc tham khảo các nguồn tài liệu, bài
viết được thực hiện trích dẫn và ghi nguồn tham khảo theo đúng quy định.
Tác giả luận án
NCS. Trần Huy Dương
2
ii
LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới TS.Nguyễn Trường Thắng và
GS.TS.Vũ Đức Thi đã tận tình hướng dẫn, giúp đỡ tôi trong quá trình nghiên cứu,
đăng bài và hoàn thành luận án này.
Tôi cũng xin chân thành cảm ơn Ban lãnh đạo Viện Công nghệ thông tin - Viện
Hàn lâm Khoa học và Công nghệ Việt Nam, lãnh đạo Học viện Khoa học và Công
nghệ đã tạo điều kiện thuận lợi cho quá trình nghiên cứu của tôi, cảm ơn các cán bộ
của phòng Công nghệ phần mềm trong quản lý đã nhiệt tình trong công tác, giúp tôi
dành thời gian tập trung nghiên cứu và hoàn thành luận án.
Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn là nguồn động
viên, ủng hộ, giúp tôi thêm động lực để hoàn thành luận án này.
Người thực hiện
Trần Huy Dương
1
MỤC LỤC
DANH MỤC HÌNH VẼ ............................................................................................ 3
DANH MỤC BẢNG BIỂU ....................................................................................... 4
DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................... 6
MỞ ĐẦU .................................................................................................................... 7
CHƯƠNG 1. TỔNG QUAN KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG
CƠ SỞ DỮ LIỆU DÃY ............................................................................................ 15
1.1. Tổng quan tình hình nghiên cứu .................................................................. 15
1.2. Khai phá mẫu dãy có trọng số trong CSDL dãy .......................................... 25
1.3. Khai phá mẫu dãy có trọng số trong CSDL dãy với khoảng cách thời gian ...
..................................................................................................................... 32
1.4. Khai phá mẫu dãy lợi ích cao trong CSDL định lượng có khoảng cách thời
gian ..................................................................................................................... 47
Kết luận Chương 1 .................................................................................................... 61
CHƯƠNG 2. KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ
LIỆU DÃY CÓ KHOẢNG CÁCH THỜI GIAN ..................................................... 63
2.1. Giới thiệu ..................................................................................................... 63
2.2. Thuật toán khai phá top-k mẫu dãy thường xuyên trọng số với khoảng cách
thời gian (TopKWFP) ............................................................................................... 65
2.2.1. Bài toán đặt ra .............................................................................................. 65
2.2.2. Ý tưởng thuật toán ....................................................................................... 66
2.2.3. Thuật toán TopKWFP ................................................................................. 67
2.2.4. Phân tích thuật toán TopKWFP ................................................................... 70
2.2.5. Thử nghiệm thuật toán ................................................................................. 78
Kết luận Chương 2 .................................................................................................... 86
CHƯƠNG 3. KHAI PHÁ MẪU DÃY LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU
DÃY CÓ KHOẢNG CÁCH THỜI GIAN ............................................................... 87
3.1. Giới thiệu ..................................................................................................... 87
3.2. Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian
(UIPrefixSpan) .......................................................................................................... 89
3.2.1. Bài toán đặt ra .............................................................................................. 89
3.2.2. Ý tưởng thuật toán ....................................................................................... 90
3.2.3. Thuật toán UIPrefixSpan ............................................................................. 90
3.2.4. Phân tích thuật toán UIPrefixSpan .............................................................. 92
2
3.2.5. Thử nghiệm thuật toán ...............................................................................103
3.3. Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian 1 pha
(HUISP) ...................................................................................................................109
3.3.1. Bài toán đặt ra ............................................................................................109
3.3.2. Ý tưởng thuật toán .....................................................................................110
3.3.3. Thuật toán HUISP .....................................................................................112
3.3.4. Phân tích thuật toán HUISP .......................................................................114
3.3.5. Thử nghiệm thuật toán ...............................................................................126
Kết luận Chương 3 ..................................................................................................133
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................134
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ ........................................................137
TÀI LIỆU THAM KHẢO .......................................................................................138
3
DANH MỤC HÌNH VẼ
Hình 1.1. Các vấn đề nghiên cứu của luận án ........................................................... 25
Hình 2.1 Ảnh hưởng của tham số k .......................................................................... 80
Hình 2.2 Ảnh hưởng của chiến lược tối ưu lên thời gian chạy ................................. 81
Hình 2.3 Ảnh hưởng của chiến lược tối ưu lên số ứng viên tạo ra ........................... 82
Hình 2.4. So sánh 2 thuật toán WIPrefixSpan và TopKWFP ................................... 85
Hình 3.1 Biểu đồ phân phối giá trị lợi nhuận của 1000 mục (UIPrefixSpan) ........104
Hình 3.2 Thời gian chạy UIPrefixSpan ...................................................................106
Hình 3.3 Bộ nhớ sử dụng UIPrefixSpan .................................................................107
Hình 3.4 Số mẫu dãy lợi ích cao UIPrefixSpan ......................................................109
Hình 3.5 Biểu đồ phân phối giá trị lợi nhuận của 1000 mục (HUISP) ...................127
Hình 3.6 Thời gian chạy HUISP .............................................................................128
Hình 3.7 Bộ nhớ sử dụng HUISP ............................................................................129
Hình 3.8 Ảnh hưởng của số lượng mẫu dãy với thời gian chạy và bộ nhớ ............132
4
DANH MỤC BẢNG BIỂU
Bảng 1.1 Danh sách một số công trình liên quan đến luận án .................................. 22
Bảng 1.2 CSDL dãy SDB ......................................................................................... 26
Bảng 1.3 Trọng số của các mục trong SDB .............................................................. 26
Bảng 1.4 CSDL dãy iSDB với khoảng cách thời gian .............................................. 33
Bảng 1.5 Trọng số của các mục trong iSDB ............................................................. 34
Bảng 1.6 CSDL dãy QiSDB với khoảng cách thời gian ........................................... 48
Bảng 1.7 Trọng số của các mục trong QiSDB .......................................................... 49
Bảng 1.8 Bảng lợi ích QiSDB ................................................................................... 56
Bảng 1.9 Bảng chỉ mục ............................................................................................. 56
Bảng 2.1 CSDL dãy iSDB với khoảng cách thời gian .............................................. 75
Bảng 2.2 Trọng số của các mục trong iSDB ............................................................. 75
Bảng 2.3 CSDL chiếu của dãy ........................................................................ 77
Bảng 2.4 Các bộ dữ liệu thực nghiệm ....................................................................... 79
Bảng 2.5 Thống kê chi tiết số lượng mẫu dãy ứng viên tạo ra ................................. 83
Bảng 3.1 Cơ sở dữ liệu điều kiện với tiền tố .................................................. 97
Bảng 3.2 Cơ sở dữ liệu điều kiện với tiền tố ....................................... 97
Bảng 3.3 Cơ sở dữ liệu điều kiện với tiền tố ............................ 98
Bảng 3.4 Cơ sở dữ liệu điều kiện với tiền tố .......................... 98
Bảng 3.5 Các mẫu dãy ứng viên ứng với tiền tố ........................................... 99
Bảng 3.6 Bảng thống kê khai phá mẫu dãy lợi ích cao với khoảng cách thời gian trong
QiSDB. ....................................................................................................................100
Bảng 3.7 Lợi ích của mẫu dãy 1 phần tử ................................................................118
5
Bảng 3.8 Lợi ích của các dãu đầu vào ....................................................................119
Bảng 3.9 Bảng lợi ích của các mẫu dãy 1 phần tử ..................................................119
Bảng 3.10 Bảng chỉ mục trong QiSDB ...................................................................120
Bảng 3.11 CSDL chiếu của QiSDB| ....................................................121
Bảng 3.12 Bảng lợi ích của các mẫu ứng viên độ dài 2 với tiền tố ..............122
Bảng 3.13 CSDL chiếu của QiSDB| ................................122
Bảng 3.14 Bảng lợi ích của các mục ứng viên độ dài 3 với tiền tố .....123
Bảng 3.15 CSDL chiếu của QiSDB| ..............123
Bảng 3.16 Bảng lợi ích của các mục ứng viên độ dài 4 với tiền tố
.................................................................................................................................124
Bảng 3.17 Bảng mẫu dãy lợi ích cao tìm được với tiền tố ...........................124
Bảng 3.18 Bảng mẫu dãy lợi ích cao với khoảng cách thời gian của QiSDB ........125
Bảng 3.19 Bảng thống kê số lượng mẫu dãy ứng viên và số mẫu dãy lợi ích cao của
UIPrefixSpan và HUISP .........................................................................................130
6
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Tiếng Anh Tiếng Việt
CSDL Database Cơ sở dữ liệu
UL Utility Level Thuật toán khai phá mẫu dãy
lợi ích cao theo phương pháp
Apriori
US Utility Span Thuật toán khai phá lợi ích cao
theo phương pháp PrefixSpan
PrefixSpan Prefix-Projected Sequential
Patterns Mining Algorithm
Thuật toán khai phá mẫu dãy
thường xuyên theo phương
pháp tăng trưởng mẫu dãy
TopKWFP Top-k weighted sequential
pattern mining with item interval
Algorithm
Thuật toán khai phá top-k mẫu
dãy trọng số có khoảng cách
thời gian
WIPrefixSpan Weighted sequential pattern
mining with item interval
Algorithm
Thuật toán khai phá mẫu dãy
trọng số có khoảng cách thời
gian
UIPrefixSpan High Utility Sequential Patterns
with Time Interval Algorithm
Thuật toán khai phá mẫu dãy
lợi ích cao có khoảng cách thời
gian theo phương pháp 2 pha
HUISP High Utility Item Interval
Sequential Pattern Algorithm
Thuật toán khai phá mẫu dãy
lợi ích cao có khoảng cách thời
gian theo phương pháp sử
dụng bảng lợi ích
GSP Generalized Sequential Pattern Thuật toán khai phá mẫu dãy
tổng quát
SDB Sequence Database Cơ sở dữ liệu dãy
iSDB Sequence Database with item
interval
Cơ sở dữ liệu dãy có khoảng
cách thời gian
QiSDB Quantitative Sequence Database
with item interval
Cơ sở dữ liệu dãy định lượng
có khoảng cách thời gian
UCI UC Irvine Machine Kho dữ liệu chuẩn UCI
7
MỞ ĐẦU
1. Tổng quan
Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá
trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ
liệu. Khai phá tập mục thường xuyên là một hướng cơ bản trong khai phá dữ liệu. Bài
toán khai phá tập mục thường xuyên được Agrawal và Srikant giới thiệu trong [1]
với mục đích tìm ra các mục thường xuất hiện cùng nhau trong CSDL giao dịch. Ví
dụ như một tập mục thường xuyên {Máy in; Giấy} thể hiện rằng các sản phẩm này
thường được mua cùng nhau. Các tập mục thường xuyên có dạng đơn giản và dễ hiểu
đối với con người nhưng lại rất hữu ích trong việc ra quyết định.
Từ khi ra đời, lĩnh vực khai phá tập mục thường xuyên đã thu hút rất nhiều
nhà nghiên cứu. Rất nhiều công trình đã và đang tiếp tục được công bố nhằm phát
triển các kỹ thuật khai phá tập mục thường xuyên cũng như mở rộng bài toán khai
phá tập mục thường xuyên. Tuy nhiên, trong bài toán này, thứ tự của các mục lại bị
bỏ qua. Điều này có thể dẫn tới việc không tìm được các tập mục hữu ích hoặc các
tập mục được tìm thấy không thực sự hữu ích. Khai phá các mẫu dãy tiềm năng và
và hữu ích trong các cơ sở dữ liệu dãy là một trong những nội dung quan trọng trong
khai phá dữ liệu cơ bản. Những năm gần đây, các xu hướng nghiên cứu các vấn đề
khai phá dữ liệu là đề xuất các thuật toán để khai phá các mẫu dãy trong các loại
CSDL dữ liệu dãy. Một trong những nội dung khai thác dữ liệu phổ biến nhất trên
dãy là khai phá các mẫu dãy tuần tự. Để có thể giải quyết vấn đề này, bài toán khai
phá mẫu dãy thường xuyên đã được Agrawal và Srikant đề xuất trong [2]. Nội dung
theo hướng này bao gồm các việc khai phá các mẫu dãy tiềm năng, hữu ích trong một
tập hợp các dãy dữ liệu, trong đó mức độ hữu ích của một dãy con có thể được tính
toán và xác định theo nhiều tiêu ... Knowledge, 2012.
[44] Lan, G.C., Hong, T.P., Tseng, V.S., Wang, S.L, "Applying the
maximum utility measure in high utility sequential pattern mining," Expert
Syst. Appl, vol. 41, no. 11, p. 5071–5081, 2014.
[45] Alkan, O. K. and Karagoz, P. , "CRoM and HuspExt: Improving
efficiency of high utility sequential pattern extraction," in 2016 IEEE 32nd
International Conference on Data Engineering (ICDE), Helsinki, 2016.
[46] Wang, J.Z., Huang, J.L., Chen, Y.C, "On efficiently mining high utility
sequential patterns," Knowl. Inf. Syst, vol. 49, no. 2, p. 597–627, 2016.
[47] Truong-Chi T., Fournier-Viger P, "A Survey of High Utility Sequential
Pattern Mining," in High-Utility Pattern Mining: Theory, Algorithms and
Applications, vol. 51, P. Fournier-Viger, J. Lin, R. Nkambou, B. Vo and V.
Tseng, Eds., Springer, Cham, 2019.
[48] Truong Duc Phuong, Do Van Thanh, Nguyen Duc Dung, "Mining
Fuzzy Sequential Patterns with Fuzzy Time-Intervals in Quantitative
Sequence Databases," Cybernetics and Information Technologies, vol. 18, no.
2, pp. 3-19, 2018.
142
[49] J. Pei, J. Han, and W. Wang, "Constraint-based sequential pattern
mining: the pattern-growth methods," Journal of Intelligent Information
Systems, vol. 28, no. 2, p. 133–60, 2007.
[50] J. D. Ren, J. Yang, and Y. Li, "Mining weighted closed sequential
patterns in large databases," in The International Conference on Fuzzy Systems
and Knowledge Discovery, 2008.
[51] M. N. Quang, T. Dinh, U. Huynh, and B. Le, "MHHUSP: An integrated
algorithm for mining and hiding high utility sequential patterns," in The
International Conference on Knowledge and Systems Engineering, 2016.
[52] S. Zida, P. Fournier-Viger, C. W. Wu, J. C. Lin, and V. S. Tseng,
"Efficient mining of high-utility sequential rules," in The International
Conference on Machine Learning and Data Mining, 2015.
[53] A. Sirisha, Suresh Pabboju, G. Narsimha, "An approach to mine Time
Interval based Weighted Sequential Patterns in Sequence Databases," in
International Conference on Signal-Image Technology & Internet-Based
Systems, 2017.
[54] Asima Jamil, Abdus Salam and Farhat Amin, "Performance evaluation
of top-k sequential mining methods on synthetic and real datasets,"
International Journal of Advanced Computer Research, vol. 7, no. 32, pp. 176-
184, 2017.
[55] Chuang.K, Huang.J and Chen.M, "Mining Top-K Frequent Patterns in
the Presence of the Memory Constraint," VLDB Journal, vol. 17, pp. 1321-
1344, 2008.
[56] Karishma B Hathi , Jatin R Ambasana, "Top K Sequential Pattern
Mining Algorithm.," International Conference on Information Engineering,
Management and Security, pp. 115-120, 2015.
[57] Tzvetkov.P, Yan.X and Han.J, "TSP: Mining Top-K Closed Sequential
Patterns," ICDM, pp. 347-354, 2003.
[58] Wang.J and Han.J, TFP, "An Efficient Algorithm for Mining Top-K
Frequent Closed Itemsets," TKDE, vol. 17, pp. 652-664, 2005.
[59] Feremans Len, Cule Boris, Goethals Bart, "Mining Top-k Quantile-
based Cohesive Sequential Patterns," in Siam International Conference on
Data Mining (SDM18), 2019.
[60] Zheng.Z, Cao.L, Song.Y and Wei.W, "Efficiently Mining Top-K High
Utility Sequential Patterns," 2013 IEEE 13th International Conference on
Data Mining, pp. 1259-1264, 2013.
143
[61] Philippe-fournier-viger, "The SPMF Open-Source Data Mining
Library," 2020. [Online]. Available:
viger.com/spmf/index.php?link=datasets.php.
[62] János Demetrovics, Hoang Minh Quang, Vu Duc Thi, Nguyen Viet
Anh, "An Efficient Method to Reduce the Size of Consistent Decision Tables,"
Acta Cybern, vol. 23, no. 4, pp. 1039-1054 , 2018.
[63] Dalmas, B., Fournier-Viger, P., Norre, S, "TWINCLE: a constrained
sequential rule mining algorithm for event logs," in Proceedings 9th
International KES Conference, 2017.
[64] Dinh, T., Huynh, V.N., Le, B, "Mining periodic high utility sequential
patterns," in In Asian Conference on Intelligent Information and Database
Systems, 2017.
[65] Xu, T., Dong, X., Xu, J., Dong, X, "Mining high utility sequential
patterns with negative item Mining high utility sequential patterns with
negative item," International Journal of Pattern Recognition and Artificial
Intelligence, vol. 31, no. 10, pp. 1-17, 2017.
[66] Sharda Khode, Sudhir Mohod, "Mining high utility itemsets using TKO
and TKU to find top-k high utility web access patterns," in 2017 International
conference of Electronics, Communication and Aerospace Technology
(ICECA), Coimbatore, 2017.
[67] Lin, J.C.W., Zhang, J., Fournier-Viger, P, "High-utility sequential
pattern mining with multiple minimum utility thresholds," in Asia-Pacific Web
(APWeb) and Web-Age Information Management (WAIM) Joint Conference
on Web and Big Data (2017), 2017.
[68] Zihayat, M., Davoudi, H., An, A, "Top-k utility-based gene regulation
sequential pattern discovery," in Bioinformatics and Biomedicine (BIBM),
2016 IEEE International Conference, 2016.
[69] R. Campisano, F. Porto, E. Pacitti, F. Masseglia, and E. Ogasawara,
"Spatial sequential pattern mining for seismic data," The Brazilian Symposium
on Databases, p. 241–246, 2016.
[70] L. Cao, X. Dong, and Z. Zheng, "e-NSP: Efficient negative sequential
pattern mining," Artificial Intelligence, vol. 235, pp. 156-182, 2016.
[71] Zihayat, M., Hut, Z.Z., An, A., Hut, Y, "Distributed and parallel high
utility sequential pattern mining," in Big Data (Big Data), 2016 IEEE
International Conference , 2016.
[72] P. Fournier-Viger, C. W. Wu, V. S. Tseng, L. Cao, R. Nkambou,
"Mining partially-ordered sequential rules common to multiple sequences,"
144
IEEE Transactions on Knowledge and Data Engineering, vol. 27, no. 8, p.
2203–2216, 2015.
[73] Zihayat, M., Wu, C.W., An, A., Tseng, V.S, "Mining high utility
sequential patterns from evolving data streams," in Proceedings of the ASE
Big Data and Social Informatics, 2015.
[74] Dave, U., Shah, J, "Efficient mining of high utility sequential pattern
from incremental sequential dataset," Int. J. Comput. Appl, vol. 122, no. 12,
pp. 22-28, 2015.
[75] Janos Demetrovics, Vu Duc Thi, Tran Huy Duong, "An algorithm to
mine normalized weighted sequential patterns using Prefix-Projected
Database," Serdica Journal of Computing, Sofia, Bulgarian Academy of
Sciences, vol. 9, no. 2, p. 105–122, 2015.
[76] Dinh, T., Quang, M.N., Le, B., "A Novel approach for hiding high
utility sequential patterns," in Proceedings International Symposium
Information and Communication Technology, 2015.
[77] Show-Jane Yen,Yue-Shi Lee, "Mining non-redundant time-gap
sequential patterns," in Appl Intell (2013) 39:, 2013.
[78] Shie, B.E., Yu, P.S., Tseng, V.S, "Mining interesting user behavior
patterns in mobile commerce environments," Appl. Intell, vol. 38, no. 3, p.
418–435, 2013.
[79] Huang, Tony Cheng-Kui, "Discovery of fuzzy quantitative sequential
patterns with multiple minimum supports and adjustable membership
functions," Information sciences, vol. 222, pp. 126-146, 2013.
[80] Gomariz, A., Campos, M., Marin, R., Goethals, B, "ClaSP: an efficient
algorithm for mining frequent closed sequences," in Proceedings of 17th
Pacific-Asia Conference, 2013.
[81] Yin, J., Zheng, Z., Cao, L., Song, Y., Wei, W, " Efficiently mining top-
k high utility sequential patterns," in IEEE 13th International Conference on
Data Mining, 2013.
[82] Shie, B.E., Cheng, J.H., Chuang, K.T., Tseng, V.S, "A one-phase
method for mining high utility mobile sequential patterns in mobile commerce
environments.," in Advanced Research in Applied Artificial Intelligence, 2012.
[83] Fournier-Viger, Philippe, Roger Nkambou, and Vincent Shin-Mu
Tseng, "RuleGrowth: mining sequential rules common to several sequences
by pattern-growth," in Proceedings of the 2011 ACM symposium on applied
computing, 2011.
145
[84] P. Fournier-Viger, and V. S. Tseng, "Mining top-k sequential rules," in
The International Conference on Advanced Data Mining and Applications,
2011.
[85] Shie, B.E., Hsiao, H., Tseng, V.S., Yu, P.S, "Mining high utility mobile
sequential patterns in mobile commerce environments," in International
Conference on Database Systems for Advanced Applications, 2011.
[86] Kuo, R. J., C. M. Chao, and C. Y. Liu, "Integration of K-means
algorithm and AprioriSome algorithm for fuzzy sequential pattern mining,"
Applied Soft Computing, vol. 9, no. 1, pp. 85-93, 2009.
[87] Khan.M.S, Muyeba.M, Coenen.F, "Weighted Association Rule Mining
from Binary and Fuzzy Data," in Proceedings of 8th Industrial Conference,
ICDM 2008, 2008.
[88] L. Chang, T. Wang, D. Yang, and H. Luan, "Seqstream: Mining closed
sequential patterns over," in IEEE International Conference on Data Mining,
2008.
[89] C. Fiot, A. Laurent, and M. Teisseire, "From crispness to fuzziness:
Three algorithms for soft sequential pattern mining," IEEE Transactions on
Fuzzy Systems, vol. 15, no. 6, p. 1263–1277, 2007.
[90] Hong, Tzung-Pei, Kuei-Ying Lin, and Shyue-Liang Wang, "Mining
fuzzy sequential patterns from quantitative transactions," Soft Computing, vol.
10, no. 10, pp. 925-932, 2006.
[91] R. A. Garcia-Hernandez, J. F. Martanez-Trinidad, and J. A. Carrasco-
Ochoa, "A new algorithm for fast discovery of maximal sequential patterns in
a document collection," in The International Conference on Intelligent Text
Processing and Computational Linguistics, 2006.
[92] Yun.U, Leggett.J.J, "WFIM: weighted frequent itemset mining with a
weight range and a minimum weight," in 5th SIAM Int. Conf. on Data Mining,
2005.
[93] J. Ho, L. Lukov, and S. Chawla, "Sequential pattern mining with
constraints on large protein databases," in The International Conference on
Management of Data, 2005.
[94] J. H. Chang, and W. S. Lee, "Efficient mining method for retrieving
sequential patterns over online," Journal of Information Science, vol. 31, no.
5, p. 420–432, 2005.
[95] Cheung.Y.L and Fu.A.W, "Mining frequent itemsets without support
threshold: with and without item constraints," TKDE, vol. 16, pp. 1052-1069,
2004.
146
[96] H. Cheng, X. Yan, and J. Han, "IncSpan: incremental mining of
sequential patterns in large database," in ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, 2004.
[97] Hu, Yi-Chung, Gwo-Hshiung Tzeng, and Chin-Mi Chen. , "Deriving
two-stage learning sequences from knowledge in fuzzy sequential pattern
mining.," Information Sciences, vol. 159, no. 1, pp. 69-86, 2004.
[98] Tao.F, Murtagh.F, Farid.M, "Weighted Association Rule Mining Using
Weighted Support and Significance Framework," in Proceedings of 9th ACM
SIGKDD Conference on Knowledge Discovery and Data Mining, 2003.
[99] Y.-C. Hu, R.-S. Chen, G.-H. Tzeng, and J.-H. Shieh, "A fuzzy data
mining algorithm for finding sequential patterns," Int. J. Uncertainty,
Fuzziness Knowledge-Based Syst, vol. 11, no. 2, p. 173–193, 2003.
[100] Kitakami, H., Kanbara, T., Mori, Y., Kuroki, S. and Ya-mazaki, Y.,
"Modified PrefixSpan Method for Motif Dis-covery in Sequence Databases,"
in in Proc. of PRICAI2002, 2002.
[101] Chen, Yen-Liang, Shih-Sheng Chen, and Ping-Yu Hsu, "Mining hybrid
sequential patterns and sequential rules," Information Systems, vol. 27, no. 5,
pp. 345-362, 2002.
[102] Hong, Tzung-Pei, Kuie-Ying Lin, and Shyue-Liang Wang, "Mining
fuzzy sequential patterns from multiple-item transactions.," in IFSA World
Congress and 20th NAFIPS International Conference, 2001. Joint 9th, 2001.
[103] Chen, Ruey-Shun, et al., "Discovery of fuzzy sequential patterns for
fuzzy partitions in quantitative attributes," in Computer Systems and
Applications, ACS/IEEE International Conference on. 2001, 2001.
[104] Wang.W, Yang.J, and Yu.P.S, "Efficient Mining of Weighted
Association Rules (WAR)," in Proceedings of the Sixth ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining, 2000.
[105] Garofalakis, Minos N., Rajeev Rastogi, and Kyuseok Shim, "SPIRIT:
Sequential pattern mining with regular expression constraints.," VLDB, vol.
99, 1999.
[106] Hong, Tzung-pei, Chan-Sheng Kuo, and Sheng-Chai Chi., "Mining
fuzzy sequential patterns from quantitative data.," in IEEE SMC'99
Conference Proceedings, 1999.
[107] Cai.C.H, Chee Fu.A.W, Cheng.C.H, and Kwong.W.W, "Mining
Association Rules with Weighted Items," in Proceedings of the 1998
International Symposium on Database Engineering & Applications, Cardiff,
Wales, 1998.
147
[108] R. B. V Subramanyam and A. Goswami, "A fuzzy data mining
algorithm for incremental mining of quantitative sequential patterns," Int. J.
Uncertainty, Fuzziness Knowledge-Based Syst, vol. 13, no. 6, p. 633–652,
2005.
[109] T. Huang, R. Huang, B. Liu, and Y. Yan, "Extracting Various Types of
Informative Web Content via Fuzzy Sequential Pattern Mining," in sia-Pacific
Web (APWeb) and Web-Age Information Management (WAIM) Joint
Conference on Web and Big Data, 2017.
[110] M. Yoshida, T. Iizuka, H. Shiohara, and M. Ishiguro, "Mining
sequential patterns including time intervals," Data Mining and Knowledge
Discovery: Theory, Tools, and Technology II, vol. 4057, p. 213–220, 2000.
[111] F. Giannotti, M. Nanni, D. Pedreschi, and F. Pinelli, "Mining sequences
with temporal annotations," in Proceedings of the 2006 ACM symposium on
Applied computing, 2006.
[112] I. Mukhlash, D. Yuanda, and M. Iqbal, "Mining Fuzzy Time Interval
Periodic Patterns in Smart Home Data," International Journal of Electrical
and Computer Engineering (IJECE), vol. 8, no. 5, p. 3374, 2018.
[113] C.-I. Chang, H.-E. Chueh, and N. P. Lin, "Sequential patterns mining
with fuzzy time-intervals," in Sixth International Conference on Fuzzy
Systems and Knowledge Discovery, 2009.
[114] C.-I. Chang, H.-E. Chueh, and Y.-C. Luo, "An integrated sequential
patterns mining with fuzzy time-intervals," in International Conference on
Systems and Informatics (ICSAI2012), 2012.
[115] Sahugu`ede, A., Le Corronc, E., and Le Lann, M.-V, "An ordered
chronicle discovery algorithm," in 3nd ECML/PKDD Workshop on Advanced
Analytics and Learning on Temporal Data, 2018.
[116] Guyet, T. and Quiniou, R., "NegPSpan: efficient extraction of negative
sequential patterns with embedding constraints," Data Mining and Knowledge
Discovery, vol. 34, no. 2, pp. 563-609, 2020.
[117] J. Bakalara, "Temporal models of care sequences for the exploration of
medico-administrative data.," in In Proceedings of the 17th Conference on
Artificial Intelligence in Medicine (AIME),, Poznan, Poland, 2019.
[118] Mathonat, R., Nurbakova, D., Boulicaut, J.-F., and Kaytoue, M.,
"SeqScout: Using a Bandit Model to Discover Interesting Subgroups in
Labeled Sequences," in In IEEE International Conference on Data Science
and Advanced Analytics (DSAA), Washington, United States, 2019.

File đính kèm:

luan_an_khai_pha_mau_day_co_trong_so_trong_co_so_du_lieu_day.pdf
DanhMucCongTrinhCongBo_Tran Huy Duong.pdf
Nhung dong gop moi cua Luan an _Tran Huy Duong_01062021.doc
Tieng Anh_ TomTatLuanAn-Tran Huy Duong.pdf
TomTatLuanAn-Tran Huy Duong.pdf
Trang thông tin đóng góp mới TA và TV, trích yếu LA Tran Huy Duong_0001.pdf
TrichYeuLuanAn_HuyDuong.docx