Luận án Khai phá luật quyết định trên mô hình dữ liệu dạng khối

Khai phá dữ liệu vẫn đang là lĩnh vực nhận được rất nhiều sự quan tâm nghiên

cứu của các nhà khoa học trên thế giới. Hội nghị quốc tế về khai phá dữ liệu KDD

lần thứ 26 được tổ chức tại California, Mỹ vào tháng 8 năm 2020 là một trong những

hội nghị lớn và nổi tiếng hàng đầu trong lĩnh vực khai phá dữ liệu và quy tụ hàng

trăm nhà khoa học tham gia [1], [2]. Một số các hội nghị về khai phá dữ liệu nổi tiếng

được tổ chức thường niên hàng năm trên thế giới được kể đến như: hội nghị KDD,

ICDE, IEEE ICDM, CIKM, SIAM SDM, PKDD, PAKDD

Nhóm bài toán thường được nghiên cứu trong khai phá dữ liệu gồm có: Phân

lớp, dự đoán, luật kết hợp và phân cụm [3], [4], [5]. Khai phá luật quyết định là một

kĩ thuật nằm trong nhóm bài toán phân lớp đối tượng. Đây là một trong những kĩ

thuật khai phá dữ liệu khá phổ biến và đã được nhiều chuyên gia trong và ngoài nước

nghiên cứu trên mô hình cơ sở dữ liệu quan hệ và một số mô hình mở rộng của mô

hình dữ liệu quan hệ như mô hình datacube, mô hình nhà kho dữ liệu, mô hình dữ

liệu đa chiều .[6], [7], [8], [9], [10], [11].

Năm 1998, các tác giả Nguyễn Xuân Huy, Trịnh Đình Thắng đã đề xuất mô

hình dữ liệu dạng khối, một mở rộng của mô hình quan hệ [9]. Mô hình này đã được

xây dựng cả về lý thuyết và cài đặt thực nghiệm. Với việc đưa thêm một trục id cho

phép theo dõi được sự thay đổi dữ liệu theo quá trình, cụ thể có thể là theo thời gian,

giai đoạn, khoảng cách. [12], [13], [14], [15], [16], [17], [18], [19].

pdf 129 trang dienloan 16880
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Khai phá luật quyết định trên mô hình dữ liệu dạng khối", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Khai phá luật quyết định trên mô hình dữ liệu dạng khối

Luận án Khai phá luật quyết định trên mô hình dữ liệu dạng khối
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC 
VÀ CÔNG NGHỆ VIỆT NAM 
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ 
----------------------------- 
Đỗ Thị Lan Anh 
KHAI PHÁ LUẬT QUYẾT ĐỊNH 
TRÊN MÔ HÌNH DỮ LIỆU DẠNG KHỐI 
LUẬN ÁN TIẾN SĨ MÁY TÍNH 
Hà Nội – Năm 2020 
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC 
VÀ CÔNG NGHỆ VIỆT NAM 
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ 
----------------------------- 
Đỗ Thị Lan Anh 
KHAI PHÁ LUẬT QUYẾT ĐỊNH 
TRÊN MÔ HÌNH DỮ LIỆU DẠNG KHỐI 
 Chuyên ngành: Khoa học máy tính 
 Mã số: 9 48 01 01 
LUẬN ÁN TIẾN SĨ MÁY TÍNH 
 NGƯỜI HƯỚNG DẪN KHOA HỌC: 
 1. PGS. TS Trịnh Đình Thắng 
Hà Nội – Năm 2020 
i 
LỜI CẢM ƠN 
Lời đầu tiên, cho phép tác giả xin bày tỏ lòng biết ơn sâu sắc và chân thành tới 
PGS. TS Trịnh Đình Thắng, người thầy đã tận tình hướng dẫn, chỉ bảo cho tác giả 
trong suốt quá trình học tập, nghiên cứu và hoàn thành luận án này. 
Tác giả xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học 
thuộc: Viện Công nghệ Thông tin – viện Hàn lâm Khoa học và Công nghệ Việt Nam, 
Khoa Công nghệ Thông tin – Học viện Khoa học và Công nghệ, viện Công nghệ 
Thông tin – trường Đại học Sư phạm Hà Nội 2 đã giúp đỡ về chuyên môn và tạo điều 
kiện thuận lợi cho tác giả trong suốt thời gian học tập và nghiên cứu. 
Cuối cùng, tác giả xin gửi tới gia đình, người thân, bạn bè lời cảm ơn chân 
thành nhất vì đã ủng hộ, đồng hành, là chỗ dựa vững chắc và là động lực giúp tác giả 
hoàn thành luận án này. 
Tác giả luận án 
Đỗ Thị Lan Anh 
ii 
LỜI CAM ĐOAN 
Tôi xin cam đoan đây là công trình nghiên cứu của tôi dưới sự hướng dẫn khoa 
học của PGS. TS Trịnh Đình Thắng. Các kết quả được viết chung với các đồng tác 
giả đã được sự chấp thuận của các tác giả trước khi đưa vào luận án. 
Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong 
bất kỳ công trình nào khác. 
Tác giả luận án 
Đỗ Thị Lan Anh 
iii 
MỤC LỤC 
 Trang 
Danh mục các ký hiệu, các chữ viết tắt v 
Danh mục các bảng, hình vẽ vi 
MỞ ĐẦU 1 
CHƯƠNG 1: MỘT SỐ KIẾN THỨC CƠ SỞ 9 
1.1 Khai phá dữ liệu 9 
1.1.1 Định nghĩa khai phá dữ liệu 9 
1.1.2 Một số kỹ thuật khai phá dữ liệu 9 
1.2 Khai phá luật quyết định 10 
1.2.1 Hệ thông tin 10 
1.2.2 Quan hệ không phân biệt được 11 
1.2.3 Bảng quyết định 13 
1.2.5 Luật quyết định 14 
1.3 Mô hình dữ liệu dạng khối 16 
1.3.1 Khối, lược đồ khối 16 
1.3.2 Lát cắt 18 
1.3.3 Đại số quan hệ trên khối 18 
1.4 Kết luận chương 1 21 
CHƯƠNG 2: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI DỮ LIỆU 
CÓ GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 22 
2.1 Một số khái niệm xây dựng trên khối 22 
 2.1.1 Khối thông tin 22 
 2.1.2 Quan hệ không biệt được 25 
2.1.3 Khối quyết định 26 
2.1.4 Luật quyết định trên khối và lát cắt 28 
2.2 Thuật toán khai phá luật quyết định trên khối và trên lát cắt (MDLB) 31 
2.3 Khai phá luật quyết định trên khối có giá trị thuộc tính thay đổi 34 
2.3.1 Làm mịn, thô các lớp tương đương điều kiện trên khối và trên lát cắt 40 
2.3.2 Làm mịn, thô các lớp tương đương quyết định trên khối và trên lát cắt 44 
2.3.3 Làm mịn cảm sinh hoàn toàn thuộc tính chỉ số trên lát cắt 48 
2.3.4 Thuật toán khai phá luật quyết định trên khối có giá trị thuộc tính 
iv 
thay đổi (MDLB_VAC) 50 
2.4 Độ phức tạp của các thuật toán tính ma trận Sup trên khối và lát cắt 60 
2.5 Ví dụ minh họa 62 
2.5.1 Minh họa bài toán sinh luật quyết định trên khối 62 
2.5.2 Minh họa bài toán sinh luật quyết định trên khối khi làm mịn, thô giá trị 
thuộc tính chỉ số 63 
2.6 Kết luận 66 
CHƯƠNG 3: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI CÓ 
TẬP ĐỐI TƯỢNG THAY ĐỔI 67 
3.1 Mô hình bổ sung, loại bỏ các đối tượng trên khối và lát cắt 67 
3.2 Tính toán gia tăng Acc và Cov khi bổ sung, loại bỏ đối tượng trên khối 74 
3.2.1 Bổ sung đối tượng x vào khối quyết định 74 
3.2.2 Loại bỏ phần tử x ra khỏi khối quyết định 77 
3.3 Thuật toán sinh luật quyết định bằng phương pháp tính gia tăng ma trận 
Acc và Cov sau khi bổ sung, loại bỏ các phần tử (MDLB_OSC1) 78 
3.4 Độ phức tạp của các thuật toán MDLB_OSC1 83 
3.5 Tính toán gia tăng Sup khi bổ sung, loại bỏ đối tượng trên khối và lát cắt 86 
3.6 Thuật toán sinh luật quyết định bằng phương pháp tính gia tăng ma trận 
Sup sau khi bổ sung và loại bỏ các đối tượng (MDLB_OSC2) 88 
3.7 Độ phức tạp của các thuật toán MDLB_OSC2 96 
3.8 So sánh hai phương pháp tính gia tăng 97 
3.9 Ví dụ minh họa 97 
3.10 Thực nghiệm 103 
3.11 Kết luận 112 
KẾT LUẬN 113 
DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ 114 
TÀI LIỆU THAM KHẢO 115 
v 
DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT 
Kí hiệu, chữ viết tắt Diễn giải 
Acc Accuracy (Độ chính xác) 
Cov Coverage (Độ phủ) 
Sup Support (Độ hỗ trợ) 
IND(P) Quan hệ không phân biệt được 
id  id’
Tích rời rạc của hai tập chỉ số id và id’ 
P(r) Phép chiếu của khối r trên lược đồ con P 
F(r) Phép chọn của khối r theo biểu thức Boole F 
r s Phép kết nối hai khối r và s 
IB = (U, A, V, f)
Khối thông tin 
DB = (U, CD) Khối quyết định 
U/C Tập các lớp tương đương điều kiện trên khối 
U/D Tập các lớp tương đương quyết định trên khối 
U/Cx Tập các lớp tương đương điều kiện trên lát cắt tại điểm x 
U/Dx 
Tập các lớp tương đương quyết định trên lát cắt tại điểm 
x 
 Ngưỡng độ chính xác tối thiểu 
 Ngưỡng độ phủ tối thiểu 
vi 
DANH MỤC CÁC BẢNG 
 Trang 
Bảng 1.1 Bảng Bệnh nhân 2 
Bảng 1.1 Một ví dụ về hệ thông tin 11 
Bảng 1.2 Bảng quyết định về bệnh cúm 14 
Bảng 2.1 Bảng biểu diễn khối thông tin Bệnh nhân bị sốt virut tại khoa Nhi A 
Bệnh viện Bạch Mai cơ sở 2 25 
Bảng 3.1 Bảng so sánh hai phương pháp tính gia tăng 98 
Bảng 3.2 Các thông tin cơ bản về CSDL thực nghiệm 104 
vii 
DANH MỤC CÁC HÌNH VẼ 
Hình 1.1 Ví dụ Khối Bệnh nhân 3 
Hình 1.2 Ví dụ về khối Khách hàng 19 
Hình 1.3 Minh họa lát cắt khối Khách hàng tại điểm x = 3/2019 20 
Hình 2.1 Minh họa một khối thông tin bệnh nhân bị sốt virut tại Khoa Nhi A – 
Bệnh viện Bạch Mai cơ sở 2 24 
Hình 2.2 Minh họa khối quyết định Bệnh nhân sốt vi rút 28 
Hình 3.1 Menu của chương trình 105 
Hình 3.2 Tìm các lớp tương đương điều kiện, quyết định 105 
Hình 3.3 Ma trận Sup, Acc, Cov tìm được 106 
Hình 3.4 Luật quyết định tìm được trên khối 106 
Hình 3.5 Mối quan hệ giữa số lượng luật kết quả và ngưỡng 
 min_acc, min_cov 107 
Hình 3.6 Chọn giá trị làm mịn 107 
Hình 3.7 Tính các ma trận Sup, Acc, Cov trước và sau khi làm mịn 108 
Hình 3.8 Chọn giá trị thuộc tính làm thô 108 
Hình 3.9 Tính các ma trận Sup, Acc, Cov trước và sau khi làm thô 109 
Hình 3.10 Luật quyết định tìm được sau khi làm thô, mịn giá trị thuộc tính 109 
Hình 3.11 Chọn đối tượng bị loại bỏ 110 
Hình 3.12 Nhập đối tượng bổ sung vào khối 110 
Hình 3.13 Kết quả chương trình tính gia tăng ma trận Acc, Cov và luật quyết định 
thu được 111 
Hình 3.14 Kết quả chương trình tính gia tăng ma trận Sup và luật quyết định thu 
được 111 
Hình 3.15 Thời gian chạy (mili giây) trung bình của hai thuật toán 112
1 
MỞ ĐẦU 
1. Lý do chọn đề tài 
Khai phá dữ liệu vẫn đang là lĩnh vực nhận được rất nhiều sự quan tâm nghiên 
cứu của các nhà khoa học trên thế giới. Hội nghị quốc tế về khai phá dữ liệu KDD 
lần thứ 26 được tổ chức tại California, Mỹ vào tháng 8 năm 2020 là một trong những 
hội nghị lớn và nổi tiếng hàng đầu trong lĩnh vực khai phá dữ liệu và quy tụ hàng 
trăm nhà khoa học tham gia [1], [2]. Một số các hội nghị về khai phá dữ liệu nổi tiếng 
được tổ chức thường niên hàng năm trên thế giới được kể đến như: hội nghị KDD, 
ICDE, IEEE ICDM, CIKM, SIAM SDM, PKDD, PAKDD 
Nhóm bài toán thường được nghiên cứu trong khai phá dữ liệu gồm có: Phân 
lớp, dự đoán, luật kết hợp và phân cụm [3], [4], [5]. Khai phá luật quyết định là một 
kĩ thuật nằm trong nhóm bài toán phân lớp đối tượng. Đây là một trong những kĩ 
thuật khai phá dữ liệu khá phổ biến và đã được nhiều chuyên gia trong và ngoài nước 
nghiên cứu trên mô hình cơ sở dữ liệu quan hệ và một số mô hình mở rộng của mô 
hình dữ liệu quan hệ như mô hình datacube, mô hình nhà kho dữ liệu, mô hình dữ 
liệu đa chiều .[6], [7], [8], [9], [10], [11]. 
Năm 1998, các tác giả Nguyễn Xuân Huy, Trịnh Đình Thắng đã đề xuất mô 
hình dữ liệu dạng khối, một mở rộng của mô hình quan hệ [9]. Mô hình này đã được 
xây dựng cả về lý thuyết và cài đặt thực nghiệm. Với việc đưa thêm một trục id cho 
phép theo dõi được sự thay đổi dữ liệu theo quá trình, cụ thể có thể là theo thời gian, 
giai đoạn, khoảng cách... [12], [13], [14], [15], [16], [17], [18], [19]. 
Kết quả của bài toán khai phá luật trên mô hình quan hệ sẽ cho ta các luật hữu 
ích nhưng chỉ tại một thời điểm nào đó. Tuy nhiên, trong thực tế với một số vấn đề 
đặc thù như chuẩn đoán bệnh, theo dõi quá trình mua bán hàng trong siêu thị hay quá 
trình quản lí cán bộ của một cơ quan,... Việc tìm ra các mối quan hệ (các luật) của 
các đối tượng trong cơ sở dữ liệu theo một quá trình sẽ giúp ích cho các chuyên gia 
đưa ra các quyết định chính xác hơn. 
Ví dụ: trong bảng quyết định Bệnh nhân dưới đây 
2 
Sốt 
(A1) 
Ho 
(A2) 
Sổ mũi 
(A3) 
Mức Sốt VR 
(A4) 
1 1 0 1 
3 2 1 3 
3 2 1 3 
3 3 2 3 
 Bảng 1.1: Bảng Bệnh nhân 
Bảng này gồm các thuộc tính điều kiện là: Sốt (A1), Ho (A2), Sổ mũi (A3) và 
thuộc tính quyết định là Mức Sốt VR (A4). Theo định nghĩa luật quyết định trên bảng 
quyết định sẽ có dạng: Ci → Dj với Ci là các lớp tương đương điều kiện, Dj là các lớp 
tương đương quyết định.[20] 
Giả sử sau khi khai phá ta có luật C3 → D3 trên bảng quyết định thì luật này có 
ý nghĩa như sau: tất cả nhóm bệnh nhân có các triệu chứng là sốt độ 3, ho độ 2, sổ 
mũi độ 1 thì kết luận nhóm bệnh nhân này sốt virut ở mức 3. Có nghĩa là luật tìm 
được ở đây chỉ cho ta thấy được triệu chứng và kết luận bệnh tại một thời điểm. 
Trên thực tế, việc điều trị bệnh là một quá trình cần thời gian theo dõi dài ngày 
từ ngày đầu nhập viện, đến ngày ra viện. Mặt khác, mỗi khi mức độ sốt thay đổi thì 
người quản lí cập nhật mức sốt mới cho bệnh nhân đó, như vậy mức sốt cũ mất đi mà 
thay bằng mức sốt mới. Tình trạng tương tự với các thuộc tính: ho và sổ mũi của bệnh 
nhân. Do đó, với bảng trên người quản lí muốn theo dõi được quá trình diễn biến của 
các triệu chứng bệnh hoặc việc tìm ra trong số ngày bệnh nhân nằm viện thì ngày nào 
sốt cao nhất, ngày nào mức độ ho giảm mạnh nhất,  là một công việc khó khăn. 
Tuy nhiên, trong mô hình dữ liệu dạng khối thì việc này lại trở nên đơn giản hơn. 
Giả sử xây dựng Khối bệnh nhân gồm các thuộc tính chỉ số điều kiện là: Sốt 
(A1), Ho (A2), Sổ mũi (A3) và thuộc tính chỉ số quyết định là phác đồ điều trị: PĐĐT 
(A4) và Sốt VR (A5), trục id = {x, y, z, t} tương ứng với số ngày theo dõi nằm viện. 
3 
Hình 1.1: Minh họa Khối Bệnh nhân 
 Với dữ liệu được theo dõi trên Khối Bệnh nhân: khi một bệnh nhân có sự thay 
đổi về các triệu chứng bệnh, ta bổ sung ngày đó vào trục thời gian và khối sinh một 
lát cắt mới, ứng với ngày vừa bổ sung để người quản lí cập nhật thông tin (trục thời 
gian có thể tính theo ngày, giờ,  tùy theo yêu cầu chẩn đoán). Đồng thời, giả sử sau 
khi khai phá trên Khối tìm được luật có dạng: Ci → Dj với Ci là các lớp tương đương 
điều kiện trên khối, Dj là các lớp tương đương quyết định trên khối. Ví dụ cụ thể tìm 
được luật là C3 → D4 trên khối, luật này sẽ có ý nghĩa như sau: tất cả các nhóm bệnh 
nhân có tập các triệu trứng qua 4 ngày (sốt ngày 1 độ 3, ho ngày 1 độ 2, sổ mũi ngày 
1 độ 3, sốt ngày 2 độ 3, ho ngày 2 độ 1, ., sốt ngày 4 độ 0, ho ngày 4 độ 1, sổ mũi 
ngày 4 độ 0) sử dụng phác đồ điều trị 1 thì cho kết quả bệnh thuyên giảm dần từ ngày 
thứ nhất đến ngày thứ 4 (sốt vi rút ngày 1 độ 3, ngày 2 độ 2, ngày 1 độ 1, ngày 4 độ 
0). Như vậy luật tìm được trên khối cho ta thấy được quá trình đáp ứng của bệnh với 
phác đồ điều trị nào là phù hợp (thông qua tiến trình thay đổi của triệu chứng bệnh) 
Với những dạng bài toán như trên, không chỉ xảy ra trong lĩnh vực y tế, mà cả 
trong giáo dục, quản trị kinh doanh, . Do đó, việc nghiên cứu bài toán tìm luật 
quyết định trên khối để hỗ trợ cho các nhà quản lí là điều cần thiết. 
4 
2. Tổng quan tình hình nghiên cứu liên quan đến luận án 
a) Các nghiên cứu trên thế giới 
Các nghiên cứu về bài toán khai phá luật trên các mô hình quan hệ, mô hình 
mở rộng của mô hình quan hệ cũng đã được nhiều nhóm tác giả nghiên cứu và đưa 
ra trong các năm vừa qua. Ngoài ra, việc nghiên cứu về bài toán khai phá luật trong 
các trường hợp giá trị dữ liệu thay đổi hoặc tập đối tượng thay đổi cũng được quan 
tâm. 
Năm 1995, nhóm tác giả Shan và Ziarko đã đưa ra một phương pháp để tìm 
tất cả các luật quyết định chắc chắn dựa trên học gia tăng. Tuy nhiên, thuật toán có 
một hạn chế là chưa xem xét đến việc tìm các luật trong bảng quyết định không nhất 
quán [21]. 
Mục tiêu để giải quyết vấn đề trên, năm 1998, tác giả Bian [22] đã đề xuất 
thuật toán cải tiến trên cơ sở thuật toán của Shan và Ziarko, thuật toán sử dụng ma 
trận quyết định mở rộng để giải quyết vấn đề dữ liệu không nhất quán. Tuy vậy, cả 
hai thuật toán trên vẫn tồn tại một hạn chế đó là các thuật toán không đưa ra được các 
luật quyết định không chắc chắn và các độ đo của luật như độ chính xác, độ phủ 
không được cập nhật đồng thời. 
Năm 2002, nhóm tác giả Tong và An [23] đã sử dụng thuật toán mới dựa vào 
ma trận quyết định để học gia tăng các luật quyết định trên cơ sở đưa ra bảy trường 
hợp có thể xảy ra khi một đối tượng mới được bổ sung. Tuy nhiên, trường hợp loại 
bỏ đối tượng ra khỏi bảng dữ liệu vẫn chưa được nhóm tác giả đề cập đến. 
Năm 2009, tác giả Liu [24] đã đề xuất mô hình và thuật toán để phát hiện ra 
các luật quyết định khi bổ sung và loại bỏ đối tượng ra khỏi bảng dữ liệu dựa trên 
việc tính toán gia tăng ma trận độ chính xác và ma trận độ phủ làm cơ sở để sinh các 
luật quyết định. Thuật toán của Liu phải sử dụng nhiều không gian bộ nhớ và thời 
gian tính toán do phải lưu và cập nhật lại nhiều lần đối với cả ma trận độ chính xác 
và ma trận độ phủ. 
Năm 2010, tác giả Chen [25] đã đề nghị một thuật toán gia tăng để cập nhật 
các xấp xỉ của một khái niệm (một lớp tương đương quyết định) khi làm mịn các giá 
trị của một thuộc tính điều kiện. Tuy nhiên, vấn đề làm thế nào để sinh các luật quyết 
định có ý nghĩa khi các giá trị hiện có của một thuộc tính thay đổi cũng chưa được đề 
cập. 
5 
Các nghiên cứu trên chủ yếu tập trung khai phá dữ liệu trên mô hình quan hệ. 
Trên thế giới cũng đã có một số nghiên cứu về khai phá dữ liệu trên các mô hình dữ 
liệu đa chiều. [26], [27], [28], [29], [30], [31], [32], [33], [34], [35], [36], [37], 
Năm 1997, Kamber cùng các đồng nghiệp [38] là nhóm đầu tiên đưa ra các 
vấn đề khai thác luật kết hợp từ dữ liệu đa chiều. Các luật kết hợp đa chiều được khai 
thác từ các mức đơn chiều. Quá trình khai thác này sẽ xem xét trên khối dữ liệu (data 
cube), độ hỗ trợ và độ tin cậy được tính dựa theo tham số Count. 
Năm 1998, Zhu đưa ra vấn đề khai phá luật kết hợp từ khối dữ liệu theo ba 
nhóm: liên chiều (inter-dimensional), nội chiều (intra- dimensional), và luật kết hợp 
lai. Luật kết hợp ... ập luật với cùng một tập 
nguồn, chỉ khác nhau về thời gian thực hiện: 
Hình 3.15: Thời gian chạy (mili giây) trung bình của hai thuật toán 
3.11 Kết luận 
 Từ mô hình bổ sung và loại bỏ đối tượng trên khối quyết định và trên lát cắt 
được đề xuất, một số tính chất của các ma trận Acc và Cov đã được chứng minh. Trên 
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
BVBM2KNAKid Patient Fever VirusBVBM2KNB
Ti
m
e 
(m
s)
Thuật toán 
MDLB_OSC1
Thuật toán 
MDLB_OSC2
Hình 3.14: Kết quả thuật toán MDLB_OSC2 và luật quyết định thu được 
112 
cơ sở đó, hai thuật toán tìm các luật quyết định trên khối và trên lát cắt đã được đưa 
ra: 
- Thuật toán MDLB_OSC1 tính gia tăng ma trận Acc, Cov để tìm ra các luật 
quyết định có ý nghĩa trên khối và trên lát cắt. 
- Thuật toán MDLB_OSC2 tính gia tăng ma trận độ hỗ trợ Sup để tìm ra các 
luật quyết định có ý nghĩa. 
Cuối chương là phần so sánh hai thuật toán đề xuất và cài đặt thực nghiệm. 
113 
KẾT LUẬN 
1) Những kết quả chính của luận án 
Luận án tập trung nghiên cứu bài toán khai phá luật quyết định trên khối trong 
một số trường hợp với các kết quả chính như sau: 
- Xây dựng mô hình khai phá luật quyết định trên khối với các khái niệm, định lí, 
tính chất đã được chứng minh. 
- Đề xuất 03 thuật toán tìm luật quyết định trên khối trong các trường hợp: dữ liệu 
khối cố định; giá trị thuộc tính chỉ số thay đổi; và trong trường hợp tập đối tượng 
thay đổi. 
Các kết quả nghiên cứu ở trên với mục đích tìm ra các tri thức có ý nghĩa trên 
khối quyết định để giúp ích cho các nhà quản lí, các nhà hoạch định, kinh doanh trong 
việc theo dõi, quản lí, ra quyết định trong thực tế công việc của mình. 
2) Hướng phát triển của luận án 
- Tiếp tục nghiên cứu vấn đề khai phá luật quyết định trên khối có các thuộc 
tính thay đổi đồng thời, dữ liệu không đầy đủ 
- Khai phá các luật quyết định có ý nghĩa trên chuỗi khối quyết định được liên 
kết với nhau (tương đồng với công nghệ blockchain). 
114 
DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ 
CT1. Trịnh Đình Thắng, Trần Minh Tuyến, Đỗ Thị Lan Anh, “Khai 
phá luật quyết định trên khối dữ liệu có giá trị thuộc tính thay đổi”, Kỷ yếu 
Hội thảo Quốc gia lần thứ XIX: Một số vấn đề chọn lọc của Công nghệ 
thông tin và truyền thông, Hà Nội, 01- 02/10/2016, Tr 163 – 169. 
CT2. Trịnh Đình Thắng, Trần Minh Tuyến, Đỗ Thị Lan Anh, 
Nguyễn Thị Quyên, “Một số kết quả về khai phá luật quyết định trên khối 
dữ liệu có giá trị thuộc tính thay đổi”, Kỷ yếu Hội nghị Khoa học Công nghệ 
Quốc gia lần thứ X: Nghiên cứu cơ bản và ứng dụng công nghệ thông tin, 
Đà Nẵng, 17-18/08/2017, Tr 623 – 632. 
CT3. Trịnh Đình Thắng, Đỗ Thị Lan Anh, “Một số thuật toán xác 
định ma trận độ hỗ trợ trên khối dữ liệu có giá trị thuộc tính thay đổi”, Kỷ 
yếu Hội thảo Quốc gia lần thứ XXI: Một số vấn đề chọn lọc của Công nghệ 
thông tin và truyền thông, Thanh Hóa, 27- 28/07/2018, Tr 216 – 225. 
CT4. Thang Trinh Dinh, Anh Do Thi Lan, “Some properties about 
smoothing, roughen the values of the index attribute on the decision 
block”, International Journal of Advanced Research in Computer Science, 
Volume 10 issue 2 March – April 2019. 
CT5. Đỗ Thị Lan Anh, Trịnh Đình Thắng, “Một phương pháp gia 
tăng để tính độ chính xác và độ phủ của các luật quyết định trên khối dữ 
liệu có tập đối tượng thay đổi”, Chuyên san các công trình nghiên cứu phát 
triển Công nghệ thông tin và truyền thông, Tạp chí thông tin Khoa học công 
nghệ của Bộ Thông tin và truyền thông, Tập 2019 số 1, 2019, Tr 1 – 10. 
CT6. Trịnh Đình Thắng, Đỗ Thị Lan Anh, Trần Minh Tuyến, Cao 
Hồng Huệ, “Phương pháp gia tăng ma trận độ hỗ trợ trên khối dữ liệu và 
trên lát cắt có tập đối tượng thay đổi”, Kỷ yếu Hội nghị Khoa học Công 
nghệ Quốc gia lần thứ XII: Nghiên cứu cơ bản và ứng dụng công nghệ 
thông tin, Huế, 7-8/06/2019. 
115 
TÀI LIỆU THAM KHẢO 
[1]. https://www.kdd.org/kdd2019/ 
[2]. https://www.kdd.org/kdd2020/ 
[3]. Lê Văn Phùng, Quách Xuân Trưởng (2010), Khai phá dữ liệu – Data Mining, 
Nhà xuất bản thông tin và truyền thông. 
[4]. Nguyễn Thanh Thủy (2001), Khai phá dữ liệu – kỹ thuật và ứng dụng, Hà Nội. 
[5]. Jiawei Han, Micheline Kamber, Jian Pei (2011), Data mining: concepts and 
techniques, Elsevier publisher. 
[6]. Akrivi Vlachou, Christos Doulkeridis, Kjetil Norvag, Yannis Kotidis, Peer-to-
Peer Query Processing over Multidimensional Data (SpringerBriefs in Computer 
Science) Paperback, Springer; 2012 edition, 2012. 
[7]. Brian Ciampa, The Data Warehouse Workshop: Providing Practical Experience 
to the Aspiring ETL Developer Paperback, CreateSpace Independent Publishing 
Platform, 2014. 
[8]. Christian S.Jensen, Torben Bach Pedersen, Christian Thomsen (2010), 
Multidimensional Databases and Data Warehousing (Synthesis Lectures on Data 
Management) Paperback, Morgan and Claypool Publishers; 1 edition. 
[9]. Haiping Lu, Konstantinos N. Plataniotis, Anastasios Venetsanopoulos (2013), 
Multilinear Subspace Learning: Dimensionality Reduction of Multidimensional 
Data (Chapman & Hall/Crc Machine Learning & Pattern Recognition) Hardcover, 
Chapman and Hall/CRC; 1 edition. 
[10]. Krish Krishnan (2013), Data Warehousing in the Age of Big Data (The Morgan 
Kaufmann Series on Business Intelligence), Paperback, Morgan Kaufmann; 1 edition. 
[11]. Ladjel Bellatreche, Mukesh K. Mohania (2014), Data Warehousing and 
Knowledge Discovery, 16th International Conference, DaWaK 2014, Munich, 
Germany, September 2-4, 2014. Proceedings (Lecture Notes ... Applications, incl. 
Internet/Web, and HCI) Paperback, Springer; 2014 edition. 
[12]. Trần Minh Tuyến, Trịnh Ðình Thắng (2014), Phụ thuộc Boole dương tổng quát 
trong mô hình dữ liệu dạng khối, Kỷ yếu Hội thảo quốc gia lần thứ XVII "Một số 
vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông", Buôn Ma Thuột, tr. 274-
279. 
116 
[13]. Trịnh Đình Thắng, Mô hình dữ liệu dạng khối, NXB Lao động, 2011. 
[14]. Trịnh Đình Thắng, Một số kết quả về bao đóng, khóa và phụ thuộc hàm trong 
mô hình dữ liệu dạng khối, Kỷ yếu Hội thảo quốc gia lần thứ IV “Một số vấn đề chọn 
lọc của Công nghệ Thông tin”, (245-251), Hải Phòng 05-07/06/2001. 
[15]. Trịnh Đình Thắng, Trần Minh Tuyến, Ánh xạ đóng và phép dịch chuyển lược 
đồ khối, Kỷ yếu Hội nghị quốc gia lần thứ VI về Nghiên cứu cơ bản và ứng dụng 
Công nghệ Thông tin (FAIR), (174-179), Thừa Thiên–Huế 20-21/6/2013. 
[16]. Trịnh Đình Thắng, Trần Minh Tuyến, Trịnh Ngọc Trúc, Phụ thuộc boolean 
dương đa trị trong mô hình dữ liệu dạng khối, Kỷ yếu Hội nghị quốc gia lần thứ IX 
FAIR, Nghiên cứu cơ bản và ứng dụng Công nghệ Thông tin, (602-609), Cần Thơ 
04-05/08/2016. 
[17]. Trịnh Đình Thắng, Trịnh Đình Vinh (2008), Phụ thuộc đa trị trong mô hình 
dữ liệu dạng khối, Kỷ yếu Hội thảo quốc gia lần thứ 11 "Một số vấn đề chọn lọc của 
Công nghệ Thông tin và Truyền thông", Huế, tr. 321-328. 
[18]. Trinh Dinh Thang, Tran Minh Tuyen, Trinh Ngoc Truc, Pham Thi Phuong 
(2020), Some properties of multivalued positive Boolean dependencies in the 
database model of block form, Indian Journal of Science and Technology, volume 
13(25), pp. 2509-2519. 
[19]. Trinh Dinh Thang, Trinh Ngoc Truc, Tran Minh Tuyen, Nguyen Nhu Son 
(2020), Multivalued positive boolean dependencies by groups in the database model 
of block form, International Journal of Advanced Research in Computer Science, 
Volume 11. 
[20]. Z. Pawlak (2002), Rough sets and intelligent data analysis, Information 
Sciences, 147, pp. 1-12. 
[21]. Shan N., Ziarko, W. (1995), Data–based acquisition and incremental 
modification of classification rules, Computational Intelligentce, 11, pp. 357-370. 
[22]. Bian, X. (1998), Certain rule learning of the inconsistent data, Journal of East 
China Shipbuilding Institute, 12(1), pp. 25-30 (In Chinese). 
[23]. Tong, L. An (2002), Incremental learning of decision rules based on rough set 
theory, Proceedings of the World Congress on Intellighent Control and Automation 
117 
(WCIC2002), pp/ 420-425). 
[24]. Liu, D., Li, T., Ruan, D., Zou, W. (2009), An incremental approach for 
inducing knowledge from dynamic information systems, Fundam. Inform., (94), pp. 
245–260. 
[25]. Chen, H., Li, T., Qiao S., Ruan D. (2010), A Rough Set based dynamic 
maintenance approach for approximations in coarsening and refining attribute 
values, International journal of intelligent systems, (25), pp. 1005-1026. 
[26]. Asma Lamani, Brahim Erraha, Malika Elkyal, Abdallah Sair (2019), Data 
mining techniques application for prediction in OLAP cube, International Journal of 
Electrical and Computer Engineering (IJECE) Volume 9, pp 2094 – 2102. 
[27]. C.K.H. Lee, K.L. Choy, G.T.S. Ho, K.S. Chin, K.M.Y.Law, Y.K.Tse (2013), A 
hybrid OLAP-association rule mining based quality management system for 
extracting defect patterns in the garment industry, Expert Systems with Applications, 
Volume 40, pp 2435 – 2466. 
[28]. H. C. Tjioe and D. Taniar, Mining Association Rules in Data Warehouses, 
International Journal of Data Warehousing and Mining, 28–62, 2005. 
[29]. Holger Gunzel, Jens Albrecht, Wolfgang Lehner (1999), Data Mining in a 
Multidimensional Environment, Advances in Databases and Information Systems, 
Springer Publisher, pp 191 – 204. 
[30]. H. Zhu, On-Line Analytical Mining of Association Rules. Master’s thesis, Simon 
Fraser University, Burnaby, British Columbia, Canada, December 1998. 
[31]. J. Han and Y. Fu, Discovery of Multiple-Level Association Rules from Large 
Databases, In Proceedings of the 21st International Conference on Very Large Data 
Bases (VLDB 1995), pages 420–431, Zurich, Switzerland, September 1995. Morgan 
Kaufmann. 
[32]. Jigna J. Jadav, Mahesh Panchal (2012), Association Rule Mining Method On 
OLAP Cube, International Journal of Engineering Research and Applications, Vol. 2, 
pp.1147-1151. 
[33]. Alina A.von Davier, Park Chung Wong,.. , The argument for a “Data cube” for 
large – scale Spychometric data. 
[34]. Omar Boutkhoum, Mohamed Hanine (2017), An integrated decision-making 
prototype based on OLAP systems and multicriteria analysis for complex decision-
118 
making problems, Applied Informatic, Stringer, 2017 edition. 
[35]. Riadh Ben Messaoud, Sabine Loudcher Rabas´eda (2006), Enhanced Mining of 
Association Rules from Data Cubes. 
[36]. Salvatore Greco, Benedetto Matarazzo, Roman Slowinski, Decision Rule 
Approach, Multiphle Criteria Decision Analysis, International Series in Operations 
Research & Management Science, volume 223, pp 497 – 552. 
[37]. S. Nestorov and N. Juki´c. Ad-Hoc, Association-Rule Mining within the Data 
Warehouse. In Proceedings of the 36th Hawaii International Conference on System 
Sciences (HICSS 2003), pages 232–242, Big Island, Hawaii, USA, January 2003. 
IEEE Computer Society. 
[38]. M. Kamber, J. Han, and J. Chiang, Metarule-Guided Mining of Multi-
Dimensional Association Rules Using Data Cubes, In Proceedings of the 3 rd 
International Conference on Knowledge Discovery and Data Mining (KDD 1997), 
pages 207–210, Newport Beach, CA, USA, August 1997. The AAAI Press. 
[39]. H. Zhu, On-Line Analytical Mining of Association Rules. Master’s thesis, Simon 
Fraser University, Burnaby, British Columbia, Canada, December 1998. 
[40]. Q. Chen, U. Dayal, and M. Hsu, An OLAP-based Scalable Web Access Analysis 
Engine, In Proceedings of the 2 nd International Conference on Data Warehousing 
and Knowledge Discovery (DaWaK 2000), Lecture Notes in Computer Science, 
pages 210–223, London, UK, September 2000. Springer-Verlag. 
[41]. S. Nestorov and N. Juki´c. Ad-Hoc, Association-Rule Mining within the Data 
Warehouse. In Proceedings of the 36th Hawaii International Conference on System 
Sciences (HICSS 2003), pages 232–242, Big Island, Hawaii, USA, January 2003. 
IEEE Computer Society. 
[42]. H. C. Tjioe and D. Taniar, Mining Association Rules in Data Warehouses, 
International Journal of Data Warehousing and Mining, 28–62, 2005. 
[43]. Riadh Ben Messaoud, Sabine Loudcher Rabas´eda (2006), Enhanced Mining of 
Association Rules from Data Cubes. 
[44]. Wolfram Hopken, Volker Meyer, Matthias Fuchs, Maria Lexhagen (2015), 
Integration of data mining results into multi-dimensional data models, Information 
and Communication Technologies in Tourism, pp 155 – 168. 
[45]. Omar Boutkhoum, Mohamed Hanine (2017), An integrated decision-making 
119 
prototype based on OLAP systems and multicriteria analysis for complex decision-
making problems, Applied Informatic, Stringer, 2017 edition 
[46]. Viktor Putrenko, Nataliia Pashvnska, Data Mining of Network Events with 
Space-Time Cube Application, 2018 IEEE Second International Conference on Data 
Stream Mining & Processing (DSMP). 
[47]. Hanen Brahmi (2019), Post-Mining of Generalized Association Rules from 
Data Cubes, 2019 International Conference on Information Networking (ICOIN), 
IEEE Publisher. 
[48]. Nguyễn Hữu Trọng (2008), Phát triển một số thuật toán khai phá luật kết hợp 
trên cơ sở dữ liệu gia tăng, Luận án Tiến sĩ Toán học. 
[49]. Nguyễn Long Giang (2012), Nghiên cứu một số phương pháp khai phá dữ liệu 
theo tiếp cận lí thuyết tập thô, Luận án Tiến sĩ Toán học. 
[50]. Nguyễn Quang Khanh (2012), Khai phá luật quyết định trên bảng dữ liệu động, 
Luận án Tiến sĩ Toán học. 
[51]. Cao Chính Nghĩa (2017), Nghiên cứu các phương pháp rút gọn thuộc tính và 
sinh luật quyết định theo tiếp cận tập thô mờ, Luận án Tiến sĩ Toán học. 
[52]. J. Han and Y. Fu, Discovery of Multiple-Level Association Rules from Large 
Databases, In Proceedings of the 21st International Conference on Very Large Data 
Bases (VLDB 1995), pages 420–431, Zurich, Switzerland, September 1995. Morgan 
Kaufmann. 
[53]. Bharati M. Ramageri, (2019) Data mining techniques and applications, Indian 
Journal of Computer Science and Engineering Vol. 1 No. 4 301-305. 
[54]. Zdzislaw Pawlak (1982), Rough sets, International Journal of Computer and 
Information Sciences, 11 (5), pp. 341-356. 
[55]. L. Sumalathai, P. Sanraki, B. Sujatha (2016), Rough set based decision rule 
generation to find behavioural patterns of customers, Vol. 41, No. 9, September 2016, 
pp. 985–991 Indian Academy of Sciences. 
[56]. Kryszkiewicz, M. (1999), Rule in complete information systems, Information 
Science, (113), pp. 271 - 292. 
[57]. Apostolos Benisis, Business Process Management: A Data Cube To Analyze 
Business Process Simulation Data For Decision Making Paperback, VDM Verlag 
Dr. Müller, 2010. 
120 
[58]. Christian S.Jensen, Torben Bach Pedersen, Christian Thomsen (2010), 
Multidimensional Databases and Data Warehousing (Synthesis Lectures on Data 
Management) Paperback, Morgan and Claypool Publishers; 1 edition. 
[59]. Z. Pawlak (2002), Rough sets and intelligent data analysis, Information 
Sciences, 147, pp. 1-12. 
[60]. Tsumoto, S. (2002), Accuracy and coverage in rough set rule induction, 
RSCTC2002, LNAI, 2475, pp. 373-380. 

File đính kèm:

  • pdfluan_an_khai_pha_luat_quyet_dinh_tren_mo_hinh_du_lieu_dang_k.pdf
  • pdfĐóng góp mới của luận án.pdf
  • pdfTÓM TẮT T.ANH- LAN ANH.pdf
  • pdfTÓM TẮT T.VIỆT- LAN ANH.pdf
  • pdftrích yếu luận án tiến sĩ.pdf