Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử

Trong cuộc sống con người, ngôn ngữ được hình thành một cách tự nhiên

để đáp ứng nhu cầu trao đổi thông tin của xã hội. Hơn thế, ngôn ngữ là công cụ

để con người mô tả các sự vật, hiện tượng trong thế giới thực và dựa trên đó để

tư duy, lập luận đưa ra những nhận định, phán quyết nhằm phục vụ cho cuộc

sống xã hội của chúng ta. Trong thực tế, các khái niệm mờ luôn tồn tại, ví dụ

như trẻ, rất trẻ, hơi già, quá già,. nên với việc quan niệm các đối tượng được

sử dụng phải luôn rõ ràng ở trong logic cổ điển sẽ không đủ miêu tả các vấn đề

của thế giới thực.

Năm 1965, L. A. Zadeh đã đề xuất hình thức hóa toán học của khái niệm

mờ [79], từ đó lý thuyết tập mờ được hình thành và ngày càng thu hút nhiều nhà

nghiên cứu. Bằng các phương pháp tiếp cận khác nhau, nhiều nhà nghiên cứu

như Dubois, Prade [21], Mariana [50], Ishibuchi [36], Herrera [8], Yakun Hu

[77], đã đưa ra những kết quả cả về lý thuyết và ứng dụng cho nhiều lĩnh vực

như: điều khiển mờ, cơ sở dữ liệu mờ, khai phá dữ liệu mờ. Ý tưởng nổi bật của

Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa của thông tin mờ, không

chắc chắn như trẻ-già, nhanh-chậm, cao-thấp, và đã tìm ra cách biểu diễn

chúng bằng một khái niệm toán học, được gọi là tập mờ.

pdf 120 trang dienloan 18300
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử

Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
ĐẠI HỌC HUẾ 
TRƢỜNG ĐẠI HỌC KHOA HỌC 
LÊ VĂN TƢỜNG LÂN 
PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH MỜ 
DỰA TRÊN ĐẠI SỐ GIA TỬ 
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH 
MÃ SỐ: 62.48.01.01 
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH 
Ngƣời hƣớng dẫn khoa học: 
 1. PGS.TS. Nguyễn Mậu Hân 
 2. TS. Nguyễn Công Hào 
HUẾ - NĂM 2018 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
ii 
LỜI CAM ĐOAN 
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự 
hướng dẫn khoa học của PGS.TS. Nguyễn Mậu Hân và TS. Nguyễn Công Hào. 
Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố 
bởi bất kỳ tác giả nào hay ở bất kỳ công trình nào khác. 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
iii 
LỜI CẢM ƠN 
Trong quá trình thực hiện đề tài “Phân lớp dữ liệu bằng cây quyết định 
mờ dựa trên đại số gia tử”, tôi đã nhận được rất nhiều sự giúp đỡ, tạo điều kiện 
của tập thể Ban giám hiệu, Phòng Đào tạo Sau đại học, Khoa Công nghệ thông 
tin và các phòng chức năng của Trường Đại học Khoa học, Đại học Huế. Tôi xin 
bày tỏ lòng cảm ơn chân thành về sự giúp đỡ quý báu đó. 
 Tôi xin được bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Mậu Hân 
và TS. Nguyễn Công Hào là những thầy trực tiếp hướng dẫn và chỉ bảo cho tôi 
hoàn thành luận án. 
Tôi xin chân thành cảm ơn gia đình, bạn bè và đồng nghiệp đã động viên, 
khích lệ, tạo điều kiện và giúp đỡ tôi trong suốt quá trình thực hiện và hoàn 
thành luận án này. 
TÁC GIẢ LUẬN ÁN 
Nghiên cứu sinh 
Lê Văn Tƣờng Lân 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
iv 
MỤC LỤC 
Lời cam đoan ............................................................................................................... ii 
Lời cảm ơn ............................................................................................................... iii 
Danh mục các từ viết tắt ............................................................................................ vii 
Danh mục các ký hiệu ............................................................................................. viii 
Danh mục các bảng biểu ............................................................................................ ix 
Danh mục các hình vẽ ................................................................................................. x 
Mở đầu ....................................................................................................................... 1 
Chƣơng 1. Cơ sở lý thuyết về đại số gia tử và tổng quan phân lớp dữ liệu bằng 
cây quyết định ................................................................................................. 10 
 1.1. Lý thuyết tập mờ ...................................................................................... 10 
 1.1.1.Tập mờ và thông tin không chắc chắn ............................................ 10 
 1.1.2. Biến ngôn ngữ ................................................................................ 12 
 1.2. Đại số gia tử ............................................................................................... 14 
 1.2.1. Khái niệm đại số gia tử .................................................................. 14 
 1.2.2. Các hàm đo của đại số gia tử ......................................................... 16 
 1.2.3. Một số tính chất của các hàm đo ................................................... 17 
 1.2.4. Khoảng mờ và các mối tương quan của khoảng mờ ..................... 20 
 1.3. Phân lớp dữ liệu bằng cây quyết định ...................................................... 21 
 1.3.1. Bài toán phân lớp trong khai phá dữ liệu ...................................... 21 
 1.3.2. Cây quyết định ............................................................................... 23 
 1.3.3. Lợi ích thông tin và tỷ lệ lợi ích thông tin ..................................... 24 
 1.3.4. Vấn đề quá khớp trong mô hình cây quyết định .......................... 26 
 1.4. Phân lớp dữ liệu bằng cây quyết định mờ ................................................. 28 
 1.4.1. Các hạn chế của phân lớp dữ liệu bằng cây quyết định rõ ............ 28 
 1.4.2. Bài toán phân lớp dữ liệu bằng cây quyết định mờ ....................... 29 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
v 
 1.4.3. Một số vấn đề của bài toán phân lớp dữ liệu bằng cây quyết định 
mờ .......................................................................................................... 31 
 1.5. Kết luận chương 1 ..................................................................................... 35 
Chƣơng 2. Phân lớp dữ liệu bằng cây quyết định mờ theo phƣơng pháp đối 
sánh điểm mờ dựa trên đại số gia tử ............................................................ 36 
 2.1. Giới thiệu ................................................................................................... 36 
 2.2. Phương pháp chọn tập mẫu huấn luyện đặc trưng cho bài toán học phân 
lớp dữ liệu bằng cây quyết định ..................................................................... 38 
2.2.1. Tính chất thuộc tính của tập mẫu huấn luyện đối với quá trình 
huấn luyện ................................................................................................ 40 
 2.2.2. Ảnh hưởng từ phụ thuộc hàm giữa các thuộc tính trong tập huấn 
luyện ........................................................................................................ 41 
 2.3. Phân lớp dữ liệu bằng cây quyết định dựa trên ngưỡng miền trị thuộc 
tính .................................................................................................................. 44 
 2.3.1. Cơ sở của việc xác định ngưỡng cho quá trình học phân lớp ........ 44 
 2.3.2. Thuật toán MixC4.5 dựa trên ngưỡng miền trị thuộc tính .......... 44 
 2.3.3. Cài đặt thử nghiệm và đánh giá thuật toán MixC4.5 .................... 47 
 2.4. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đối sánh điểm mờ .... 53 
 2.4.1. Xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định mờ 53 
 2.4.2. Vấn đề với tập mẫu huấn luyện không thuần nhất ........................ 55 
 2.4.3. Một cách định lượng giá trị ngôn ngữ ngoại lai trong tập mẫu huấn 
luyện ........................................................................................................ 58 
 2.4.4. Thuật toán học bằng cây quyết định mờ FMixC4.5 dựa trên đối 
sánh điểm mờ ........................................................................................... 63 
 2.4.5. Cài đặt thử nghiệm và đánh giá thuật toán FMixC4.5 ................. 64 
 2.5. Kết luận Chương 2 .................................................................................... 67 
Chƣơng 3. Phƣơng pháp huấn luyện cây quyết định mờ cho bài toán phân lớp 
dữ liệu dựa trên đối sánh khoảng mờ ........................................................... 69 
 3.1. Giới thiệu ................................................................................................... 69 
 3.2. Phương pháp đối sánh giá trị khoảng trên thuộc tính mờ ....................... 70 
 3.2.1. Xây dựng cách thức đối sánh giá trị khoảng dựa trên đại số gia tử70 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
vi 
 3.2.2. Phương pháp định lượng khoảng mờ khi chưa biết miền trị MIN, 
MAX của các thuộc tính mờ .................................................................... 72 
 3.3. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên cách thức đối sánh 
khoảng mờ ........................................................................................................ 77 
3.3.1. Thuật toán phân lớp dữ liệu bằng cây quyết định mờ HAC4.5 dựa 
trên đối sánh khoảng mờ .......................................................................... 77 
 3.3.2. Cài đặt thử nghiệm và đánh giá thuật toán HAC4.5 .................... 80 
 3.4. Xây dựng khái niệm khoảng mờ lớn nhất và phương pháp học nhằm tối 
ưu mô hình cây quyết định mờ ........................................................................ 85 
 3.4.1. Phát biểu bài toán học phân lớp dữ liệu bằng cây quyết định mờ 
 theo hướng đa mục tiêu ........................................................................... 85 
 3.4.2. Khái niệm khoảng mờ lớn nhất và cách thức tính khoảng mờ lớn 
 nhất cho các thuộc tính mờ ...................................................................... 86 
 3.4.3. Thuật toán phân lớp dữ liệu bằng cây quyết định mờ HAC4.5* 
 theo cách tiếp cận khoảng mờ lớn nhất ................................................. 88 
 3.4.4. Cài đặt thử nghiệm và đánh giá thuật toán HAC4.5* .................. 92 
 3.5. Kết luận chương 3 ..................................................................................... 96 
Kết luận .................................................................................................................... 98 
Danh mục các công trình khoa học của tác giả liên quan đến luận án ............ 100 
Tài liệu tham khảo ................................................................................................ 101 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
vii 
DANH MỤC CÁC TỪ VIẾT TẮT 
Viết tắt Viết đầy đủ 
ĐSGT 
GĐ1 
GĐ2 
CART 
Dom 
Gain 
GainRatio 
HA 
LDT 
Sim 
SplitInfo 
Đại số gia tử 
Giai đoạn 1 
Giai đoạn 2 
Classification and Regression Trees 
Domain 
Gain Information 
Gain Information Ratio 
Hedge Algebra 
Linguistic Decision Tree 
Similar 
Split Information 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
viii 
DANH MỤC CÁC KÝ HIỆU 
Ký hiệu Diễn giải ý nghĩa 
Ai 
D 
𝐷𝐴𝑖 
f 
fh(S) 
fn(S) 
Ik 
𝐿𝐷𝐴𝑖 
O(log n) 
µA(v) 
S 
sim(x, y) 
v 
X 
Y 
Thuộc tính Ai 
Tập mẫu huấn luyện 
Tập các giá trị kinh điển của Ai 
Ánh xạ 
Hàm đánh giá tính hiệu quả của cây 
Hàm đánh giá tính đơn giản của cây 
Tập tất cả các khoảng mờ mức k của các giá trị ngôn ngữ 
Tập các giá trị ngôn ngữ của Ai 
Độ phức tạp logarit của thuật toán 
Hàm định lượng của giá trị ngôn ngữ A (đo độ thuộc của v) 
Cây quyết định 
Mức độ gần nhau của x và y 
Giá trị định lượng theo điểm của giá trị ngôn ngữ 
Đại số gia tử 
Thuộc tính phân lớp 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
ix 
DANH MỤC CÁC BẢNG BIỂU 
Bảng 2.1. Bảng dữ liệu DIEUTRA .......................................................................... 38 
Bảng 2.2. Thông số thuộc tính tập huấn luyện chọn từ cơ sở dữ liệu Northwind ... 48 
Bảng 2.3. Bảng so sánh kết quả huấn luyện của thuật toán MixC4.5 với 1000 mẫu 
trên cơ sở dữ liệu Northwind ................................................................... 49 
Bảng 2.4. Bảng so sánh kết quả huấn luyện của thuật toán MixC4.5 với 1500 mẫu 
trên cơ sở dữ liệu Northwind ................................................................... 49 
Bảng 2.5. Thông số thuộc tính tập huấn luyện từ cơ sở dữ liệu Mushroom ............ 50 
Bảng 2.6. Bảng so sánh kết quả của thuật toán MixC4.5 với 5000 mẫu huấn luyện 
trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom ............................. 51 
Bảng 2.7. Bảng dữ liệu DIEUTRA có thuộc tính Lương chứa dữ liệu rõ mà mờ ... 55 
Bảng 2.8. Bảng so sánh kết quả kiểm tra độ chính xác của thuật toán FMixC4.5 
trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom ........................... 65 
Bảng 2.9. Bảng so sánh thời gian kiểm tra của thuật toán FMixC4.5 trên cơ sở 
dữ liệu có chứa thuộc tính mờ Mushroom ............................................ 65 
Bảng 3.1. Tập mẫu huấn luyện chứa thuộc tính Lương không thuần nhất, chưa xác 
định Min-Max ......................................................................................... 75 
Bảng 3.2. Bảng so sánh kết quả với 5000 mẫu huấn luyện của thuật toán C4.5, 
FMixC4.5 và HAC4.5 trên cơ sở dữ liệu có chứa thuộc tính mờ 
Mushroom ............................................................................................... 80 
Bảng 3.3. Thông số thuộc tính tập huấn luyện từ cơ sở dữ liệu Aldult ................... 82 
Bảng 3.4. Bảng so sánh kết quả với 20000 mẫu huấn luyện của thuật toán C4.5, 
FMixC4.5 và HAC4.5 trên cơ sở dữ liệu có chứa thuộc tính mờ Adult 82 
Bảng 3.5. Đối sách thời gian kiểm tra từ 1000 đến 5000 mẫu trên dữ liệu Adult ... 83 
Bảng 3.6. Đối sánh kết quả huấn luyện trên dữ liệu Adult ...................................... 92 
Bảng 3.7. Tỷ lệ kiểm tra của HAC4.5* trên dữ liệu Adult ...................................... 93 
Bảng 3.8. Kết quả dự đoán trung bình của các thuật toán FMixC4.5, HAC4.5 và 
HAC4.5* đối với các cách tiếp cận khác .............................................. 94 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
x 
DANH MỤC CÁC HÌNH VẼ 
Hình 1.1. Tính mờ của phần tử sinh lớn .................................................................. 19 
Hình 1.2. Mối tương quan I(y)  I(x) ...................................................................... 21 
Hình 1.3. Mối tương quan của y được đối sánh theo x, khi I(y)  I(x) ................... 21 
Hình 1.4. Mối tương quan của y được đối sánh theo x1, khi I(y)  I(x) .................. 21 
Hình 1.5. Minh họa hình học về chỉ số Gini ............................................................ 26 
Hình 1.6. Vấn đề “quá khớp” trong cây quyết định ................................................ 27 
Hình 1.7. Điểm phân chia đa phân theo giá trị ngôn ngữ tại thuộc tính mờ ........... 32 
Hình 1.8. Điểm phân chia nhị phân theo giá trị ngôn ngữ hoặc giá trị số tại thuộc 
tính mờ, dựa trên phương pháp định lượng ngữ nghĩa theo điểm trong 
ĐSGT ...................................................................................................... 34 
Hình 2.1. Cây quyết định được tạo từ tập mẫu huấn luyện M1 .............................. 39 
Hình 2.2. Cây quyết định không có hiệu quả được tạo từ tập huấn luyện M2 ........ 39 
Hình 2.3. So sánh thời gian huấn luyện của MixC4.5 với các thuật toán khác ....... 50 
Hình 2.4. So sánh số nút trên cây kết quả của MixC4.5 với các thuật toán khác.... 52 
Hình 2.5. So sánh tỷ lệ đúng trên kết quả của MixC4.5 với các thuật toán khác .... 52 
Hình 2.6. Mô hình cho quá trình học phân lớp mờ ................................................. 53 
Hình 2.7. Mô hình đề nghị cho việc học phân lớp bằng cây quyết định mờ ........... 54 
Hình 2.8. Cây quyết định kết quả “sai lệch” khi tập mẫu huấn luyện bị loại bỏ giá 
trị ngôn ngữ .............................................................................................. 56 
Hình 2.9. Tính mờ của thuộc tính Lương khi chưa xét các giá trị ngoại lai ............ 62 
Hình 2.10. So sánh thời gian huấn luyện với 5000 mẫu Mushroom của FMixC4.5 
với các thuật toán khác ............................................................................ 66 
Hình 2.11. So sánh thời gian kiểm tra với 2000 mẫu Mushroom của FMixC4.5 với 
các thuật toán khác  ... 6. 
TIẾNG ANH 
[6]. Abonyi J., Roubos J.A., Setnes M., Learning fuzzy classification rules 
from labeled data, Information Sciences, vol. 150, 2003. 
[7]. Adler D., Genetic Algorithms and Simulated Annealing: A Marriage 
Proposal, Proc of the International Conf. On Neural Networks, vol. 2, 
pp. 1104-1109, 1994. 
[8]. Alberto Fernández, María Calderón, Francisco Herrera, Enhancing Fuzzy 
Rule Based Systems in Multi-Classication Using Pairwise Coupling with 
Preference Relations, University of Navarra, Spain, 2009. 
[9]. A. K. Bikas, E. M. Voumvoulakis, N. D. Hatziargyriou, Neuro-Fuzzy 
Decision Trees for Dynamic Security Control of Power Systems, 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
102 
Department of Electrical and Computer Engineering, NTUA,Athens, 
Greece, 2008. 
[10]. Anuradha, Gaurav Gupta, Fuzzy Decision Tree Construction in Crisp 
Scenario through fuzzified Trapezoidal Membership Function, 
Internetworking Indonesia Journal, Vol.7, No.2, pp. 21-28, 2015. 
[11]. B. Chandra, Fuzzy SLIQ Decision Tree Algorithm, IEEE, 2008. 
[12]. Bhatt R. B., Neuro-fuzzy decision trees for content popularity model and 
multi-genre movie recommendation system over social network, IEEE, 
2009. 
[13]. Biswajeet Pradhan, A comparative study on the predictive ability of the 
decision tree, support vector machine and neuro-fuzzy models in 
landslide susceptibility mapping using GIS, Computers & Geosciences, 
Volume 51, pp. 350-365, 2013. 
[14]. Breiman L., Friedman J. H., Olshen R. A., Classification and Regression 
Trees, CRC Press, 1984. 
[15]. Buckley J. J., Siler W., Fuzzy Expert Systems and Fuzzy Reasoning, John 
Wiley & Sons, Inc., USA, 2005. 
[16]. Chida A., Enhanced Encoding with Improved Fuzzy Decision Tree 
Testing Using CASP Templates, Computational Intelligence Magazine, 
IEEE, 2012. 
[17]. Chang, Robin L. P. Pavlidis, Theodosios, Fuzzy Decision Tree 
Algorithms, Man and Cybernetics, IEEE , 2007. 
[18]. Charu C. Aggarwal , Outlier Analysis, IBM T. J. Watson Research 
Center Yorktown Heights, New York, 2016. 
[19]. Daveedu Raju Adidela, Jaya Suma. G, Lavanya D. G., Construction of 
Fuzzy Decision Tree using Expectation Maximization Algorithm, 
International Journal of Computer Science and Management Research , 
Vol 1 Issue 3 October 2012. 
[20]. D. Hawkins, Identification of Outliers, Chapman and Hall, 1980. 
[21]. Dubois D., Prade H., Fuzzy Sets in Approximate Reasoning and 
Information Systems, Kluwer Academic Publishers, USA, 1999. 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
103 
[22]. Fernandez A., Calderon M., Barrenechea E., Enhancing Fuzzy Rule 
Based Systems in Multi-Classication Using Pairwise Coupling with 
Preference Relations, EUROFUSE Workshop Preference Modelling and 
Decision Analysis, Public University of Navarra, Pamplona, Spain, 
2009. 
[23]. Fuller R., Neural Fuzzy Systems, Physica-Verlag, Germany, 1995. 
[24]. Guang-Bin Huang, Hongming Zhou, Xiaojian Ding, Rui Zhang, Extreme 
Learning Machine for Regression and Multiclass Classification, IEEE 
Transactions On Systems, Man, and Cybernetics, Vol. 42, No. 2, pp. 
513-529, 2012. 
[25]. Hamid Kiavarz Moghaddam, Vehicle Accident Severity Rule Mining 
Using Fuzzy Granular Decision Tree, University of Calgary, 2015. 
[26]. Hesham A. Hefny, Ahmed S. Ghiduk, Ashraf Abdel Wahab, Effective 
Method for Extracting Rules from Fuzzy Decision Trees based on 
Ambiguity and Classifiability, Universal Journal of Computer Science 
and Engineering Technology, Cairo University, Egypt., pp. 55-63, 2010. 
[27]. Ho N. C., Long N. V., Fuzziness measure on complete hedges algebras 
and quantifying semantics of terms in linear hedge algebras, Fuzzy Sets 
and Systems, vol.158, pp. 452-471, 2007. 
[28]. Ho N. C., Nam H. V., An algebraic approach to linguistic hedges in 
Zadeh's fuzzy logic, Fuzzy Sets and Systems, vol. 129, pp. 229-254, 
2002. 
[29]. Ho N. C., Wechler W., Hedge algebras: an algebraic approach to 
structures of sets of linguistic domains of linguistic truth variables, 
Fuzzy Sets and Systems, 35(3), pp. 281-293, 1990. 
[30]. Ho N. C., Wechler W., Extended algebra and their application to fuzzy 
logic, Fuzzy Sets and Systems, vol. 52, pp. 259–281, 1992. 
[31]. Ho N. C., Lan V. N., Viet L. X., Optimal hedge-algebras-based 
controller: Design and application, Fuzzy Sets and Systems, vol. 159, 
pp. 968-989, 2008. 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
104 
[32]. Hongze Qiu, Haitang Zhang, Fuzzy SLIQ Decision Tree Based on 
Classification Sensitivity, Modern Education and Computer Science 
(MECS), pp. 18-25, 2011. 
[33]. Hou Yuan-long, Chen Ji-lin, Xing Zong-yi, Jia Li-min, Tong Zhong-zhi, 
A Multi-objective Genetic-based Method for Design Fuzzy Classification 
Systems, International Journal of Computer Science and Network 
Security, vol. 6, no. 8, pp. 110-117, 2006 
[34]. Huang J., Ertekin S., Song Y., Zha H., Giles C. L., Efficient Multiclass 
Boosting Classification with Active Learning, Seventh SIAM 
International Conference, Minnesota University, America, 2007 
[35]. Ishibuchi H., Nakashima T., Effect of Rule Weights in Fuzzy Rule-Based 
Classification Systems, IEEE Trans. on Fuzzy Systems, vol. 9, no. 4, 
2001. 
[36]. Ishibuchi H., Nojima Y., Kuwajima I., Parallel distributed genetic fuzzy 
rule selection, SpringerLink, vol. 13, no. 5, 2009. 
[37]. James F. Smith, Vu N. H. T., Genetic program based data mining of 
fuzzy decision trees and methods of improving convergence and reducing 
bloat, Data Mining, Intrusion Detection, Information Assurance, 2007. 
[38]. Jaime Carbonell, An Empirical Comparison of Pruning Methods for 
Decision Tree Induction, Machine Learning, Kluwer Academic 
Publishers, Boston, Manufactured in The Netherlands, Vol 4, pp. 227-
243, 1989. 
[39]. Jan Bohacik, C. Kambhampati, Darryl N. Davis, JFG Cleland, Analysis 
of Fuzzy Decision Trees on Expert Fuzzified Heart Failure Data, IEEE 
International Conference on Systems, Man and Cybernetics, pp. 350-
355, 2013. 
[40]. José Antonio Sanz, Alberto Fernández, Humberto Bustince, A Linguistic 
Fuzzy Rule-Based Classification System Based On a New Interval-
Valued Fuzzy Reasoning Method With Tuning and Rule Selection, IEEE 
Transactions on Fuzzy systems, vol. 21, no. 3, pp. 399-411, 2013. 
[41]. Jothikumar R., Siva Balan R. V., C4.5 classification algorithm with 
back-track pruning for accurate prediction of heart disease, 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
105 
Computational Life Science and Smarter Technological Advancement, 
Biomedical Research, pp.107-111, 2016. 
[42]. Kavita Sachdeva, Madasu Hanmandlu, Amioy Kumar, Real Life 
Applications of Fuzzy Decision Tree, International Journal of Computer 
Applications, 2012. 
[43]. Kishor Kumar Reddy, Vijaya Babu, A Survey on Issues of Decision Tree 
and Non-Decision Tree Algorithms, International Journal of Artificial 
Intelligence and Applications for Smart Devices, Vol. 4, No. 1, pp. 9-32, 
2016. 
[44]. Larose D. T., Data Mining: Methods and Models, John Wiley & Sons, 
Inc. Pubs., Canada, 2006 
[45]. Lee C. S. George, Lin C. T, Neural Fuzzy Systems: A Neuro-Fuzzy 
Synergism to Intelligent Systems, Prentice-Hall International, Inc, 1995. 
[46]. Moustakidis S., Mallinis G., Koutsias N., Theocharis J. B., Petridis V., 
SVM-Based Fuzzy Decision Trees for Classification of High Spatial 
Resolution Remote Sensing Images, Geoscience and Remote Sensing, 
IEEE, 2012. 
[47]. Manish Mehta, Jorma Rissanen, Rakesh Agrawal, SLIQ: A Fast Scalable 
Classifier for Data Mining, IBM Almaden Reseach Center, 1996. 
[48]. Manish Mehta, Jorma Rissanen, Rakesh Agrawal, SPRINT: A Fast 
Scalable Classifier for Data Mining, IBM Almaden Reseach Center, 
1998. 
[49]. Marcos E. Cintra, Maria C. Monard, Heloisa A. Camargo, A Fuzzy 
Decision Tree Algorithm Based on C4.5, Mathware & Soft Computing 
Magazine. Vol. 20, Num. 1, pp. 56-62, 2013. 
[50]. Mariana V. Ribeiro, Luiz Manoel S. Cunha, Heloisa A. Camargo, Luiz 
Henrique A. Rodrigues, Applying a Fuzzy Decision Tree Approach to 
Soil Classification, Springer International Publishing Switzerland, pp. 
87–96, 2014. 
[51]. Mingsheng Ying, Bernadette Bouchon Meunier, Approximate Reasoning 
with Linguistic Modifiers, International journal of intelligent systems, 
vol. 13 pp. 403-418, 1998. 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
106 
[52]. Narasimha Prasad, Mannava Munirathnam Naidu, CC-SLIQ: 
Performance Enhancement with 2k Split Points in SLIQ Decision Tree 
Algorithm, International Journal of Computer Science, 2014. 
[53]. Olson D. L., Delen D., Advances Data Mining Techniques, Springer 
Pubs., Berlin, Germany, 2008. 
[54]. Patil N. at al., Comparison of C5. 0 & CART classification algorithms 
using pruning technique. International Journal of Engineering Research 
and Technology, ESRSA Publications, 2012. 
[55]. Pavel K., Jan P., Václav S., Ajith Abraham, Fuzzy Classification by 
Evolutionary Algorithms, pp. 313-318, IEEE, 2011. 
[56]. Paweł Bujnowski, Eulalia Szmidt, Janusz Kacprzyk, An Approach to 
Intuitionistic Fuzzy Decision Trees, 9th Conference of the European 
Society for Fuzzy Logic and Technology, Published by Atlantis Press, 
pp. 1253-1260, 2015. 
[57]. Peer Fatima, Parveen, Dr. Mohamed Sathik, Fuzzy Decision Tree based 
Effective IMine Indexing, International Journal of Computer Technology 
and Electronics Engineering (IJCTEE),Volume 1, Issue 2, 2011. 
[58]. Perter Rousseeuw, Annick Leroy, Robust Regression and Outlier 
Detection, Wiley, 2003. 
[59]. Prade H., Djouadi Y., Alouane B., Fuzzy Clustering for Finding Fuzzy 
Partitions of Many-Valued Attribute Domains in a Concept Analysis 
Perspective, International Fuzzy Systems Association World Congress 
and Conference of the European Society for Fuzzy Logic and 
Technology (IFSA-EUSFLAT), pp. 420-425, 2009. 
[60]. Quinlan J. R., Induction of decision trees, Machine learning, 1986. 
[61]. Quinlan J. R., Simplifying decision trees, International Journal of Man-
Machine Studies, no. 27, pp. 221-234, 1987. 
[62]. Quinlan, J. R. C4.5: Programs for machine learning, Morgan kaufmann, 
1993. 
[63]. Ricardo H. Tajiri, Eduardo Z. Marques, Bruno B. Z., Leonardo S. M., A 
New Approach for Fuzzy Classification in Relational Databases, 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
107 
Database and Expert Systems Applications, Springer, pp. 511–518, 
2011. 
[64]. R.C. Barros et al., Automatic Design of Decision-Tree Induction 
Algorithms, Springer Briefs in Computer Science, pp. 7-45, 2015. 
[65]. Rolly Intan, Oviliani Yenty Yuliana, Andreas Handojo, Mining Fuzzy 
Multidimensional Association Rules Using Fuzzy Decision Tree 
Induction Approach, International Journal of Computer and Network 
Security, 2009. 
[66]. Ross T. J., Fuzzy Logic with Engineering Applications, John Wiley & 
Sons Ltd, UK, 2004. 
[67]. Salvatore Ruggieri, Efficient C4.5, University Di Pisa, 2000. 
[68]. Shou-Hsiung Cheng, An Intelligent Stock-Selecting System Based on 
Decision Tree Combining Rough Sets Theory, Springer-Verlag Berlin 
Heidelberg, pp. 501-508, 2013 
[69]. Suzan Kantarci-Savas, Efendi Nasibov, Fuzzy ID3 algorithm on 
Linguistic Dataset by using WABL defuzzification method, The 
conference FUZZ-IEEE, Italy, 2017. 
[70]. Vitaly Levashenko, Elena Zaitseva, Fuzzy Decision Trees in Medical 
Decision Making Support System, Proceedings of the Federated 
Conference on Computer Science and Information Systems pp. 213–219, 
IEEE, 2012. 
[71]. V. Barnett, T. Lewis, Outliers in Statistical Data, Wiley, 1994. 
[72]. Ying H., General Tagaki-Sugeno fuzzy systems with simplifier linear 
rule consequent are universal controllers, models and filters, Journal of 
Information Sciences, no. 108, pp. 91-107, 1998. 
[73]. Wang T., Lee H., Constructing a Fuzzy Decision Tree by Integrating 
Fuzzy Sets and Entropy, ACOS'06 Proceedings of the 5th WSEAS 
international conference on Applied computer science, World Scientific 
and Engineering Academy and Society, USA, pp. 306-311, 2006. 
[74]. Wei-Yin Loh , Classification and regression trees, John Wiley & Sons, 
Inc. Volume 1, 2011. 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
108 
[75]. Wei-Yuan Cheng, Chia-Feng Juang, A Fuzzy Model With Online 
Incremental SVM and Margin-Selective Gradient Descent Learning for 
Classification Problems, IEEE Transactions on Fuzzy systems, vol. 22, 
no. 2, pp 324-337, 2014. 
[76]. Yahmada K., Phuong N. H., Cuong B. C., Fuzzy inference methods 
emploing T-norm with threshold and their implementation. J. Advanced 
Computational Intelligence and Intel. Informatics 7, pp. 362 - 369, 2003. 
[77]. Yakun Hu, Dapeng Wu, Antonio Nucci, Fuzzy-Clustering-Based 
Decision Tree Approach for Large Population Speaker Identification, 
IEEE, pp. 1-13, 2010. 
[78]. Yi Yang, Wenguang Chen, Taiga: Performance Optimization of the C4.5 
Decision Tree Construction Algorithm, IEEE - Tsinghua Science and 
Technology, Volume 21, Number 4, pp. 415-425, 2016. 
[79]. Zadeh L. A., Fuzzy sets, Information and Control 8, pp.338-358, 1965. 
[80]. Zadeh L. A., A theory of approximate reasoning, In J. E. Hayes, D. 
Michie, and L. I. Mikulich editors, Machine intelligence, Elsevier, 
Amsterda, pp.149-194, 1979. 
[81]. Zadeh L. A., Fuzzy sets and fuzzy information granulation theory, 
Beijing Normal University Press, China, 2000. 
[82]. Zahra Mirzamomen, Mohammadreza Kangavari, Fuzzy Min-Max Neural 
Network Based Decision Trees, University of Science and Technology, 
Tehran, Iran, 2015. 
[83]. Zeinalkhani M., Eftekhari M., Comparing Different Stopping Criteria 
For Fuzzy Decision Tree Induction Through IDFID3, Iranian Journal Of 
Fuzzy Systems Vol. 11, No. 1, pp. 27-48, 2014. 
[84]. Zengchang Q., Jonathan Lawry, Linguistic Decision Tree Induction, 
Department of Engineering Mathematics, University of Bristol, United 
Kingdom, 2007. 
[85]. Zengchang Qin, Yongchuan Tang, Linguistic Decision Trees for 
Classification, Uncertainty Modeling for Data Mining, Springer, pp 77-
119, 2014. 
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 
109 
[86]. Zhang, J., Honavar, Learning Decision Tree Classifiers from Attribute-
Value Taxonomies and Partially Specified Data, Proceedings of the 
International Conference on Machine Learning. Washington DC, 2003. 
[87]. Zhihao Wang, Junfang Wang, Yonghua Huo, Yanjun Tuo, Yang Yang, 
A Searching Method of Candidate Segmentation Point in SPRINT 
Classification, Journal of Electrical and Computer Engineering, Hindawi 
Publishing Corporation, 2016. 
[88]. Ziarko W., Dependency Analysis and Attribute Reduction in the 
Probabilistic Approach to Rough Sets, Feature Selection for Data and 
Pattern Recognition, Springer, pp. 93-111, 2015. 

File đính kèm:

  • pdfluan_an_phan_lop_du_lieu_bang_cay_quyet_dinh_mo_dua_tren_dai.pdf
  • pdf1. ThongtinMoiCuaLuanAn-TiengViet.pdf
  • pdf2. ThongTinMoiCuaLuanAn-TiengAnh.pdf
  • pdf3. TomTat LuanAn TiengViet.pdf
  • pdf4. TomTat LuanAn TiengAnh.pdf
  • pdf6. TrichYeuLuanAn-TiengViet.pdf
  • pdf7. TrichYeuLuanAn-TiengAnh.pdf