Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Trong cuộc sống con người, ngôn ngữ được hình thành một cách tự nhiên
để đáp ứng nhu cầu trao đổi thông tin của xã hội. Hơn thế, ngôn ngữ là công cụ
để con người mô tả các sự vật, hiện tượng trong thế giới thực và dựa trên đó để
tư duy, lập luận đưa ra những nhận định, phán quyết nhằm phục vụ cho cuộc
sống xã hội của chúng ta. Trong thực tế, các khái niệm mờ luôn tồn tại, ví dụ
như trẻ, rất trẻ, hơi già, quá già,. nên với việc quan niệm các đối tượng được
sử dụng phải luôn rõ ràng ở trong logic cổ điển sẽ không đủ miêu tả các vấn đề
của thế giới thực.
Năm 1965, L. A. Zadeh đã đề xuất hình thức hóa toán học của khái niệm
mờ [79], từ đó lý thuyết tập mờ được hình thành và ngày càng thu hút nhiều nhà
nghiên cứu. Bằng các phương pháp tiếp cận khác nhau, nhiều nhà nghiên cứu
như Dubois, Prade [21], Mariana [50], Ishibuchi [36], Herrera [8], Yakun Hu
[77], đã đưa ra những kết quả cả về lý thuyết và ứng dụng cho nhiều lĩnh vực
như: điều khiển mờ, cơ sở dữ liệu mờ, khai phá dữ liệu mờ. Ý tưởng nổi bật của
Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa của thông tin mờ, không
chắc chắn như trẻ-già, nhanh-chậm, cao-thấp, và đã tìm ra cách biểu diễn
chúng bằng một khái niệm toán học, được gọi là tập mờ.
Tóm tắt nội dung tài liệu: Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
ĐẠI HỌC HUẾ TRƢỜNG ĐẠI HỌC KHOA HỌC LÊ VĂN TƢỜNG LÂN PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH MỜ DỰA TRÊN ĐẠI SỐ GIA TỬ CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 62.48.01.01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: 1. PGS.TS. Nguyễn Mậu Hân 2. TS. Nguyễn Công Hào HUẾ - NĂM 2018 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử ii LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng dẫn khoa học của PGS.TS. Nguyễn Mậu Hân và TS. Nguyễn Công Hào. Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố bởi bất kỳ tác giả nào hay ở bất kỳ công trình nào khác. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử iii LỜI CẢM ƠN Trong quá trình thực hiện đề tài “Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử”, tôi đã nhận được rất nhiều sự giúp đỡ, tạo điều kiện của tập thể Ban giám hiệu, Phòng Đào tạo Sau đại học, Khoa Công nghệ thông tin và các phòng chức năng của Trường Đại học Khoa học, Đại học Huế. Tôi xin bày tỏ lòng cảm ơn chân thành về sự giúp đỡ quý báu đó. Tôi xin được bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Mậu Hân và TS. Nguyễn Công Hào là những thầy trực tiếp hướng dẫn và chỉ bảo cho tôi hoàn thành luận án. Tôi xin chân thành cảm ơn gia đình, bạn bè và đồng nghiệp đã động viên, khích lệ, tạo điều kiện và giúp đỡ tôi trong suốt quá trình thực hiện và hoàn thành luận án này. TÁC GIẢ LUẬN ÁN Nghiên cứu sinh Lê Văn Tƣờng Lân Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử iv MỤC LỤC Lời cam đoan ............................................................................................................... ii Lời cảm ơn ............................................................................................................... iii Danh mục các từ viết tắt ............................................................................................ vii Danh mục các ký hiệu ............................................................................................. viii Danh mục các bảng biểu ............................................................................................ ix Danh mục các hình vẽ ................................................................................................. x Mở đầu ....................................................................................................................... 1 Chƣơng 1. Cơ sở lý thuyết về đại số gia tử và tổng quan phân lớp dữ liệu bằng cây quyết định ................................................................................................. 10 1.1. Lý thuyết tập mờ ...................................................................................... 10 1.1.1.Tập mờ và thông tin không chắc chắn ............................................ 10 1.1.2. Biến ngôn ngữ ................................................................................ 12 1.2. Đại số gia tử ............................................................................................... 14 1.2.1. Khái niệm đại số gia tử .................................................................. 14 1.2.2. Các hàm đo của đại số gia tử ......................................................... 16 1.2.3. Một số tính chất của các hàm đo ................................................... 17 1.2.4. Khoảng mờ và các mối tương quan của khoảng mờ ..................... 20 1.3. Phân lớp dữ liệu bằng cây quyết định ...................................................... 21 1.3.1. Bài toán phân lớp trong khai phá dữ liệu ...................................... 21 1.3.2. Cây quyết định ............................................................................... 23 1.3.3. Lợi ích thông tin và tỷ lệ lợi ích thông tin ..................................... 24 1.3.4. Vấn đề quá khớp trong mô hình cây quyết định .......................... 26 1.4. Phân lớp dữ liệu bằng cây quyết định mờ ................................................. 28 1.4.1. Các hạn chế của phân lớp dữ liệu bằng cây quyết định rõ ............ 28 1.4.2. Bài toán phân lớp dữ liệu bằng cây quyết định mờ ....................... 29 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử v 1.4.3. Một số vấn đề của bài toán phân lớp dữ liệu bằng cây quyết định mờ .......................................................................................................... 31 1.5. Kết luận chương 1 ..................................................................................... 35 Chƣơng 2. Phân lớp dữ liệu bằng cây quyết định mờ theo phƣơng pháp đối sánh điểm mờ dựa trên đại số gia tử ............................................................ 36 2.1. Giới thiệu ................................................................................................... 36 2.2. Phương pháp chọn tập mẫu huấn luyện đặc trưng cho bài toán học phân lớp dữ liệu bằng cây quyết định ..................................................................... 38 2.2.1. Tính chất thuộc tính của tập mẫu huấn luyện đối với quá trình huấn luyện ................................................................................................ 40 2.2.2. Ảnh hưởng từ phụ thuộc hàm giữa các thuộc tính trong tập huấn luyện ........................................................................................................ 41 2.3. Phân lớp dữ liệu bằng cây quyết định dựa trên ngưỡng miền trị thuộc tính .................................................................................................................. 44 2.3.1. Cơ sở của việc xác định ngưỡng cho quá trình học phân lớp ........ 44 2.3.2. Thuật toán MixC4.5 dựa trên ngưỡng miền trị thuộc tính .......... 44 2.3.3. Cài đặt thử nghiệm và đánh giá thuật toán MixC4.5 .................... 47 2.4. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đối sánh điểm mờ .... 53 2.4.1. Xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định mờ 53 2.4.2. Vấn đề với tập mẫu huấn luyện không thuần nhất ........................ 55 2.4.3. Một cách định lượng giá trị ngôn ngữ ngoại lai trong tập mẫu huấn luyện ........................................................................................................ 58 2.4.4. Thuật toán học bằng cây quyết định mờ FMixC4.5 dựa trên đối sánh điểm mờ ........................................................................................... 63 2.4.5. Cài đặt thử nghiệm và đánh giá thuật toán FMixC4.5 ................. 64 2.5. Kết luận Chương 2 .................................................................................... 67 Chƣơng 3. Phƣơng pháp huấn luyện cây quyết định mờ cho bài toán phân lớp dữ liệu dựa trên đối sánh khoảng mờ ........................................................... 69 3.1. Giới thiệu ................................................................................................... 69 3.2. Phương pháp đối sánh giá trị khoảng trên thuộc tính mờ ....................... 70 3.2.1. Xây dựng cách thức đối sánh giá trị khoảng dựa trên đại số gia tử70 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử vi 3.2.2. Phương pháp định lượng khoảng mờ khi chưa biết miền trị MIN, MAX của các thuộc tính mờ .................................................................... 72 3.3. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên cách thức đối sánh khoảng mờ ........................................................................................................ 77 3.3.1. Thuật toán phân lớp dữ liệu bằng cây quyết định mờ HAC4.5 dựa trên đối sánh khoảng mờ .......................................................................... 77 3.3.2. Cài đặt thử nghiệm và đánh giá thuật toán HAC4.5 .................... 80 3.4. Xây dựng khái niệm khoảng mờ lớn nhất và phương pháp học nhằm tối ưu mô hình cây quyết định mờ ........................................................................ 85 3.4.1. Phát biểu bài toán học phân lớp dữ liệu bằng cây quyết định mờ theo hướng đa mục tiêu ........................................................................... 85 3.4.2. Khái niệm khoảng mờ lớn nhất và cách thức tính khoảng mờ lớn nhất cho các thuộc tính mờ ...................................................................... 86 3.4.3. Thuật toán phân lớp dữ liệu bằng cây quyết định mờ HAC4.5* theo cách tiếp cận khoảng mờ lớn nhất ................................................. 88 3.4.4. Cài đặt thử nghiệm và đánh giá thuật toán HAC4.5* .................. 92 3.5. Kết luận chương 3 ..................................................................................... 96 Kết luận .................................................................................................................... 98 Danh mục các công trình khoa học của tác giả liên quan đến luận án ............ 100 Tài liệu tham khảo ................................................................................................ 101 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử vii DANH MỤC CÁC TỪ VIẾT TẮT Viết tắt Viết đầy đủ ĐSGT GĐ1 GĐ2 CART Dom Gain GainRatio HA LDT Sim SplitInfo Đại số gia tử Giai đoạn 1 Giai đoạn 2 Classification and Regression Trees Domain Gain Information Gain Information Ratio Hedge Algebra Linguistic Decision Tree Similar Split Information Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử viii DANH MỤC CÁC KÝ HIỆU Ký hiệu Diễn giải ý nghĩa Ai D 𝐷𝐴𝑖 f fh(S) fn(S) Ik 𝐿𝐷𝐴𝑖 O(log n) µA(v) S sim(x, y) v X Y Thuộc tính Ai Tập mẫu huấn luyện Tập các giá trị kinh điển của Ai Ánh xạ Hàm đánh giá tính hiệu quả của cây Hàm đánh giá tính đơn giản của cây Tập tất cả các khoảng mờ mức k của các giá trị ngôn ngữ Tập các giá trị ngôn ngữ của Ai Độ phức tạp logarit của thuật toán Hàm định lượng của giá trị ngôn ngữ A (đo độ thuộc của v) Cây quyết định Mức độ gần nhau của x và y Giá trị định lượng theo điểm của giá trị ngôn ngữ Đại số gia tử Thuộc tính phân lớp Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử ix DANH MỤC CÁC BẢNG BIỂU Bảng 2.1. Bảng dữ liệu DIEUTRA .......................................................................... 38 Bảng 2.2. Thông số thuộc tính tập huấn luyện chọn từ cơ sở dữ liệu Northwind ... 48 Bảng 2.3. Bảng so sánh kết quả huấn luyện của thuật toán MixC4.5 với 1000 mẫu trên cơ sở dữ liệu Northwind ................................................................... 49 Bảng 2.4. Bảng so sánh kết quả huấn luyện của thuật toán MixC4.5 với 1500 mẫu trên cơ sở dữ liệu Northwind ................................................................... 49 Bảng 2.5. Thông số thuộc tính tập huấn luyện từ cơ sở dữ liệu Mushroom ............ 50 Bảng 2.6. Bảng so sánh kết quả của thuật toán MixC4.5 với 5000 mẫu huấn luyện trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom ............................. 51 Bảng 2.7. Bảng dữ liệu DIEUTRA có thuộc tính Lương chứa dữ liệu rõ mà mờ ... 55 Bảng 2.8. Bảng so sánh kết quả kiểm tra độ chính xác của thuật toán FMixC4.5 trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom ........................... 65 Bảng 2.9. Bảng so sánh thời gian kiểm tra của thuật toán FMixC4.5 trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom ............................................ 65 Bảng 3.1. Tập mẫu huấn luyện chứa thuộc tính Lương không thuần nhất, chưa xác định Min-Max ......................................................................................... 75 Bảng 3.2. Bảng so sánh kết quả với 5000 mẫu huấn luyện của thuật toán C4.5, FMixC4.5 và HAC4.5 trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom ............................................................................................... 80 Bảng 3.3. Thông số thuộc tính tập huấn luyện từ cơ sở dữ liệu Aldult ................... 82 Bảng 3.4. Bảng so sánh kết quả với 20000 mẫu huấn luyện của thuật toán C4.5, FMixC4.5 và HAC4.5 trên cơ sở dữ liệu có chứa thuộc tính mờ Adult 82 Bảng 3.5. Đối sách thời gian kiểm tra từ 1000 đến 5000 mẫu trên dữ liệu Adult ... 83 Bảng 3.6. Đối sánh kết quả huấn luyện trên dữ liệu Adult ...................................... 92 Bảng 3.7. Tỷ lệ kiểm tra của HAC4.5* trên dữ liệu Adult ...................................... 93 Bảng 3.8. Kết quả dự đoán trung bình của các thuật toán FMixC4.5, HAC4.5 và HAC4.5* đối với các cách tiếp cận khác .............................................. 94 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử x DANH MỤC CÁC HÌNH VẼ Hình 1.1. Tính mờ của phần tử sinh lớn .................................................................. 19 Hình 1.2. Mối tương quan I(y) I(x) ...................................................................... 21 Hình 1.3. Mối tương quan của y được đối sánh theo x, khi I(y) I(x) ................... 21 Hình 1.4. Mối tương quan của y được đối sánh theo x1, khi I(y) I(x) .................. 21 Hình 1.5. Minh họa hình học về chỉ số Gini ............................................................ 26 Hình 1.6. Vấn đề “quá khớp” trong cây quyết định ................................................ 27 Hình 1.7. Điểm phân chia đa phân theo giá trị ngôn ngữ tại thuộc tính mờ ........... 32 Hình 1.8. Điểm phân chia nhị phân theo giá trị ngôn ngữ hoặc giá trị số tại thuộc tính mờ, dựa trên phương pháp định lượng ngữ nghĩa theo điểm trong ĐSGT ...................................................................................................... 34 Hình 2.1. Cây quyết định được tạo từ tập mẫu huấn luyện M1 .............................. 39 Hình 2.2. Cây quyết định không có hiệu quả được tạo từ tập huấn luyện M2 ........ 39 Hình 2.3. So sánh thời gian huấn luyện của MixC4.5 với các thuật toán khác ....... 50 Hình 2.4. So sánh số nút trên cây kết quả của MixC4.5 với các thuật toán khác.... 52 Hình 2.5. So sánh tỷ lệ đúng trên kết quả của MixC4.5 với các thuật toán khác .... 52 Hình 2.6. Mô hình cho quá trình học phân lớp mờ ................................................. 53 Hình 2.7. Mô hình đề nghị cho việc học phân lớp bằng cây quyết định mờ ........... 54 Hình 2.8. Cây quyết định kết quả “sai lệch” khi tập mẫu huấn luyện bị loại bỏ giá trị ngôn ngữ .............................................................................................. 56 Hình 2.9. Tính mờ của thuộc tính Lương khi chưa xét các giá trị ngoại lai ............ 62 Hình 2.10. So sánh thời gian huấn luyện với 5000 mẫu Mushroom của FMixC4.5 với các thuật toán khác ............................................................................ 66 Hình 2.11. So sánh thời gian kiểm tra với 2000 mẫu Mushroom của FMixC4.5 với các thuật toán khác ... 6. TIẾNG ANH [6]. Abonyi J., Roubos J.A., Setnes M., Learning fuzzy classification rules from labeled data, Information Sciences, vol. 150, 2003. [7]. Adler D., Genetic Algorithms and Simulated Annealing: A Marriage Proposal, Proc of the International Conf. On Neural Networks, vol. 2, pp. 1104-1109, 1994. [8]. Alberto Fernández, María Calderón, Francisco Herrera, Enhancing Fuzzy Rule Based Systems in Multi-Classication Using Pairwise Coupling with Preference Relations, University of Navarra, Spain, 2009. [9]. A. K. Bikas, E. M. Voumvoulakis, N. D. Hatziargyriou, Neuro-Fuzzy Decision Trees for Dynamic Security Control of Power Systems, Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 102 Department of Electrical and Computer Engineering, NTUA,Athens, Greece, 2008. [10]. Anuradha, Gaurav Gupta, Fuzzy Decision Tree Construction in Crisp Scenario through fuzzified Trapezoidal Membership Function, Internetworking Indonesia Journal, Vol.7, No.2, pp. 21-28, 2015. [11]. B. Chandra, Fuzzy SLIQ Decision Tree Algorithm, IEEE, 2008. [12]. Bhatt R. B., Neuro-fuzzy decision trees for content popularity model and multi-genre movie recommendation system over social network, IEEE, 2009. [13]. Biswajeet Pradhan, A comparative study on the predictive ability of the decision tree, support vector machine and neuro-fuzzy models in landslide susceptibility mapping using GIS, Computers & Geosciences, Volume 51, pp. 350-365, 2013. [14]. Breiman L., Friedman J. H., Olshen R. A., Classification and Regression Trees, CRC Press, 1984. [15]. Buckley J. J., Siler W., Fuzzy Expert Systems and Fuzzy Reasoning, John Wiley & Sons, Inc., USA, 2005. [16]. Chida A., Enhanced Encoding with Improved Fuzzy Decision Tree Testing Using CASP Templates, Computational Intelligence Magazine, IEEE, 2012. [17]. Chang, Robin L. P. Pavlidis, Theodosios, Fuzzy Decision Tree Algorithms, Man and Cybernetics, IEEE , 2007. [18]. Charu C. Aggarwal , Outlier Analysis, IBM T. J. Watson Research Center Yorktown Heights, New York, 2016. [19]. Daveedu Raju Adidela, Jaya Suma. G, Lavanya D. G., Construction of Fuzzy Decision Tree using Expectation Maximization Algorithm, International Journal of Computer Science and Management Research , Vol 1 Issue 3 October 2012. [20]. D. Hawkins, Identification of Outliers, Chapman and Hall, 1980. [21]. Dubois D., Prade H., Fuzzy Sets in Approximate Reasoning and Information Systems, Kluwer Academic Publishers, USA, 1999. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 103 [22]. Fernandez A., Calderon M., Barrenechea E., Enhancing Fuzzy Rule Based Systems in Multi-Classication Using Pairwise Coupling with Preference Relations, EUROFUSE Workshop Preference Modelling and Decision Analysis, Public University of Navarra, Pamplona, Spain, 2009. [23]. Fuller R., Neural Fuzzy Systems, Physica-Verlag, Germany, 1995. [24]. Guang-Bin Huang, Hongming Zhou, Xiaojian Ding, Rui Zhang, Extreme Learning Machine for Regression and Multiclass Classification, IEEE Transactions On Systems, Man, and Cybernetics, Vol. 42, No. 2, pp. 513-529, 2012. [25]. Hamid Kiavarz Moghaddam, Vehicle Accident Severity Rule Mining Using Fuzzy Granular Decision Tree, University of Calgary, 2015. [26]. Hesham A. Hefny, Ahmed S. Ghiduk, Ashraf Abdel Wahab, Effective Method for Extracting Rules from Fuzzy Decision Trees based on Ambiguity and Classifiability, Universal Journal of Computer Science and Engineering Technology, Cairo University, Egypt., pp. 55-63, 2010. [27]. Ho N. C., Long N. V., Fuzziness measure on complete hedges algebras and quantifying semantics of terms in linear hedge algebras, Fuzzy Sets and Systems, vol.158, pp. 452-471, 2007. [28]. Ho N. C., Nam H. V., An algebraic approach to linguistic hedges in Zadeh's fuzzy logic, Fuzzy Sets and Systems, vol. 129, pp. 229-254, 2002. [29]. Ho N. C., Wechler W., Hedge algebras: an algebraic approach to structures of sets of linguistic domains of linguistic truth variables, Fuzzy Sets and Systems, 35(3), pp. 281-293, 1990. [30]. Ho N. C., Wechler W., Extended algebra and their application to fuzzy logic, Fuzzy Sets and Systems, vol. 52, pp. 259–281, 1992. [31]. Ho N. C., Lan V. N., Viet L. X., Optimal hedge-algebras-based controller: Design and application, Fuzzy Sets and Systems, vol. 159, pp. 968-989, 2008. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 104 [32]. Hongze Qiu, Haitang Zhang, Fuzzy SLIQ Decision Tree Based on Classification Sensitivity, Modern Education and Computer Science (MECS), pp. 18-25, 2011. [33]. Hou Yuan-long, Chen Ji-lin, Xing Zong-yi, Jia Li-min, Tong Zhong-zhi, A Multi-objective Genetic-based Method for Design Fuzzy Classification Systems, International Journal of Computer Science and Network Security, vol. 6, no. 8, pp. 110-117, 2006 [34]. Huang J., Ertekin S., Song Y., Zha H., Giles C. L., Efficient Multiclass Boosting Classification with Active Learning, Seventh SIAM International Conference, Minnesota University, America, 2007 [35]. Ishibuchi H., Nakashima T., Effect of Rule Weights in Fuzzy Rule-Based Classification Systems, IEEE Trans. on Fuzzy Systems, vol. 9, no. 4, 2001. [36]. Ishibuchi H., Nojima Y., Kuwajima I., Parallel distributed genetic fuzzy rule selection, SpringerLink, vol. 13, no. 5, 2009. [37]. James F. Smith, Vu N. H. T., Genetic program based data mining of fuzzy decision trees and methods of improving convergence and reducing bloat, Data Mining, Intrusion Detection, Information Assurance, 2007. [38]. Jaime Carbonell, An Empirical Comparison of Pruning Methods for Decision Tree Induction, Machine Learning, Kluwer Academic Publishers, Boston, Manufactured in The Netherlands, Vol 4, pp. 227- 243, 1989. [39]. Jan Bohacik, C. Kambhampati, Darryl N. Davis, JFG Cleland, Analysis of Fuzzy Decision Trees on Expert Fuzzified Heart Failure Data, IEEE International Conference on Systems, Man and Cybernetics, pp. 350- 355, 2013. [40]. José Antonio Sanz, Alberto Fernández, Humberto Bustince, A Linguistic Fuzzy Rule-Based Classification System Based On a New Interval- Valued Fuzzy Reasoning Method With Tuning and Rule Selection, IEEE Transactions on Fuzzy systems, vol. 21, no. 3, pp. 399-411, 2013. [41]. Jothikumar R., Siva Balan R. V., C4.5 classification algorithm with back-track pruning for accurate prediction of heart disease, Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 105 Computational Life Science and Smarter Technological Advancement, Biomedical Research, pp.107-111, 2016. [42]. Kavita Sachdeva, Madasu Hanmandlu, Amioy Kumar, Real Life Applications of Fuzzy Decision Tree, International Journal of Computer Applications, 2012. [43]. Kishor Kumar Reddy, Vijaya Babu, A Survey on Issues of Decision Tree and Non-Decision Tree Algorithms, International Journal of Artificial Intelligence and Applications for Smart Devices, Vol. 4, No. 1, pp. 9-32, 2016. [44]. Larose D. T., Data Mining: Methods and Models, John Wiley & Sons, Inc. Pubs., Canada, 2006 [45]. Lee C. S. George, Lin C. T, Neural Fuzzy Systems: A Neuro-Fuzzy Synergism to Intelligent Systems, Prentice-Hall International, Inc, 1995. [46]. Moustakidis S., Mallinis G., Koutsias N., Theocharis J. B., Petridis V., SVM-Based Fuzzy Decision Trees for Classification of High Spatial Resolution Remote Sensing Images, Geoscience and Remote Sensing, IEEE, 2012. [47]. Manish Mehta, Jorma Rissanen, Rakesh Agrawal, SLIQ: A Fast Scalable Classifier for Data Mining, IBM Almaden Reseach Center, 1996. [48]. Manish Mehta, Jorma Rissanen, Rakesh Agrawal, SPRINT: A Fast Scalable Classifier for Data Mining, IBM Almaden Reseach Center, 1998. [49]. Marcos E. Cintra, Maria C. Monard, Heloisa A. Camargo, A Fuzzy Decision Tree Algorithm Based on C4.5, Mathware & Soft Computing Magazine. Vol. 20, Num. 1, pp. 56-62, 2013. [50]. Mariana V. Ribeiro, Luiz Manoel S. Cunha, Heloisa A. Camargo, Luiz Henrique A. Rodrigues, Applying a Fuzzy Decision Tree Approach to Soil Classification, Springer International Publishing Switzerland, pp. 87–96, 2014. [51]. Mingsheng Ying, Bernadette Bouchon Meunier, Approximate Reasoning with Linguistic Modifiers, International journal of intelligent systems, vol. 13 pp. 403-418, 1998. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 106 [52]. Narasimha Prasad, Mannava Munirathnam Naidu, CC-SLIQ: Performance Enhancement with 2k Split Points in SLIQ Decision Tree Algorithm, International Journal of Computer Science, 2014. [53]. Olson D. L., Delen D., Advances Data Mining Techniques, Springer Pubs., Berlin, Germany, 2008. [54]. Patil N. at al., Comparison of C5. 0 & CART classification algorithms using pruning technique. International Journal of Engineering Research and Technology, ESRSA Publications, 2012. [55]. Pavel K., Jan P., Václav S., Ajith Abraham, Fuzzy Classification by Evolutionary Algorithms, pp. 313-318, IEEE, 2011. [56]. Paweł Bujnowski, Eulalia Szmidt, Janusz Kacprzyk, An Approach to Intuitionistic Fuzzy Decision Trees, 9th Conference of the European Society for Fuzzy Logic and Technology, Published by Atlantis Press, pp. 1253-1260, 2015. [57]. Peer Fatima, Parveen, Dr. Mohamed Sathik, Fuzzy Decision Tree based Effective IMine Indexing, International Journal of Computer Technology and Electronics Engineering (IJCTEE),Volume 1, Issue 2, 2011. [58]. Perter Rousseeuw, Annick Leroy, Robust Regression and Outlier Detection, Wiley, 2003. [59]. Prade H., Djouadi Y., Alouane B., Fuzzy Clustering for Finding Fuzzy Partitions of Many-Valued Attribute Domains in a Concept Analysis Perspective, International Fuzzy Systems Association World Congress and Conference of the European Society for Fuzzy Logic and Technology (IFSA-EUSFLAT), pp. 420-425, 2009. [60]. Quinlan J. R., Induction of decision trees, Machine learning, 1986. [61]. Quinlan J. R., Simplifying decision trees, International Journal of Man- Machine Studies, no. 27, pp. 221-234, 1987. [62]. Quinlan, J. R. C4.5: Programs for machine learning, Morgan kaufmann, 1993. [63]. Ricardo H. Tajiri, Eduardo Z. Marques, Bruno B. Z., Leonardo S. M., A New Approach for Fuzzy Classification in Relational Databases, Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 107 Database and Expert Systems Applications, Springer, pp. 511–518, 2011. [64]. R.C. Barros et al., Automatic Design of Decision-Tree Induction Algorithms, Springer Briefs in Computer Science, pp. 7-45, 2015. [65]. Rolly Intan, Oviliani Yenty Yuliana, Andreas Handojo, Mining Fuzzy Multidimensional Association Rules Using Fuzzy Decision Tree Induction Approach, International Journal of Computer and Network Security, 2009. [66]. Ross T. J., Fuzzy Logic with Engineering Applications, John Wiley & Sons Ltd, UK, 2004. [67]. Salvatore Ruggieri, Efficient C4.5, University Di Pisa, 2000. [68]. Shou-Hsiung Cheng, An Intelligent Stock-Selecting System Based on Decision Tree Combining Rough Sets Theory, Springer-Verlag Berlin Heidelberg, pp. 501-508, 2013 [69]. Suzan Kantarci-Savas, Efendi Nasibov, Fuzzy ID3 algorithm on Linguistic Dataset by using WABL defuzzification method, The conference FUZZ-IEEE, Italy, 2017. [70]. Vitaly Levashenko, Elena Zaitseva, Fuzzy Decision Trees in Medical Decision Making Support System, Proceedings of the Federated Conference on Computer Science and Information Systems pp. 213–219, IEEE, 2012. [71]. V. Barnett, T. Lewis, Outliers in Statistical Data, Wiley, 1994. [72]. Ying H., General Tagaki-Sugeno fuzzy systems with simplifier linear rule consequent are universal controllers, models and filters, Journal of Information Sciences, no. 108, pp. 91-107, 1998. [73]. Wang T., Lee H., Constructing a Fuzzy Decision Tree by Integrating Fuzzy Sets and Entropy, ACOS'06 Proceedings of the 5th WSEAS international conference on Applied computer science, World Scientific and Engineering Academy and Society, USA, pp. 306-311, 2006. [74]. Wei-Yin Loh , Classification and regression trees, John Wiley & Sons, Inc. Volume 1, 2011. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 108 [75]. Wei-Yuan Cheng, Chia-Feng Juang, A Fuzzy Model With Online Incremental SVM and Margin-Selective Gradient Descent Learning for Classification Problems, IEEE Transactions on Fuzzy systems, vol. 22, no. 2, pp 324-337, 2014. [76]. Yahmada K., Phuong N. H., Cuong B. C., Fuzzy inference methods emploing T-norm with threshold and their implementation. J. Advanced Computational Intelligence and Intel. Informatics 7, pp. 362 - 369, 2003. [77]. Yakun Hu, Dapeng Wu, Antonio Nucci, Fuzzy-Clustering-Based Decision Tree Approach for Large Population Speaker Identification, IEEE, pp. 1-13, 2010. [78]. Yi Yang, Wenguang Chen, Taiga: Performance Optimization of the C4.5 Decision Tree Construction Algorithm, IEEE - Tsinghua Science and Technology, Volume 21, Number 4, pp. 415-425, 2016. [79]. Zadeh L. A., Fuzzy sets, Information and Control 8, pp.338-358, 1965. [80]. Zadeh L. A., A theory of approximate reasoning, In J. E. Hayes, D. Michie, and L. I. Mikulich editors, Machine intelligence, Elsevier, Amsterda, pp.149-194, 1979. [81]. Zadeh L. A., Fuzzy sets and fuzzy information granulation theory, Beijing Normal University Press, China, 2000. [82]. Zahra Mirzamomen, Mohammadreza Kangavari, Fuzzy Min-Max Neural Network Based Decision Trees, University of Science and Technology, Tehran, Iran, 2015. [83]. Zeinalkhani M., Eftekhari M., Comparing Different Stopping Criteria For Fuzzy Decision Tree Induction Through IDFID3, Iranian Journal Of Fuzzy Systems Vol. 11, No. 1, pp. 27-48, 2014. [84]. Zengchang Q., Jonathan Lawry, Linguistic Decision Tree Induction, Department of Engineering Mathematics, University of Bristol, United Kingdom, 2007. [85]. Zengchang Qin, Yongchuan Tang, Linguistic Decision Trees for Classification, Uncertainty Modeling for Data Mining, Springer, pp 77- 119, 2014. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 109 [86]. Zhang, J., Honavar, Learning Decision Tree Classifiers from Attribute- Value Taxonomies and Partially Specified Data, Proceedings of the International Conference on Machine Learning. Washington DC, 2003. [87]. Zhihao Wang, Junfang Wang, Yonghua Huo, Yanjun Tuo, Yang Yang, A Searching Method of Candidate Segmentation Point in SPRINT Classification, Journal of Electrical and Computer Engineering, Hindawi Publishing Corporation, 2016. [88]. Ziarko W., Dependency Analysis and Attribute Reduction in the Probabilistic Approach to Rough Sets, Feature Selection for Data and Pattern Recognition, Springer, pp. 93-111, 2015.
File đính kèm:
- luan_an_phan_lop_du_lieu_bang_cay_quyet_dinh_mo_dua_tren_dai.pdf
- 1. ThongtinMoiCuaLuanAn-TiengViet.pdf
- 2. ThongTinMoiCuaLuanAn-TiengAnh.pdf
- 3. TomTat LuanAn TiengViet.pdf
- 4. TomTat LuanAn TiengAnh.pdf
- 6. TrichYeuLuanAn-TiengViet.pdf
- 7. TrichYeuLuanAn-TiengAnh.pdf