Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet
Mạng Internet đã có sự phát triển vượt bậc trong những năm qua và trở thành nền
tảng không thể thiếu được trong mọi lĩnh vực của đời sống. Về mặt công nghệ, mạng
Internet dựa trên nền tảng mạng chuyển mạch gói sử dụng giao thức Internet Protocol
(IP) ở lớp mạng. Hạ tầng mạng bao gồm nhiều loại công nghệ khác nhau như mạng
Ethernet, mạng di động các thế hệ 2G/3G/4G,. Trên lớp mạng IP là vô số các dịch vụ
và ứng dụng mạng đa dạng khác nhau. Hình A biểu thị sự phát triển đa dạng của hạ
tầng và các dịch vụ/ứng dụng mạng trên cơ sở nền tảng một giao thức IP duy nhất. Lý
do cơ bản nhất của kiến trúc này là tạo thành tính mở của Internet, cho phép kết nối
mọi hạ tầng mạng, mọi liên kết chia sẻ dịch vụ/ứng dụng khi sử dụng IP. Điều này đã
tạo điều kiện thuận lợi cho Internet phát triển mạnh mẽ trong những năm qua, tạo điều
kiện cho các loại hình truyền thông người - người, người - máy, máy - người và mới
đây nhất là giữa máy và máy.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG NGUYỄN HÀ DƢƠNG NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG TRÊN MẠNG INTERNET LUẬN ÁN TIẾN SĨ KỸ THUẬT v24: 11/10 Sửa theo ý kình so sánh tổng thông lượng đạt được của 3 luồng để lý giải thời gian bù trong t/h 3 dài hơn t/h 2 là do lost packet? 10/4: Sửa theo ý kiến phản biện độc lập (PBĐL) 1. v28, 16/5/2013: Sửa theo ý kiến lần 1 của PBĐL 2: Bổ sung thêm phụ lục về mô Hà Nội – 2017 HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG NGUYỄN HÀ DƢƠNG NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật viễn thông Mã số: 62.52.02.08 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TSKH. HOÀNG ĐĂNG HẢI Hà Nội – 2017 i LỜI CAM ĐOAN Tôi xin cam đoan luận án “Nghiên cứu đề xuất phƣơng pháp phân tích và phát hiện lƣu lƣợng bất thƣờng trên mạng Internet” là công trình nghiên cứu của tôi, trừ những kiến thức tham khảo từ các tài liệu đã được chỉ rõ. Các kết quả, số liệu nêu trong luận án là trung thực, một phần đã được công bố trên các tạp chí khoa học chuyên ngành, phần còn lại chưa được công bố trong bất kỳ công trình nào khác. Tác giả Nguyễn Hà Dƣơng ii LỜI CẢM ƠN Luận án Tiến sĩ kỹ thuật này được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông. Tác giả xin chân thành cảm ơn PGS. TSKH. Hoàng Đăng Hải đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình nghiên cứu. Thầy đã có rất nhiều ý kiến quan trọng về hướng nghiên cứu để tôi hoàn thành được luận án này. Tôi xin chân thành cảm ơn các thày cô của Học viện Công nghệ Bưu chính Viễn thông, Khoa Quốc tế và Đào tạo Sau đại học, Khoa Viễn thông, Khoa Công nghệ thông tin trong quá trình học tập, nghiên cứu tại Học viện. Tôi trân trọng cảm ơn Bộ môn Kỹ thuật hệ thống, Khoa Công nghệ thông tin, Trường Đại học Xây dựng đã tạo điều kiện thuận lợi, giúp đỡ tôi trong quá trình nghiên cứu, hoàn thành luận án. Tôi xin bày tỏ sự biết ơn sâu sắc tới bố mẹ tôi, vợ tôi, tới gia đình và bạn bè đã động viên, giúp đỡ, tạo mọi điều kiện thuận lợi cho tôi hoàn thành luận án này. Hà nội, tháng năm Nghiên cứu sinh iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC THUẬT NGỮ VIẾT TẮT vii DANH MỤC CÁC KÝ HIỆU ix DANH MỤC CÁC HÌNH VẼ x DANH MỤC CÁC BẢNG xii MỞ ĐẦU 1 1. Yêu cầu kiểm soát lưu lượng mạng Internet 1 2. Lưu lượng mạng bất thường và nhu cầu phát hiện 3 a. Khái niệm về lưu lượng mạng bất thường 3 b. Nguyên nhân gây ra lưu lượng mạng bất thường 4 c. Vấn đề phân tích và phát hiện lưu lượng mạng bất thường 6 d. Phạm vi luận án 7 3. Những đóng góp chính của luận án 8 4. Cấu trúc của luận án 10 CHƢƠNG 1 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 11 1.1. Thu thập lưu lượng mạng Internet 11 1.1.1. Các đặc tính của lưu lượng mạng 11 1.1.2. Các phương pháp thu thập lưu lượng Internet 14 1.1.2.1. Thu thập mức gói tin 14 1.1.2.2. Thu thập mức luồng tin 15 1.2. Tổng quan về các phương pháp, mô hình phân tích và phát hiện lưu lượng bất thường 15 1.2.1. Nhóm dựa vào thống kê 15 1.2.2. Nhóm dựa vào khai phá dữ liệu và học máy 17 1.2.3. Nhóm dựa vào tri thức 20 1.2.4. Tóm tắt ưu nhược điểm của các nhóm phương pháp 20 1.3. Phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên PCA 22 1.3.1. Cơ sở của phương pháp PCA 22 iv 1.3.1.1. Dữ liệu và tham số trong miền con PCA 22 1.3.1.2. Vấn đề giảm chiều dữ liệu với PCA 26 1.3.1.3. Phân tích và phát hiện bất thường với PCA 28 1.3.2. Các phương pháp phân tích và phát hiện lưu lượng bất thường điển hình dựa trên PCA 30 1.3.2.1. Lựa chọn các thành phần chính 30 1.3.2.2. Tính khoảng cách thống kê 36 1.3.2.3. Vấn đề lựa chọn tập dữ liệu mẫu 39 1.4. Nhận xét, đánh giá 40 1.5. Kết luận chương 1 41 CHƢƠNG 2 PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG dPCA 43 2.1. Mở đầu 43 2.2. Mô hình hệ thống phân tích và phát hiện lưu lượng bất thường dựa trên PCA 43 2.3. Công thức tính khoảng cách thống kê trong phân tích và phát hiện lưu lượng bất thường 44 2.3.1. Khoảng cách Euclidean và bình phương khoảng cách Euclidean 45 2.3.2. Bình phương khoảng cách Euclidean có trọng số 45 2.3.3. Khoảng cách Mahalanobis 46 2.3.4. Khoảng cách Manhattan 47 2.3.5. Khoảng cách Minkowski 47 2.4. Công thức Minkowski bổ sung trọng số trong miền con PCA 48 2.4.1. So sánh cách tính khoảng cách trong các phương pháp PCA điển hình trước đây với công thức đề xuất 49 2.4.1.1. Phương pháp phân tích phần dư 49 2.4.1.2. Phương pháp sử dụng thống kê T2 50 2.5. Phương pháp dPCA CT7, CT8] 50 2.5.1. Lựa chọn các tham số để tính khoảng cách trong dPCA 51 2.5.2. Sự phân cấp của dPCA 53 2.5.3. Thiết lập mức ngưỡng 55 2.5.4. Quá trình tạo profile và phát hiện bất thường trong dPCA 56 2.6. Thử nghiệm, đánh giá kết quả 60 v 2.6.1. Các sự kiện và thông số đánh giá độ chính xác 60 2.6.2. Đồ thị ROC 61 2.6.3. Lựa chọn tập dữ liệu thử nghiệm 62 2.6.4. Kịch bản thử nghiệm cho dPCA 64 2.6.5. Thử nghiệm, đánh giá phương pháp dPCA 65 2.6.5.1. Kết quả thử nghiệm dPCA1T với các tham số khác nhau 65 2.6.5.2. Thử nghiệm dPCA hai mức ngưỡng (dPCA2T) 79 2.7. Kết luận chương 2. 82 CHƢƠNG 3 PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP DỮ LIỆU MẪU 84 3.1. Vấn đề khử ngoại lai trong tập dữ liệu mẫu 84 3.2. Phương pháp phát hiện và khử ngoại lai bằng udPCA [CT8] 85 3.3. Phương pháp phát hiện và khử ngoại lai bằng K-Means [CT4, CT5, CT8] 87 3.3.1. Khái niệm về phân cụm dữ liệu 87 3.3.2. Thuật toán phân cụm K-Means cơ bản 88 3.3.3. Phát hiện ngoại lai dựa trên K-means 89 3.3.4. Các bước phát hiện và khử ngoại lai trong tập dữ liệu mẫu với K-means 91 3.4. Thử nghiệm phát hiện và khử ngoại lai 92 3.4.1. Kịch bản thử nghiệm 92 3.4.2. Khả năng phát hiện ngoại lai của udPCA và K-means 92 3.4.3. Thử nghiệm dPCA khi đã khử ngoại lai trong tập dữ liệu mẫu 94 3.4.3.1. Thử nghiệm với dPCA1T 94 3.4.3.2. Thử nghiệm với dPCA2T 99 3.5. Đánh giá khả năng phát hiện ngoại lai của udPCA 100 3.6. Kết luận chương 3 102 CHƢƠNG 4 HỆ THỐNG GIÁM SÁT VỚI PHƢƠNG PHÁP PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG 104 4.1. Mở đầu 104 4.2. Kiến trúc hệ thống giám sát 104 4.2.1. Phạm vi thu thập dữ liệu 104 4.2.2. Kiến trúc tổng thể hệ thống giám sát 105 4.2.3. Máy trinh sát 106 vi 4.2.4. Trung tâm phân tích, phát hiện và cảnh báo 109 4.3. Nhận dạng, phân loại bất thường và khả năng kết hợp phát hiện lưu lượng bất thường với phát hiện tấn công mạng dựa trên mẫu dấu hiệu. 111 4.4. Mô hình kết hợp phát hiện bất thường với phát hiện xâm nhập dựa trên tập mẫu dấu hiệu 112 4.5. Mô phỏng thử nghiệm phát hiện tấn công của dPCA 114 4.5.1. Tập dữ liệu thử nghiệm 114 4.5.2. Mô phỏng, thử nghiệm phát hiện bất thường và một số loại tấn công 116 4.6. Kết luận chương 4 118 KẾT LUẬN VÀ KHẢ NĂNG PHÁT TRIỂN TIẾP 120 DANH MỤC CÔNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ 123 TÀI LIỆU THAM KHẢO 124 vii DANH MỤC THUẬT NGỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CDF Cumulative distribution function) Hàm phân bố tích lũy DNS Domain Name System Hệ thống tên miền dPCA Distance-based anomaly detection method in PCA subspace Phương pháp phân tích và phát hiện bất thường đề xuất của luận án dPCA1T Distance-based anomaly detection method in PCA subspace using 1 threshold Phương pháp dùng 1 mức ngưỡng dPCA2T Distance-based anomaly detection method in PCA subspace using 2 threshold Phương pháp dùng 2 mức ngưỡng ECDF Empirical cumulative distribution function Hàm phân bố tích lũy thực nghiệm EWMA Exponential Weighted Moving Average Trung bình dịch chuyển trọng số theo hàm mũ IP Giao thức Internet (Internet Protocol) ISP Internet Service Provider Nhà cung cấp dịch vụ Internet IDS Intrusion Detection System Hệ thống phát hiện tấn công xâm nhập KDD Knowledge Discovery and Datamining Khoa học về dữ liệu LAN Local Area Network Mạng cục bộ PC Principal Component Thành phần chính PCA Principal Component Analysis Phân tích thành phần chính ROC Receiver Operating Curve Đồ thị biểu diễn dự đoán SNMP Simple Network Management Protocol Giao thức quản lý mạng viii SVD Singular value decomposition SVM Support Vector Machine Vector máy hỗ trợ TCP Transmission Control Protocol Giao thức điều khiển truyền tin UDP User Datagram Protocol Giao thức truyền dữ liệu của người dùng udPCA Uncleaned dPCA Phương pháp phát hiện và khử ngoại lai được đề xuất VLAN Virtual Local Area Network Mạng cục bộ ảo VPN Virtual Private Network Mạng riêng ảo WAN Wide Area Network Mạng diện rộng ix DANH MỤC CÁC KÝ HIỆU Ký hiệu Ý nghĩa c Số mũ trong công thức tính khoảng cách của dPCA C Ma trận tương quan d Khoảng cách thống kê dN Mức ngưỡng khoảng cách của phương pháp dPCA ei Vector riêng E Ma trận vector riêng k Số thành phần chính được lựa chọn K Số cụm trong K-means p Số thuộc tính ban đầu T 2 Thống kê T bình phương wi Trọng số trong công thức tính khoảng cách của dPCA xi Các thuộc tính (biến) ban đầu X Ma trận dữ liệu thuộc tính ban đầu yi Giá trị của thành phần chính Y Ma trận giá trị thành phần chính zi Biến ban đầu sau khi chuẩn hóa Z Ma trận của zi sau khi chuẩn hóa α Sai số ước lượng theo hàm phân bố tích lũy thực nghiệm β Tỷ lệ biến thiên của các thành phần chính tính theo trị riêng Khoảng cách thống kê Euclid Khoảng cách Euclidean wEuclid Khoảng cách Euclidean trọng số Mahalanobis Khoảng cách Mahalanobis Manhattan Khoảng cách Manhattan 2 Thống kê khi bình phương (chi-square) i Trị riêng µ Giá trị trung bình x DANH MỤC CÁC HÌNH VẼ Hình A Kiến trúc phân lớp của mạng IP. 1 Hình B Sơ đồ mạng và các điểm do lưu lượng trên tuyến kết nối 2 Hình C Biểu diễn các tập dữ liệu bình thường và bất thường thu được từ mạng 3 Hình D Quá trình phân tích, phát hiện và xử lý lưu lượng bất thường 5 Hình 1.1. PCA trong mặt ph ng 2D (2 thành phần chính). 26 Hình 1.2. Đồ thị Scree 27 Hình 1.3. Tỷ lệ biến thiên tập trung ở 4 PC đầu 29 Hình 1.4. Xung bất thường trong lưu lượng thể hiện ở một PC 30 Hình 1.5. Phát hiện bất thường bằng cách theo dõi từng thành phần chính 32 Hình 1.6. Phát hiện bất thường dựa trên phân tích phần dư và thống kê T2 38 Hình 2.1. Mô hình chung hệ thống phân tích và phát hiện lưu lượng bất thường dựa trên PCA 43 Hình 2.2. Khoảng cách Euclidean và Manhattan trong không gian 2 chiều 47 Hình 2.3. Phân cấp trong phương pháp dPCA 54 Hình 2.4. Tạo profile trong dPCA 58 Hình 2.5. Phát hiện bất thường trong dPCA 59 Hình 2.6. Đồ thị ROC 62 Hình 2.7. TP khi thay đổi số lượng PC của nhóm 3 với tập 1 67 Hình 2.8. Số kết nối bất thường phát hiện đúng của tập 1 67 Hình 2.9. Số kết nối bình thường phát hiện đúng của tập 1 68 Hình 2.10. Một số đồ thị ROC của d với tập dữ liệu 1 70 Hình 2.11. Số kết nối bất thường phát hiện đúng của tập 2 71 Hình 2.12. Số kết nối bình thường phát hiện đúng của tập 2 72 Hình 2.13. Số kết nối bất thường phát hiện đúng của tập 3 72 Hình 2.14. Số kết nối bình thường phát hiện đúng của tập 3 73 Hình 2.15. Số kết nối bất thường phát hiện đúng của tập 4 73 Hình 2.16. Số kết nối bình thường phát hiện đúng của tập 4 74 Hình 2.17. Một số đồ thị ROC của d với tập dữ liệu 2,3,4 75 xi Hình 2.18. Số kết nối bất thường phát hiện đúng của tập 5 77 Hình 2.19. Số kết nối bình thường phát hiện đúng của tập 5 78 Hình 2.20. Đồ thị ROC của d với tập dữ liệu 5 nhóm 2 (c =2, wi =1/ i ) 78 Hình 3.1. Quá trình tạo profile của dPCA có khử ngoại lai cho tập dữ liệu mẫu 85 Hình 3.2. Quá trình phát hiện ngoại lai của udPCA 86 Hình 3.3. Cụm bình thường và cụm chứa ngoại lai khi K =2 90 Hình 3.4. Phát hiện ngoại lai dựa trên khoảng cách tối đa 90 Hình 3.5. Kết hợp phân cụm và khoảng cách tối đa để phát hiện ngoại lai 91 Hình 3.6 Đồ thị ROC của d (dPCA) sau khi khử ngoại lai (tập dữ liệu 1) 96 Hình 3.7 Đồ thị ROC khi áp dụng dPCA với tập dữ liệu 5 (tập mẫu sạch) 98 Hình 3.8 Đồ thị ROC (dPCA) sau khi khử ngoại lai lai (tập dữ liệu 5) 99 Hình 4.1. Mạng nội bộ doanh nghiệp có kết nối ra Internet 105 Hình 4.2. Kiến trúc tổng thể hệ thống giám sát 105 Hình 4.3. Cấu trúc thiết bị trinh sát 106 Hình 4.4. Hệ thống phần mềm trinh sát 108 Hình 4.5. Một số sự kiện thu được tại trung tâm giám sát 110 Hình 4.6. Mô hình kết hợp phát hiện bất thường và mẫu dấu hiệu 113 xii DANH MỤC CÁC BẢNG Bảng A Các nguyên nhân điển hình gây ra lưu lượng bất thường 5 Bảng 1.1. Một ví dụ về dữ liệu thuộc tính 12 Bảng 2.1. Thuộc tính dùng trong thử nghiệm của tập dữ liệu Kyoto Honeypot 64 Bảng 2.2. Các tập dữ liệu thử nghiệm cho dPCA1T và dPCA2T 65 Bảng 2.3. Thử nghiệm dPCA1T với tập 1 68 Bảng 2.4. Thử nghiệm dPCA1T với tập dữ liệu 2,3,4 70 Bảng 2.5. Thử nghiệm dPCA1T với tập dữ liệu 5 76 Bảng 2.6. Thử nghiệm dPCA2T với các tham số PC chủ yếu 79 Bảng 2.7. Thử nghiệm dPCA2T với tập dữ liệu 1, 2, 3, 4, 5 80 Bảng 3.1. Các tập dữ liệu thử nghiệm 92 Bảng 3.2. Kết quả phát hiện ngoại lai bằng udPCA 93 Bảng 3.3. Kết quả phát hiện ngoại lai bằng K-Means 93 Bảng 3.4. Kết quả dPCA1T trước khi loại bỏ ngoại lai với tập dữ liệu 1 94 Bảng 3.5. Kết quả dPCA1T sau khi loại bỏ ngoại lai với tập dữ liệu 1 94 Bảng 3.6. Kết quả của dPCA1T sau khi khử ngoại lai với tập dữ liệu 2,3,4 96 Bảng 3.7. Kết quả phát hiện của dPCA1T với tập dữ liệu mẫu sạch (tập 5) 98 Bảng 3.8. Kết quả phát hiện của dPCA1T sau khi khử ngoại lai với tập 5 98 Bảng 3.9. Kết quả của dPCA2T sau khi khử ngoại lai với tập 1, 2, 3, 4, 5 99 Bảng 3.10. Kết quả phát hiện bất thường của udPCA 101 Bảng 4.1. Thuộc tính dùng trong thử nghiệm của tập dữ liệu NSL-KDD 115 Bảng 4.2. Kết quả phát hiện của dPCA1T với một số loại tấn công 117 1 MỞ ĐẦU 1. Yêu cầu kiểm soát lƣu lƣợng mạng Internet Mạng Internet đã có sự phát triển vượt bậc trong những năm qua và trở thành nền tảng không thể thiếu được trong mọi lĩnh vực của đời sống. Về mặt công nghệ, mạng Internet dựa trên nền tảng mạng chuyển mạch gói sử dụng giao thức Internet Protocol (IP) ở lớp mạng. Hạ tầng mạng bao gồm nhiều loại công nghệ khác nhau như mạng Ethernet, mạng di động các thế hệ 2G/3G/4G,... Trên lớp mạng IP là vô số các dịch vụ và ứng dụng mạng đa dạng khác nhau. Hình A biểu thị sự phát triển đa dạng của hạ tầng và các dịch vụ/ứng dụng mạng trên cơ sở nền tảng một giao thức IP duy nhất. Lý do cơ bản nhất của kiến trúc này là tạo thành tính mở của Internet, cho phép kết nối mọi hạ tầng mạng, mọi liên kết chia sẻ dịch vụ/ứng dụng khi sử dụng IP. Điều này đã tạo điều kiện thuận lợi cho Internet phát triển mạnh mẽ trong những năm qua, tạo điều kiện cho các loại hình truyền thông người - người, người - máy, máy - người và mới đây nhất là giữa máy và máy. Hình A. Kiến trúc phân lớp của mạng IP. Tuy nhiên, chính tính mở và sự đa dạng về hạ tầng và dịch vụ/ứng dụng đã làm ch ... Dương, Hoàng Đăng Hải (2016) “Phát hiện lưu lượng mạng bất thường trong điều kiện dữ liệu huấn luyện chứa ngoại lai,” Tạp chí Khoa học công nghệ thông tin và truyền thông, Học viện ưu chính viễn thông, Bộ Thông tin và Truyền thông, tập 1, số 1, tr.3-15. 124 TÀI LIỆU THAM KHẢO TIẾNG ANH [1] P. Aggarwal S. K. Sharma (2015), “Analysis of KDD Dataset Attributes - Class wise for Intrusion Detection,” in Proc. of 3rd International Conference on Recent Trends in Computing 2015 (ICRTC-2015), Procedia Computer Science, vol. 57, pp. 842-851. [2] L. Braun, G. Munz, G. Carle (2010), “Packet sampling for worm and botnet detection in TCP connections,” in Proc. of IEEE/IFIP Network Operations and Management Symposium (NOMS) 2010, Osaka, Japan. [3] S.Al-Haj Baddar, A.Merlo, M.Migliardi (2014), “Anomaly detection in computer networks: A state-of-the art review,” Journal of Wireless Mobile Networks, Ubiquitous Computing and Dependable Applications, Vol.5, No.4, pp.29-64. [4] V. Barnett, T. Lewis (1994), “Outlier in Statistic Data,” John Wiley, 3rd ed. [5] M.Bhuyan, D.Bhattacharyya, J.Kalita (2014),“Network anomaly detection: Methods, systems and tools,” IEEE Communications Surveys Tutorials, Vol.16, No.1, pp.303-336. [6] D. Brauckhoff (2010), Network Traffic Anomaly Detection and Evaluation, Doctoral dissertation, ETH ZURICH, ETH No. 18835. [7] D. Brauckhoff, K. Salamatian, M. May (2009),“Applying PCA for traffic anomaly detection: Problems and solutions,” in Proc. of IEEE Conference on Computer Communications (INFOCOM2009). [8] C. Callegari, L. Gazzarrini, S. Giordano, M. Pagano, and T. Pepe “A Novel PCA-Based Network Anomaly Detection,” in IEEE International Conference on Communications (ICC), pp. 1 – 5 Jun. 2011. [9] R. M. Carrion, J. Camacho, P. G. Teodoro (2015), "Multivariate statistical approach for anomaly detection and lost data recovery in wireless sensor networks," International Journal of Distributed Sensor Networks, Vol. 2015, No.123. [10] R. M. Carrion, J. Camacho, P. G. Teodoro (2016), "PCA-based multivariate statistical network monitoring for anomaly detection," Computers & Security, Vol. 59, pp.118-137. 125 [11] V. Chandola, A.Banerjee, V.Kumar, (2009). "Anomaly Detection: A Survey", ACM Computing Surveys, Vol.41, Issue 3, Article No. 15. [12] V. Chatzigiannakis, S. Papavassiliou, G. Androulidakis (2009), “Improving network anomaly detection effectiveness via an integrated multi-metric-multi- link (M3L) PCA-based approach,” Security and Communication Networks, pp. 289–304. [13] S. Chawla, A. Gionis (2013), “K-means: A unified approach to clustering and outlier detection,” in Proc. of the SIAM International Conference on Data Mining. [14] A. Das, S. Misra, S. Joshi, J. Zambreno, G. Memik, A. Choudhary (2008), “An Efficient FPGA Implementation of Principle Component Analysis based Network Intrusion Detection System,” in Proc. of Design, automation and test in Europe (DATE '08), pp. 1160-1165. [15] D. David (2011), “A performance analysis of Snort and Suricata Network Intrusion Detection and Prevention Engines. In Proc. of The Fifth International Conference on Digital Society (ICDS 2011), pp. 187-192. [16] J.J.Davis, A.J.Clark (2011), “Data preprocessing for anomaly based network intrusion detection: A review,” Computer & Security, Vol.30, No.6-7, pp.353- 375. [17] A. Delimargas, E. Skevakis, H. Halabian, H. I. Lambadaris (2015), “IPCA for network anomaly detection", IEEE MILCOM2015, pp. 617-622. [18] R.Dunia, S.Qin (1997), “Multidimensional fault diagnosis using a subspace approach,” in American Control Conference. [19] L. Ertoz, E. Eilertson, A. Lazarevic, P. Tan, V. Kumar, and J. Srivastava (2004), “The MINDS - Minnesota Intrusion Detection System,” Next Generation Data Mining, MIT Press. [20] G. Fernandes, J . Rodrigues, M. L. Proença (2015), “Autonomous profile-based anomaly detection system using principal component analysis and flow analysis,” Applied Soft Computing, Vol. 34, Issue C, pp. 513-525. [21] R. Fontugne, P. Borgnat, P. Abry, K. Fukuda (2010), “MAWILab: combining diverse anomaly detectors for automated anomaly labeling and performance benchmarking,” in Proc. of CoNEXT 2010, pp. 1-12. 126 [22] P. Garcıa-Teodoro, J.Dıaz-Verdejo, G. Macia-Fernandez (2009), E. Va´zquez, “Anomaly-based network intrusion detection: Techniques, systems and challenges,” Journal of Computers and Security, Vol.28 Ed 1-2, pp.18-28. [23] P. Gogoi, D. K. Bhattacharyya, B. Borah, and J. K. Kalita (2011), “A Survey of Outlier Detection Methods in Network Anomaly Identification,” Computer Journal, vol. 54, no. 4, pp. 570–588. [24] V.J. Hodge, J. Austin (2004), “A survey of oulier detection methodologies,” Artificial Intelligence Review, Vol. 22, Issue 2, pp. 85-126. [25] L. Huang, X. Nguyen, M. Garofalakis, J. M. Hellerstein , M. I. Jordan , A. D. Joseph , N. Taft (2007), “Communication-Efficient Online Detection of Network-Wide Anomalies,” in Proc of IEEE INFOCOM 2007, pp. 134 – 142. [26] B. Ingre, A. Yadav, Performance analysis of NSL-KDD dataset using ANN (2015), in Proc. of 2015 Signal Processing And Communication Engineering Systems (SPACES), pp. 92-96. [27] J. E. Jackson (1980), “Principal component and Factor Analysis: Part 1: Principal Components”, Journal of Quality Technology, vol. 12, pp. 201-213. [28] J. D. Jobson (1992), “Applied Multivariate Data Analysis, Volume II: Categorical and Multivariate Methods,” Springer texts in statistics, Spinger- Verlag, NY. [29] I. T. Jolliffe (2002), "Principal Component Analysis", Springer Verlag, New York, 3 rd ed. [30] Y.Kanda, K.Fukuda, T.Sugawara (2010), “An evaluation of anomaly detection based on sketch and PCA”, in Proc. of Global Telecommunications Conference (GLOBECOM 2010), pp. 1-5. [31] M. Kim, H. Kong, S. Hong, S.Chung (2004), “A flow-based method for abnormal network traffic detection”, in Proc. of Network Operations and Management Symposium, pp. 599 - 612 Vol.1. [32] E. M. Knorr, R. T. Ng, V. Tucakov (2000), “Distance-based Outliers: Algorithms and Applications”, The International Journal on Very Large Data Bases , Vol. 8, No. 3-4, pp. 237-253. [33] A. Lakhina, M. Crowella C.Diot (2004), “Diagnosing network-wide traffic anomalies”, in Proc. of ACM SIGCOMM '04, pp.219-230. 127 [34] A. Lakhina, M. Crovella, C. Diot (2004), “Characterization of Network-Wide Anomalies in Traffic Flows”, in Proc. of The 4th ACM SIGCOMM conference on Internet measurement, pp.201-206. [35] A. Lakhina, M. Crovella, C. Diot (2005), “Mining Anomalies Using Traffic Feature Distributions”, in Proc. of the 2005 ACM SIGCOMM '05, pp.217-228. [36] A. Lakhina (2007), “Network Wide Traffic Analysis: Methods and Applications”, dissertation for the degree of Doctor of Philosophy, Boston University, UMI No. 3232904. [37] Y. Lee, Y. Yeh, Y. Wang (2013), “Anomaly detection via online oversampling Principle Component Analysis”, IEEE Trans. on Knowledge and Data Engineering, Vol.25, No.7, pp.1460-1470. [38] X.Li, F. Bian, M. Crovella, C. Diot, R. Govindan, G. Iannaccone, A. Lakhina (2006), “Detection and identification of network anomalies using sketch subspaces”, in Proc. of Internet Measurement Conference (IMC2006). [39] D. Liu, C. H. Lung ; N. Seddigh (2014), “Entropy-based robust PCA for communication network anomaly detection”, in IEEE/CIC International Conference on Communications in China (ICCC), pp. 171 – 175. [40] Y. Liu, L. Zhang, Y. Guan (2010), “Sketch-Based Streaming PCA Algorithm for Network-Wide Traffic Anomaly Detection”, Distributed Computing Systems (ICDCS), pp. 807 – 816. [41] J. MacQueen (1967), "Some methods for classification and analysis of multivariate observations", in Proc. of Fifth Berkeley Symp. on Math. Statist. and Prob., Vol. 1, pp. 281-297, Univ. of Calif. Press. [42] J. Mazel, R. Fontugne, K. Fukuda (2014), “A taxonomy of anomalies in backbone network traffic”, in Proc. of 5th International Workshop on TRaffic Analysis and Characterization (TRAC 2014), pp. 30–36. [43] G. Munz (2010), “Traffic Anomaly Detection and Cause Identification Using Flow-Level Measurements”, PhD thesis, Technische Universität München. [44] G. Munz, S. Li, G. Carle (2007), “Traffic Anomaly Detection Using K-Means Clustering,” in GI/ITG Workshop MMBnet, CiteSeerX. [45] S. Myers, John Musacchio, Ning Bao (2010), “Intrusion Detection Systems: A Feature and Capability Analysis”, Technical Reports, UCSC-SOE-10-12. 128 [46] D. T. Nguyen, G. Memik, A. Choudhary (2006), “A reconfigurable architecture for network intrusion detection using principal component analysis”, in Proc. of The 2006 ACM/SIGDA 14th international symposium on Field programmable gate arrays, pp. 235-235. [47] NetReflex System (Juniper) - services/network-edge-services/network-analytics/netreflex/ [48] S. Novakov, C.H. Lung, I. Lambadaris, N. Seddigh (2014), “A Hybrid Technique Using PCA and Wavelets in Network Traffic Anomaly Detection”, International Journal of Mobile Computing and Multimedia Communications, Vol. 6 No. 1, pp.17-53. [49] Principal Component Analysis, https://onlinecourses.science.psu.edu/stat505 /node /49. [50] Principal Component Analysis, https://en.wikipedia.org/wiki/ Principal _component_ analysis. [51] I. Paredes-Oliva (2013), “Addressing Practical Challenges for Anomaly Detection in Backbone Networks”, Phd Dissertation in Computer Science, Universitat Polit`ecnica de Catalunya BarcelonaTech. [52] A. Patcha, J.M. Park (2007), “An Overview of Anomaly Detection Techniques: Existing Solutions and Latest Technological Trends”, The International Journal of Computer and Telecommunications Networking, Vol. 51 Issue 12, pp. 3448- 3470. [53] T. Quirino, Z. Xie, M. Shyu (2006), “Collateral Representative Subspace Projection Modeling for Supervised Classification”, in Proc. of 18th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'06), pp. 98- 105. [54] K. H. Ramah, H. Ayari, F. Kamoun (2006), “Traffic Anomaly Detection and Characterization in the Tunisian National University Network”, in Networking 2006, Vol. 3976, Springer Berlin Heidelberg, pp. 136-147. [55] C.R. Rao (1996), “Principal component and factor analyses,” Handbook of Statistics, Vol.14, pp. 489-505, Elsevier. [56] M. Roesch (1999), "Snort - Lightweight Intrusion Detection for Networks", in Proc. of 13th USENIX Conference on System Administration, pp. 229–238. 129 [57] H. Ringberg, A. Soule, J. Rexford, and C. Diot (2007). “Sensitivity of PCA for traffic anomaly detection, in Proc. of ACM SIG ETRICS ’07, pp. 109–120. [58] M.L. Shyu, S.C.Chen, K.Sarinnapakorn, L.W.Chang (2003), "A Novel Anomaly Detection Scheme Based on Principle Component Classifier", in Proc. of the IEEE foundation and New Directions of Data Mining Workshop (ICDM03), pp. 172-179. [59] M.L. Shyu, S.C.Chen, K.Sarinnapakorn, L.W.Chang (2005), “Handling nominal features in anomaly intrusion detection problems, in 15 th International Workshop on Research Issues in Data Engineering: Stream Data Mining and Applications (RIDE-SDMA'05). [60] J. Song, H.Takakura, Y.Okabe. Description of Kyoto University Benchmark Data. 2006, pp. 1-3. ( kura.com/Kyoto data/BenchmarkData- Description-v5.pdf). [61] J. Song, H. Takakura, Y. Okabe, M. Eto, D. Inoue, K. Nakao (2011), "Statistical Analysis of Honeypot Data and Building of Kyoto 2006+ Dataset for Nids Evaluation", in Proc. of the First Workshop on Building Analysis Datasets and Gathering Experience Returns for Security(ACM, 2011), pp. 29-36. [62] A. Sperotto, G. Schaffrath, R. Sadre, C. Morariu, A. Pras, and B. Stiller (2010), “An Overview of IP Flow-Based Intrusion Detection”, IEEE Commun. Surveys Tutorials, vol. 12, no. 3 , pp. 343–356. [63] N. Taft, K. Papagiannaki, M. Crovella, C. Diot, E. D. Kolaczyk, A. Lakhina (2004), “Structural analysis of network traffic flows,” in Proc. of The joint international conference on Measurement and modeling of computer systems (SIG ETRICS ’04), pp. 61–72. [64] M. Tavallaee, E. Bagheri, W. Lu, A.A. Ghorbani (2009), “A Detailed Analysis of the KDD CUP 99 Data Set”, in Proc. of IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA2009), pp. 1-6. [65] H.Teng, K.Chen, S.Lu (1990), “Adaptive real-time anomaly detection using inductively generated sequential patterns”, in Proc. of IEEE Computer Society Symposium on Research in Security and Privacy, pp. 278-284. [66] The Cmulative Distribution Functions, STAT 414 - Continuous Random Variables: https://onlinecourses.science.psu.edu/stat414/node/98 130 [67] The Empirical CDF, STAT 464 - Applied Nonparametric Statistic: https:// onlinecourses.science.psu.edu/stat464/node/84 [68] The NSL-KDD Dataset (2009)- NSL-KDD-dataset.html [69] The KDD cup dataset (1999), /kddcup99.html [70] C.Thomas, V. Sharma N. Balakrishnan (2008), “Usefulness of DARPA dataset for intrusion detection system evaluation”, in Proc. of The International Society for Optical Engineering. [71] M. Thottan, G. Liu, C. Ji (2010), “Anomaly Detection Approaches for Communication Networks”, in Algorithms for Next Generation Networks, G. Cormode, Ed. London: Springer, pp. 239-261. [72] W. Wang, R. Battiti (2006), “Identifying Intrusions in Computer Networks with Principal Component Analysis”, in Proc. of First IEEE International Conference on Availability, Reliability and Security (ARES 2006), IEEE press society, pp. 270-277. [73] W. Wang, S. Gombault (2007), “Detecting masquerades with principal component analysis based on cross frequency weights”, in Proc. of 14th Anniversary HP-SUA Workshop, Munich, Germany, pp. 227-232. [74] W. Wang, X. Zhang, S. Gombault, S. J. Knapskog (2009), "Attribute Normalization in Network Intrusion Detection", in 10th International Symposium on Pervasive Systems, Algorithms and Networks (I-SPAN 2009), IEEE Press, pp. 448-453. [75] W. Wang, S. Gombault, T. Guyet (2008), “Towards fast detecting intrusions: using key attributes of network traffic”, in Proc. of The 3rd International Conference on Internet Monitoring and Protection (ICIMP '08), pp. 86-91. [76] D. J. Weller-Fahy, B. J. Borghetti, A. A. Sodemann (2015), “A Survey of Distance and Similarity Measures Used Within Network Intrusion Anomaly Detection”, IEEE Communication Surveys & Tutorials, Vol. 17, No. 1, pp.70-91. [77] Z. Xie, T. Quirino, M.-L. Shyu, S.-C. Chen, and L. Chang (2006), “A distributed agent-based approach to intru-sion detection using the lightweight PCC anomaly de-tection classier”, In Proc. of IEEE International Conference on Sensor Networks, Ubiquitous, and Trustworthy Com-puting (SUTC2006), pp. 446–453.
File đính kèm:
- luan_an_nghien_cuu_de_xuat_phuong_phap_phan_tich_va_phat_hie.pdf
- TomTat Luan an TS NCS NH Dương.pdf
- Trang TT Luan an TS NCS NH Dương (TA).pdf
- Trang TT Luan an TS NCS NH Dương (TV).pdf