Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet

Mạng Internet đã có sự phát triển vượt bậc trong những năm qua và trở thành nền

tảng không thể thiếu được trong mọi lĩnh vực của đời sống. Về mặt công nghệ, mạng

Internet dựa trên nền tảng mạng chuyển mạch gói sử dụng giao thức Internet Protocol

(IP) ở lớp mạng. Hạ tầng mạng bao gồm nhiều loại công nghệ khác nhau như mạng

Ethernet, mạng di động các thế hệ 2G/3G/4G,. Trên lớp mạng IP là vô số các dịch vụ

và ứng dụng mạng đa dạng khác nhau. Hình A biểu thị sự phát triển đa dạng của hạ

tầng và các dịch vụ/ứng dụng mạng trên cơ sở nền tảng một giao thức IP duy nhất. Lý

do cơ bản nhất của kiến trúc này là tạo thành tính mở của Internet, cho phép kết nối

mọi hạ tầng mạng, mọi liên kết chia sẻ dịch vụ/ứng dụng khi sử dụng IP. Điều này đã

tạo điều kiện thuận lợi cho Internet phát triển mạnh mẽ trong những năm qua, tạo điều

kiện cho các loại hình truyền thông người - người, người - máy, máy - người và mới

đây nhất là giữa máy và máy.

pdf 144 trang dienloan 8240
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG 
NGUYỄN HÀ DƢƠNG 
NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP 
PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG 
BẤT THƢỜNG TRÊN MẠNG INTERNET 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
v24: 11/10 Sửa theo ý kình so sánh tổng thông lượng đạt được của 3 luồng để lý 
giải thời gian bù trong t/h 3 dài hơn t/h 2 là do lost packet? 
10/4: Sửa theo ý kiến phản biện độc lập (PBĐL) 1. 
v28, 16/5/2013: Sửa theo ý kiến lần 1 của PBĐL 2: Bổ sung thêm phụ lục về mô 
Hà Nội – 2017 
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG 
NGUYỄN HÀ DƢƠNG 
NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP 
PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG 
BẤT THƢỜNG TRÊN MẠNG INTERNET 
Chuyên ngành: Kỹ thuật viễn thông 
Mã số: 62.52.02.08 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
NGƯỜI HƯỚNG DẪN KHOA HỌC: 
PGS. TSKH. HOÀNG ĐĂNG HẢI 
Hà Nội – 2017 
i 
LỜI CAM ĐOAN 
Tôi xin cam đoan luận án “Nghiên cứu đề xuất phƣơng pháp phân tích và 
phát hiện lƣu lƣợng bất thƣờng trên mạng Internet” là công trình nghiên cứu của 
tôi, trừ những kiến thức tham khảo từ các tài liệu đã được chỉ rõ. 
Các kết quả, số liệu nêu trong luận án là trung thực, một phần đã được công bố 
trên các tạp chí khoa học chuyên ngành, phần còn lại chưa được công bố trong bất kỳ 
công trình nào khác. 
Tác giả 
Nguyễn Hà Dƣơng 
ii 
LỜI CẢM ƠN 
Luận án Tiến sĩ kỹ thuật này được thực hiện tại Học viện Công nghệ Bưu chính 
Viễn thông. Tác giả xin chân thành cảm ơn PGS. TSKH. Hoàng Đăng Hải đã tận tình 
hướng dẫn, giúp đỡ tôi trong suốt quá trình nghiên cứu. Thầy đã có rất nhiều ý kiến 
quan trọng về hướng nghiên cứu để tôi hoàn thành được luận án này. 
Tôi xin chân thành cảm ơn các thày cô của Học viện Công nghệ Bưu chính Viễn 
thông, Khoa Quốc tế và Đào tạo Sau đại học, Khoa Viễn thông, Khoa Công nghệ 
thông tin trong quá trình học tập, nghiên cứu tại Học viện. 
Tôi trân trọng cảm ơn Bộ môn Kỹ thuật hệ thống, Khoa Công nghệ thông tin, 
Trường Đại học Xây dựng đã tạo điều kiện thuận lợi, giúp đỡ tôi trong quá trình 
nghiên cứu, hoàn thành luận án. 
Tôi xin bày tỏ sự biết ơn sâu sắc tới bố mẹ tôi, vợ tôi, tới gia đình và bạn bè đã 
động viên, giúp đỡ, tạo mọi điều kiện thuận lợi cho tôi hoàn thành luận án này. 
 Hà nội, tháng năm 
 Nghiên cứu sinh 
iii 
MỤC LỤC 
LỜI CAM ĐOAN i 
LỜI CẢM ƠN ii 
MỤC LỤC iii 
DANH MỤC THUẬT NGỮ VIẾT TẮT vii 
DANH MỤC CÁC KÝ HIỆU ix 
DANH MỤC CÁC HÌNH VẼ x 
DANH MỤC CÁC BẢNG xii 
MỞ ĐẦU 1 
1. Yêu cầu kiểm soát lưu lượng mạng Internet 1 
2. Lưu lượng mạng bất thường và nhu cầu phát hiện 3 
a. Khái niệm về lưu lượng mạng bất thường 3 
b. Nguyên nhân gây ra lưu lượng mạng bất thường 4 
c. Vấn đề phân tích và phát hiện lưu lượng mạng bất thường 6 
d. Phạm vi luận án 7 
3. Những đóng góp chính của luận án 8 
4. Cấu trúc của luận án 10 
CHƢƠNG 1 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 11 
1.1. Thu thập lưu lượng mạng Internet 11 
1.1.1. Các đặc tính của lưu lượng mạng 11 
1.1.2. Các phương pháp thu thập lưu lượng Internet 14 
1.1.2.1. Thu thập mức gói tin 14 
1.1.2.2. Thu thập mức luồng tin 15 
1.2. Tổng quan về các phương pháp, mô hình phân tích và phát hiện lưu lượng bất 
thường 15 
1.2.1. Nhóm dựa vào thống kê 15 
1.2.2. Nhóm dựa vào khai phá dữ liệu và học máy 17 
1.2.3. Nhóm dựa vào tri thức 20 
1.2.4. Tóm tắt ưu nhược điểm của các nhóm phương pháp 20 
1.3. Phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên PCA 22 
1.3.1. Cơ sở của phương pháp PCA 22 
iv 
1.3.1.1. Dữ liệu và tham số trong miền con PCA 22 
1.3.1.2. Vấn đề giảm chiều dữ liệu với PCA 26 
1.3.1.3. Phân tích và phát hiện bất thường với PCA 28 
1.3.2. Các phương pháp phân tích và phát hiện lưu lượng bất thường điển hình dựa 
trên PCA 30 
1.3.2.1. Lựa chọn các thành phần chính 30 
1.3.2.2. Tính khoảng cách thống kê 36 
1.3.2.3. Vấn đề lựa chọn tập dữ liệu mẫu 39 
1.4. Nhận xét, đánh giá 40 
1.5. Kết luận chương 1 41 
CHƢƠNG 2 PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG 
BẤT THƢỜNG dPCA 43 
2.1. Mở đầu 43 
2.2. Mô hình hệ thống phân tích và phát hiện lưu lượng bất thường dựa trên PCA 43 
2.3. Công thức tính khoảng cách thống kê trong phân tích và phát hiện lưu lượng bất 
thường 44 
2.3.1. Khoảng cách Euclidean và bình phương khoảng cách Euclidean 45 
2.3.2. Bình phương khoảng cách Euclidean có trọng số 45 
2.3.3. Khoảng cách Mahalanobis 46 
2.3.4. Khoảng cách Manhattan 47 
2.3.5. Khoảng cách Minkowski 47 
2.4. Công thức Minkowski bổ sung trọng số trong miền con PCA 48 
2.4.1. So sánh cách tính khoảng cách trong các phương pháp PCA điển hình trước 
đây với công thức đề xuất 49 
2.4.1.1. Phương pháp phân tích phần dư 49 
2.4.1.2. Phương pháp sử dụng thống kê T2 50 
2.5. Phương pháp dPCA CT7, CT8] 50 
2.5.1. Lựa chọn các tham số để tính khoảng cách trong dPCA 51 
2.5.2. Sự phân cấp của dPCA 53 
2.5.3. Thiết lập mức ngưỡng 55 
2.5.4. Quá trình tạo profile và phát hiện bất thường trong dPCA 56 
2.6. Thử nghiệm, đánh giá kết quả 60 
v 
2.6.1. Các sự kiện và thông số đánh giá độ chính xác 60 
2.6.2. Đồ thị ROC 61 
2.6.3. Lựa chọn tập dữ liệu thử nghiệm 62 
2.6.4. Kịch bản thử nghiệm cho dPCA 64 
2.6.5. Thử nghiệm, đánh giá phương pháp dPCA 65 
2.6.5.1. Kết quả thử nghiệm dPCA1T với các tham số khác nhau 65 
2.6.5.2. Thử nghiệm dPCA hai mức ngưỡng (dPCA2T) 79 
2.7. Kết luận chương 2. 82 
CHƢƠNG 3 PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP DỮ LIỆU MẪU
 84 
3.1. Vấn đề khử ngoại lai trong tập dữ liệu mẫu 84 
3.2. Phương pháp phát hiện và khử ngoại lai bằng udPCA [CT8] 85 
3.3. Phương pháp phát hiện và khử ngoại lai bằng K-Means [CT4, CT5, CT8] 87 
3.3.1. Khái niệm về phân cụm dữ liệu 87 
3.3.2. Thuật toán phân cụm K-Means cơ bản 88 
3.3.3. Phát hiện ngoại lai dựa trên K-means 89 
3.3.4. Các bước phát hiện và khử ngoại lai trong tập dữ liệu mẫu với K-means 91 
3.4. Thử nghiệm phát hiện và khử ngoại lai 92 
3.4.1. Kịch bản thử nghiệm 92 
3.4.2. Khả năng phát hiện ngoại lai của udPCA và K-means 92 
3.4.3. Thử nghiệm dPCA khi đã khử ngoại lai trong tập dữ liệu mẫu 94 
3.4.3.1. Thử nghiệm với dPCA1T 94 
3.4.3.2. Thử nghiệm với dPCA2T 99 
3.5. Đánh giá khả năng phát hiện ngoại lai của udPCA 100 
3.6. Kết luận chương 3 102 
CHƢƠNG 4 HỆ THỐNG GIÁM SÁT VỚI PHƢƠNG PHÁP PHÁT HIỆN LƢU 
LƢỢNG BẤT THƢỜNG 104 
4.1. Mở đầu 104 
4.2. Kiến trúc hệ thống giám sát 104 
4.2.1. Phạm vi thu thập dữ liệu 104 
4.2.2. Kiến trúc tổng thể hệ thống giám sát 105 
4.2.3. Máy trinh sát 106 
vi 
4.2.4. Trung tâm phân tích, phát hiện và cảnh báo 109 
4.3. Nhận dạng, phân loại bất thường và khả năng kết hợp phát hiện lưu lượng bất 
thường với phát hiện tấn công mạng dựa trên mẫu dấu hiệu. 111 
4.4. Mô hình kết hợp phát hiện bất thường với phát hiện xâm nhập dựa trên tập mẫu 
dấu hiệu 112 
4.5. Mô phỏng thử nghiệm phát hiện tấn công của dPCA 114 
4.5.1. Tập dữ liệu thử nghiệm 114 
4.5.2. Mô phỏng, thử nghiệm phát hiện bất thường và một số loại tấn công 116 
4.6. Kết luận chương 4 118 
KẾT LUẬN VÀ KHẢ NĂNG PHÁT TRIỂN TIẾP 120 
DANH MỤC CÔNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ 123 
TÀI LIỆU THAM KHẢO 124 
vii 
DANH MỤC THUẬT NGỮ VIẾT TẮT 
Từ viết 
tắt 
Tiếng Anh Tiếng Việt 
CDF Cumulative distribution function) Hàm phân bố tích lũy 
DNS Domain Name System Hệ thống tên miền 
dPCA 
Distance-based anomaly detection 
method in PCA subspace 
Phương pháp phân tích và phát 
hiện bất thường đề xuất của 
luận án 
dPCA1T 
Distance-based anomaly detection 
method in PCA subspace using 1 
threshold 
Phương pháp dùng 1 mức 
ngưỡng 
dPCA2T 
Distance-based anomaly detection 
method in PCA subspace using 2 
threshold 
Phương pháp dùng 2 mức 
ngưỡng 
ECDF 
 Empirical cumulative distribution 
function 
Hàm phân bố tích lũy thực 
nghiệm 
EWMA Exponential Weighted Moving Average 
Trung bình dịch chuyển trọng 
số theo hàm mũ 
IP Giao thức Internet (Internet Protocol) 
ISP Internet Service Provider Nhà cung cấp dịch vụ Internet 
IDS Intrusion Detection System 
Hệ thống phát hiện tấn công 
xâm nhập 
KDD Knowledge Discovery and Datamining Khoa học về dữ liệu 
LAN Local Area Network Mạng cục bộ 
PC Principal Component Thành phần chính 
PCA Principal Component Analysis Phân tích thành phần chính 
ROC Receiver Operating Curve Đồ thị biểu diễn dự đoán 
SNMP Simple Network Management Protocol Giao thức quản lý mạng 
viii 
SVD Singular value decomposition 
SVM Support Vector Machine Vector máy hỗ trợ 
TCP Transmission Control Protocol Giao thức điều khiển truyền tin 
UDP User Datagram Protocol 
Giao thức truyền dữ liệu của 
người dùng 
udPCA Uncleaned dPCA 
Phương pháp phát hiện và khử 
ngoại lai được đề xuất 
VLAN Virtual Local Area Network Mạng cục bộ ảo 
VPN Virtual Private Network Mạng riêng ảo 
WAN Wide Area Network Mạng diện rộng 
ix 
DANH MỤC CÁC KÝ HIỆU 
Ký hiệu Ý nghĩa 
c Số mũ trong công thức tính khoảng cách của dPCA 
C Ma trận tương quan 
d Khoảng cách thống kê 
dN Mức ngưỡng khoảng cách của phương pháp dPCA 
ei Vector riêng 
E Ma trận vector riêng 
k Số thành phần chính được lựa chọn 
K Số cụm trong K-means 
p Số thuộc tính ban đầu 
T
2
 Thống kê T bình phương 
wi Trọng số trong công thức tính khoảng cách của dPCA 
xi Các thuộc tính (biến) ban đầu 
X Ma trận dữ liệu thuộc tính ban đầu 
yi Giá trị của thành phần chính 
Y Ma trận giá trị thành phần chính 
zi Biến ban đầu sau khi chuẩn hóa 
Z Ma trận của zi sau khi chuẩn hóa 
α Sai số ước lượng theo hàm phân bố tích lũy thực nghiệm 
β Tỷ lệ biến thiên của các thành phần chính tính theo trị riêng 
 Khoảng cách thống kê 
 Euclid Khoảng cách Euclidean 
 wEuclid Khoảng cách Euclidean trọng số 
 Mahalanobis Khoảng cách Mahalanobis 
 Manhattan Khoảng cách Manhattan 
2 Thống kê khi bình phương (chi-square) 
i Trị riêng 
µ Giá trị trung bình 
x 
DANH MỤC CÁC HÌNH VẼ 
Hình A Kiến trúc phân lớp của mạng IP. 1 
Hình B Sơ đồ mạng và các điểm do lưu lượng trên tuyến kết nối 2 
Hình C Biểu diễn các tập dữ liệu bình thường và bất thường thu được từ mạng 3 
Hình D Quá trình phân tích, phát hiện và xử lý lưu lượng bất thường 5 
Hình 1.1. PCA trong mặt ph ng 2D (2 thành phần chính). 26 
Hình 1.2. Đồ thị Scree 27 
Hình 1.3. Tỷ lệ biến thiên tập trung ở 4 PC đầu 29 
Hình 1.4. Xung bất thường trong lưu lượng thể hiện ở một PC 30 
Hình 1.5. Phát hiện bất thường bằng cách theo dõi từng thành phần chính 32 
Hình 1.6. Phát hiện bất thường dựa trên phân tích phần dư và thống kê T2 38 
Hình 2.1. Mô hình chung hệ thống phân tích và phát hiện lưu lượng 
bất thường dựa trên PCA 43 
Hình 2.2. Khoảng cách Euclidean và Manhattan trong không gian 2 chiều 47 
Hình 2.3. Phân cấp trong phương pháp dPCA 54 
Hình 2.4. Tạo profile trong dPCA 58 
Hình 2.5. Phát hiện bất thường trong dPCA 59 
Hình 2.6. Đồ thị ROC 62 
Hình 2.7. TP khi thay đổi số lượng PC của nhóm 3 với tập 1 67 
Hình 2.8. Số kết nối bất thường phát hiện đúng của tập 1 67 
Hình 2.9. Số kết nối bình thường phát hiện đúng của tập 1 68 
Hình 2.10. Một số đồ thị ROC của d với tập dữ liệu 1 70 
Hình 2.11. Số kết nối bất thường phát hiện đúng của tập 2 71 
Hình 2.12. Số kết nối bình thường phát hiện đúng của tập 2 72 
Hình 2.13. Số kết nối bất thường phát hiện đúng của tập 3 72 
Hình 2.14. Số kết nối bình thường phát hiện đúng của tập 3 73 
Hình 2.15. Số kết nối bất thường phát hiện đúng của tập 4 73 
Hình 2.16. Số kết nối bình thường phát hiện đúng của tập 4 74 
Hình 2.17. Một số đồ thị ROC của d với tập dữ liệu 2,3,4 75 
xi 
Hình 2.18. Số kết nối bất thường phát hiện đúng của tập 5 77 
Hình 2.19. Số kết nối bình thường phát hiện đúng của tập 5 78 
Hình 2.20. Đồ thị ROC của d với tập dữ liệu 5 nhóm 2 (c =2, wi =1/ i ) 78 
Hình 3.1. Quá trình tạo profile của dPCA có khử ngoại lai cho tập dữ liệu mẫu 85 
Hình 3.2. Quá trình phát hiện ngoại lai của udPCA 86 
Hình 3.3. Cụm bình thường và cụm chứa ngoại lai khi K =2 90 
Hình 3.4. Phát hiện ngoại lai dựa trên khoảng cách tối đa 90 
Hình 3.5. Kết hợp phân cụm và khoảng cách tối đa để phát hiện ngoại lai 91 
Hình 3.6 Đồ thị ROC của d (dPCA) sau khi khử ngoại lai (tập dữ liệu 1) 96 
Hình 3.7 Đồ thị ROC khi áp dụng dPCA với tập dữ liệu 5 (tập mẫu sạch) 98 
Hình 3.8 Đồ thị ROC (dPCA) sau khi khử ngoại lai lai (tập dữ liệu 5) 99 
Hình 4.1. Mạng nội bộ doanh nghiệp có kết nối ra Internet 105 
Hình 4.2. Kiến trúc tổng thể hệ thống giám sát 105 
Hình 4.3. Cấu trúc thiết bị trinh sát 106 
Hình 4.4. Hệ thống phần mềm trinh sát 108 
Hình 4.5. Một số sự kiện thu được tại trung tâm giám sát 110 
Hình 4.6. Mô hình kết hợp phát hiện bất thường và mẫu dấu hiệu 113 
xii 
DANH MỤC CÁC BẢNG 
Bảng A Các nguyên nhân điển hình gây ra lưu lượng bất thường 5 
Bảng 1.1. Một ví dụ về dữ liệu thuộc tính 12 
Bảng 2.1. Thuộc tính dùng trong thử nghiệm của tập dữ liệu Kyoto Honeypot 64 
Bảng 2.2. Các tập dữ liệu thử nghiệm cho dPCA1T và dPCA2T 65 
Bảng 2.3. Thử nghiệm dPCA1T với tập 1 68 
Bảng 2.4. Thử nghiệm dPCA1T với tập dữ liệu 2,3,4 70 
Bảng 2.5. Thử nghiệm dPCA1T với tập dữ liệu 5 76 
Bảng 2.6. Thử nghiệm dPCA2T với các tham số PC chủ yếu 79 
Bảng 2.7. Thử nghiệm dPCA2T với tập dữ liệu 1, 2, 3, 4, 5 80 
Bảng 3.1. Các tập dữ liệu thử nghiệm 92 
Bảng 3.2. Kết quả phát hiện ngoại lai bằng udPCA 93 
Bảng 3.3. Kết quả phát hiện ngoại lai bằng K-Means 93 
Bảng 3.4. Kết quả dPCA1T trước khi loại bỏ ngoại lai với tập dữ liệu 1 94 
Bảng 3.5. Kết quả dPCA1T sau khi loại bỏ ngoại lai với tập dữ liệu 1 94 
Bảng 3.6. Kết quả của dPCA1T sau khi khử ngoại lai với tập dữ liệu 2,3,4 96 
Bảng 3.7. Kết quả phát hiện của dPCA1T với tập dữ liệu mẫu sạch (tập 5) 98 
Bảng 3.8. Kết quả phát hiện của dPCA1T sau khi khử ngoại lai với tập 5 98 
Bảng 3.9. Kết quả của dPCA2T sau khi khử ngoại lai với tập 1, 2, 3, 4, 5 99 
Bảng 3.10. Kết quả phát hiện bất thường của udPCA 101 
Bảng 4.1. Thuộc tính dùng trong thử nghiệm của tập dữ liệu NSL-KDD 115 
Bảng 4.2. Kết quả phát hiện của dPCA1T với một số loại tấn công 117 
1 
MỞ ĐẦU 
1. Yêu cầu kiểm soát lƣu lƣợng mạng Internet 
Mạng Internet đã có sự phát triển vượt bậc trong những năm qua và trở thành nền 
tảng không thể thiếu được trong mọi lĩnh vực của đời sống. Về mặt công nghệ, mạng 
Internet dựa trên nền tảng mạng chuyển mạch gói sử dụng giao thức Internet Protocol 
(IP) ở lớp mạng. Hạ tầng mạng bao gồm nhiều loại công nghệ khác nhau như mạng 
Ethernet, mạng di động các thế hệ 2G/3G/4G,... Trên lớp mạng IP là vô số các dịch vụ 
và ứng dụng mạng đa dạng khác nhau. Hình A biểu thị sự phát triển đa dạng của hạ 
tầng và các dịch vụ/ứng dụng mạng trên cơ sở nền tảng một giao thức IP duy nhất. Lý 
do cơ bản nhất của kiến trúc này là tạo thành tính mở của Internet, cho phép kết nối 
mọi hạ tầng mạng, mọi liên kết chia sẻ dịch vụ/ứng dụng khi sử dụng IP. Điều này đã 
tạo điều kiện thuận lợi cho Internet phát triển mạnh mẽ trong những năm qua, tạo điều 
kiện cho các loại hình truyền thông người - người, người - máy, máy - người và mới 
đây nhất là giữa máy và máy. 
Hình A. Kiến trúc phân lớp của mạng IP. 
Tuy nhiên, chính tính mở và sự đa dạng về hạ tầng và dịch vụ/ứng dụng đã làm 
ch ...  Dương, Hoàng Đăng Hải (2016) “Phát hiện lưu lượng mạng bất 
thường trong điều kiện dữ liệu huấn luyện chứa ngoại lai,” Tạp chí Khoa học 
công nghệ thông tin và truyền thông, Học viện ưu chính viễn thông, Bộ Thông 
tin và Truyền thông, tập 1, số 1, tr.3-15. 
124 
TÀI LIỆU THAM KHẢO 
TIẾNG ANH 
[1] P. Aggarwal S. K. Sharma (2015), “Analysis of KDD Dataset Attributes - Class 
wise for Intrusion Detection,” in Proc. of 3rd International Conference on Recent 
Trends in Computing 2015 (ICRTC-2015), Procedia Computer Science, vol. 57, 
pp. 842-851. 
[2] L. Braun, G. Munz, G. Carle (2010), “Packet sampling for worm and botnet 
detection in TCP connections,” in Proc. of IEEE/IFIP Network Operations and 
Management Symposium (NOMS) 2010, Osaka, Japan. 
[3] S.Al-Haj Baddar, A.Merlo, M.Migliardi (2014), “Anomaly detection in computer 
networks: A state-of-the art review,” Journal of Wireless Mobile Networks, 
Ubiquitous Computing and Dependable Applications, Vol.5, No.4, pp.29-64. 
[4] V. Barnett, T. Lewis (1994), “Outlier in Statistic Data,” John Wiley, 3rd ed. 
[5] M.Bhuyan, D.Bhattacharyya, J.Kalita (2014),“Network anomaly detection: 
Methods, systems and tools,” IEEE Communications Surveys Tutorials, Vol.16, 
No.1, pp.303-336. 
[6] D. Brauckhoff (2010), Network Traffic Anomaly Detection and Evaluation, 
Doctoral dissertation, ETH ZURICH, ETH No. 18835. 
[7] D. Brauckhoff, K. Salamatian, M. May (2009),“Applying PCA for traffic 
anomaly detection: Problems and solutions,” in Proc. of IEEE Conference on 
Computer Communications (INFOCOM2009). 
[8] C. Callegari, L. Gazzarrini, S. Giordano, M. Pagano, and T. Pepe “A Novel 
PCA-Based Network Anomaly Detection,” in IEEE International Conference on 
Communications (ICC), pp. 1 – 5 Jun. 2011. 
[9] R. M. Carrion, J. Camacho, P. G. Teodoro (2015), "Multivariate statistical 
approach for anomaly detection and lost data recovery in wireless sensor 
networks," International Journal of Distributed Sensor Networks, Vol. 2015, 
No.123. 
[10] R. M. Carrion, J. Camacho, P. G. Teodoro (2016), "PCA-based multivariate 
statistical network monitoring for anomaly detection," Computers & Security, 
Vol. 59, pp.118-137. 
125 
[11] V. Chandola, A.Banerjee, V.Kumar, (2009). "Anomaly Detection: A Survey", 
ACM Computing Surveys, Vol.41, Issue 3, Article No. 15. 
[12] V. Chatzigiannakis, S. Papavassiliou, G. Androulidakis (2009), “Improving 
network anomaly detection effectiveness via an integrated multi-metric-multi-
link (M3L) PCA-based approach,” Security and Communication Networks, pp. 
289–304. 
[13] S. Chawla, A. Gionis (2013), “K-means: A unified approach to clustering and 
outlier detection,” in Proc. of the SIAM International Conference on Data 
Mining. 
[14] A. Das, S. Misra, S. Joshi, J. Zambreno, G. Memik, A. Choudhary (2008), “An 
Efficient FPGA Implementation of Principle Component Analysis based 
Network Intrusion Detection System,” in Proc. of Design, automation and test in 
Europe (DATE '08), pp. 1160-1165. 
[15] D. David (2011), “A performance analysis of Snort and Suricata Network 
Intrusion Detection and Prevention Engines. In Proc. of The Fifth International 
Conference on Digital Society (ICDS 2011), pp. 187-192. 
[16] J.J.Davis, A.J.Clark (2011), “Data preprocessing for anomaly based network 
intrusion detection: A review,” Computer & Security, Vol.30, No.6-7, pp.353-
375. 
[17] A. Delimargas, E. Skevakis, H. Halabian, H. I. Lambadaris (2015), “IPCA for 
network anomaly detection", IEEE MILCOM2015, pp. 617-622. 
[18] R.Dunia, S.Qin (1997), “Multidimensional fault diagnosis using a subspace 
approach,” in American Control Conference. 
[19] L. Ertoz, E. Eilertson, A. Lazarevic, P. Tan, V. Kumar, and J. Srivastava (2004), 
“The MINDS - Minnesota Intrusion Detection System,” Next Generation Data 
Mining, MIT Press. 
[20] G. Fernandes, J . Rodrigues, M. L. Proença (2015), “Autonomous profile-based 
anomaly detection system using principal component analysis and flow 
analysis,” Applied Soft Computing, Vol. 34, Issue C, pp. 513-525. 
[21] R. Fontugne, P. Borgnat, P. Abry, K. Fukuda (2010), “MAWILab: combining 
diverse anomaly detectors for automated anomaly labeling and performance 
benchmarking,” in Proc. of CoNEXT 2010, pp. 1-12. 
126 
[22] P. Garcıa-Teodoro, J.Dıaz-Verdejo, G. Macia-Fernandez (2009), E. Va´zquez, 
“Anomaly-based network intrusion detection: Techniques, systems and 
challenges,” Journal of Computers and Security, Vol.28 Ed 1-2, pp.18-28. 
[23] P. Gogoi, D. K. Bhattacharyya, B. Borah, and J. K. Kalita (2011), “A Survey of 
Outlier Detection Methods in Network Anomaly Identification,” Computer 
Journal, vol. 54, no. 4, pp. 570–588. 
[24] V.J. Hodge, J. Austin (2004), “A survey of oulier detection methodologies,” 
Artificial Intelligence Review, Vol. 22, Issue 2, pp. 85-126. 
[25] L. Huang, X. Nguyen, M. Garofalakis, J. M. Hellerstein , M. I. Jordan , A. D. 
Joseph , N. Taft (2007), “Communication-Efficient Online Detection of 
Network-Wide Anomalies,” in Proc of IEEE INFOCOM 2007, pp. 134 – 142. 
[26] B. Ingre, A. Yadav, Performance analysis of NSL-KDD dataset using ANN 
(2015), in Proc. of 2015 Signal Processing And Communication Engineering 
Systems (SPACES), pp. 92-96. 
[27] J. E. Jackson (1980), “Principal component and Factor Analysis: Part 1: Principal 
Components”, Journal of Quality Technology, vol. 12, pp. 201-213. 
[28] J. D. Jobson (1992), “Applied Multivariate Data Analysis, Volume II: 
Categorical and Multivariate Methods,” Springer texts in statistics, Spinger-
Verlag, NY. 
[29] I. T. Jolliffe (2002), "Principal Component Analysis", Springer Verlag, New 
York, 3
rd
 ed. 
[30] Y.Kanda, K.Fukuda, T.Sugawara (2010), “An evaluation of anomaly detection 
based on sketch and PCA”, in Proc. of Global Telecommunications Conference 
(GLOBECOM 2010), pp. 1-5. 
[31] M. Kim, H. Kong, S. Hong, S.Chung (2004), “A flow-based method for 
abnormal network traffic detection”, in Proc. of Network Operations and 
Management Symposium, pp. 599 - 612 Vol.1. 
[32] E. M. Knorr, R. T. Ng, V. Tucakov (2000), “Distance-based Outliers: 
Algorithms and Applications”, The International Journal on Very Large Data 
Bases , Vol. 8, No. 3-4, pp. 237-253. 
[33] A. Lakhina, M. Crowella C.Diot (2004), “Diagnosing network-wide traffic 
anomalies”, in Proc. of ACM SIGCOMM '04, pp.219-230. 
127 
[34] A. Lakhina, M. Crovella, C. Diot (2004), “Characterization of Network-Wide 
Anomalies in Traffic Flows”, in Proc. of The 4th ACM SIGCOMM conference on 
Internet measurement, pp.201-206. 
[35] A. Lakhina, M. Crovella, C. Diot (2005), “Mining Anomalies Using Traffic 
Feature Distributions”, in Proc. of the 2005 ACM SIGCOMM '05, pp.217-228. 
[36] A. Lakhina (2007), “Network Wide Traffic Analysis: Methods and 
Applications”, dissertation for the degree of Doctor of Philosophy, Boston 
University, UMI No. 3232904. 
[37] Y. Lee, Y. Yeh, Y. Wang (2013), “Anomaly detection via online oversampling 
Principle Component Analysis”, IEEE Trans. on Knowledge and Data 
Engineering, Vol.25, No.7, pp.1460-1470. 
[38] X.Li, F. Bian, M. Crovella, C. Diot, R. Govindan, G. Iannaccone, A. Lakhina 
(2006), “Detection and identification of network anomalies using sketch 
subspaces”, in Proc. of Internet Measurement Conference (IMC2006). 
[39] D. Liu, C. H. Lung ; N. Seddigh (2014), “Entropy-based robust PCA for 
communication network anomaly detection”, in IEEE/CIC International 
Conference on Communications in China (ICCC), pp. 171 – 175. 
[40] Y. Liu, L. Zhang, Y. Guan (2010), “Sketch-Based Streaming PCA Algorithm 
for Network-Wide Traffic Anomaly Detection”, Distributed Computing Systems 
(ICDCS), pp. 807 – 816. 
[41] J. MacQueen (1967), "Some methods for classification and analysis of 
multivariate observations", in Proc. of Fifth Berkeley Symp. on Math. Statist. and 
Prob., Vol. 1, pp. 281-297, Univ. of Calif. Press. 
[42] J. Mazel, R. Fontugne, K. Fukuda (2014), “A taxonomy of anomalies in 
backbone network traffic”, in Proc. of 5th International Workshop on TRaffic 
Analysis and Characterization (TRAC 2014), pp. 30–36. 
[43] G. Munz (2010), “Traffic Anomaly Detection and Cause Identification Using 
Flow-Level Measurements”, PhD thesis, Technische Universität München. 
[44] G. Munz, S. Li, G. Carle (2007), “Traffic Anomaly Detection Using K-Means 
Clustering,” in GI/ITG Workshop MMBnet, CiteSeerX. 
[45] S. Myers, John Musacchio, Ning Bao (2010), “Intrusion Detection Systems: A 
Feature and Capability Analysis”, Technical Reports, UCSC-SOE-10-12. 
128 
[46] D. T. Nguyen, G. Memik, A. Choudhary (2006), “A reconfigurable architecture 
for network intrusion detection using principal component analysis”, in Proc. of 
The 2006 ACM/SIGDA 14th international symposium on Field programmable 
gate arrays, pp. 235-235. 
[47] NetReflex System (Juniper) - 
services/network-edge-services/network-analytics/netreflex/ 
[48] S. Novakov, C.H. Lung, I. Lambadaris, N. Seddigh (2014), “A Hybrid 
Technique Using PCA and Wavelets in Network Traffic Anomaly Detection”, 
International Journal of Mobile Computing and Multimedia Communications, 
Vol. 6 No. 1, pp.17-53. 
[49] Principal Component Analysis, https://onlinecourses.science.psu.edu/stat505 
/node /49. 
[50] Principal Component Analysis, https://en.wikipedia.org/wiki/ Principal 
_component_ analysis. 
[51] I. Paredes-Oliva (2013), “Addressing Practical Challenges for Anomaly 
Detection in Backbone Networks”, Phd Dissertation in Computer Science, 
Universitat Polit`ecnica de Catalunya BarcelonaTech. 
[52] A. Patcha, J.M. Park (2007), “An Overview of Anomaly Detection Techniques: 
Existing Solutions and Latest Technological Trends”, The International Journal 
of Computer and Telecommunications Networking, Vol. 51 Issue 12, pp. 3448-
3470. 
[53] T. Quirino, Z. Xie, M. Shyu (2006), “Collateral Representative Subspace 
Projection Modeling for Supervised Classification”, in Proc. of 18th IEEE 
International Conference on Tools with Artificial Intelligence (ICTAI'06), pp. 98-
105. 
[54] K. H. Ramah, H. Ayari, F. Kamoun (2006), “Traffic Anomaly Detection and 
Characterization in the Tunisian National University Network”, in Networking 
2006, Vol. 3976, Springer Berlin Heidelberg, pp. 136-147. 
[55] C.R. Rao (1996), “Principal component and factor analyses,” Handbook of 
Statistics, Vol.14, pp. 489-505, Elsevier. 
[56] M. Roesch (1999), "Snort - Lightweight Intrusion Detection for Networks", in 
Proc. of 13th USENIX Conference on System Administration, pp. 229–238. 
129 
[57] H. Ringberg, A. Soule, J. Rexford, and C. Diot (2007). “Sensitivity of PCA for 
traffic anomaly detection, in Proc. of ACM SIG ETRICS ’07, pp. 109–120. 
[58] M.L. Shyu, S.C.Chen, K.Sarinnapakorn, L.W.Chang (2003), "A Novel Anomaly 
Detection Scheme Based on Principle Component Classifier", in Proc. of the 
IEEE foundation and New Directions of Data Mining Workshop (ICDM03), pp. 
172-179. 
[59] M.L. Shyu, S.C.Chen, K.Sarinnapakorn, L.W.Chang (2005), “Handling nominal 
features in anomaly intrusion detection problems, in 15
th
 International Workshop 
on Research Issues in Data Engineering: Stream Data Mining and Applications 
(RIDE-SDMA'05). 
[60] J. Song, H.Takakura, Y.Okabe. Description of Kyoto University Benchmark 
Data. 2006, pp. 1-3. ( kura.com/Kyoto data/BenchmarkData-
Description-v5.pdf). 
[61] J. Song, H. Takakura, Y. Okabe, M. Eto, D. Inoue, K. Nakao (2011), "Statistical 
Analysis of Honeypot Data and Building of Kyoto 2006+ Dataset for Nids 
Evaluation", in Proc. of the First Workshop on Building Analysis Datasets and 
Gathering Experience Returns for Security(ACM, 2011), pp. 29-36. 
[62] A. Sperotto, G. Schaffrath, R. Sadre, C. Morariu, A. Pras, and B. Stiller (2010), 
“An Overview of IP Flow-Based Intrusion Detection”, IEEE Commun. Surveys 
Tutorials, vol. 12, no. 3 , pp. 343–356. 
[63] N. Taft, K. Papagiannaki, M. Crovella, C. Diot, E. D. Kolaczyk, A. Lakhina 
(2004), “Structural analysis of network traffic flows,” in Proc. of The joint 
international conference on Measurement and modeling of computer systems 
(SIG ETRICS ’04), pp. 61–72. 
[64] M. Tavallaee, E. Bagheri, W. Lu, A.A. Ghorbani (2009), “A Detailed 
Analysis of the KDD CUP 99 Data Set”, in Proc. of IEEE Symposium on 
Computational Intelligence for Security and Defense Applications (CISDA2009), 
pp. 1-6. 
[65] H.Teng, K.Chen, S.Lu (1990), “Adaptive real-time anomaly detection using 
inductively generated sequential patterns”, in Proc. of IEEE Computer Society 
Symposium on Research in Security and Privacy, pp. 278-284. 
[66] The Cmulative Distribution Functions, STAT 414 - Continuous Random 
Variables: https://onlinecourses.science.psu.edu/stat414/node/98 
130 
[67] The Empirical CDF, STAT 464 - Applied Nonparametric Statistic: https:// 
onlinecourses.science.psu.edu/stat464/node/84 
[68] The NSL-KDD Dataset (2009)- 
NSL-KDD-dataset.html 
[69] The KDD cup dataset (1999),  
/kddcup99.html 
[70] C.Thomas, V. Sharma N. Balakrishnan (2008), “Usefulness of DARPA dataset 
for intrusion detection system evaluation”, in Proc. of The International Society 
for Optical Engineering. 
[71] M. Thottan, G. Liu, C. Ji (2010), “Anomaly Detection Approaches for 
Communication Networks”, in Algorithms for Next Generation Networks, G. 
Cormode, Ed. London: Springer, pp. 239-261. 
[72] W. Wang, R. Battiti (2006), “Identifying Intrusions in Computer Networks with 
Principal Component Analysis”, in Proc. of First IEEE International Conference 
on Availability, Reliability and Security (ARES 2006), IEEE press society, pp. 
270-277. 
[73] W. Wang, S. Gombault (2007), “Detecting masquerades with principal 
component analysis based on cross frequency weights”, in Proc. of 14th 
Anniversary HP-SUA Workshop, Munich, Germany, pp. 227-232. 
[74] W. Wang, X. Zhang, S. Gombault, S. J. Knapskog (2009), "Attribute 
Normalization in Network Intrusion Detection", in 10th International Symposium 
on Pervasive Systems, Algorithms and Networks (I-SPAN 2009), IEEE Press, 
pp. 448-453. 
[75] W. Wang, S. Gombault, T. Guyet (2008), “Towards fast detecting intrusions: 
using key attributes of network traffic”, in Proc. of The 3rd International 
Conference on Internet Monitoring and Protection (ICIMP '08), pp. 86-91. 
[76] D. J. Weller-Fahy, B. J. Borghetti, A. A. Sodemann (2015), “A Survey of 
Distance and Similarity Measures Used Within Network Intrusion Anomaly 
Detection”, IEEE Communication Surveys & Tutorials, Vol. 17, No. 1, pp.70-91. 
[77] Z. Xie, T. Quirino, M.-L. Shyu, S.-C. Chen, and L. Chang (2006), “A distributed 
agent-based approach to intru-sion detection using the lightweight PCC anomaly 
de-tection classier”, In Proc. of IEEE International Conference on Sensor 
Networks, Ubiquitous, and Trustworthy Com-puting (SUTC2006), pp. 446–453. 

File đính kèm:

  • pdfluan_an_nghien_cuu_de_xuat_phuong_phap_phan_tich_va_phat_hie.pdf
  • pdfTomTat Luan an TS NCS NH Dương.pdf
  • pdfTrang TT Luan an TS NCS NH Dương (TA).pdf
  • pdfTrang TT Luan an TS NCS NH Dương (TV).pdf