Tóm tắt Luận án Ứng dụng mạng nơron xây dựng thuật toán tự động phát hiện các trang web đánh cắp thông tin trên mạng (phishing)

Mục đích chung nghiên cứu của luận án là phân tích đối tượng, xác định cơ sở lý luận,

phát triển, thiết kế và xây dựng mô hình nơron mờ đáp ứng các hệ thống hoặc quá

trình có các đặc trưng ngõ vào không ổn định (chẳng hạn như, phát sinh thêm các đặc

trưng mới hoặc giảm bớt các đặc trưng hoặc vừa thêm vừa giảm các đặc trưng) và ứng

dụng xây dựng hệ thống tự động nhận dạng trang web phishing.

Đối tượng nghiên cứu chính là quá trình tự động nhận dạng trang web phishing. Để

phục vụ cho việc nghiên cứu đối tượng này, luận án cần phải nghiên cứu các vấn đề

sau: Mạng nơron, lý thuyết mờ, mạng nơrơn mờ, các trang web phishing, Web service

và Add-on trong trình duyệt web Firefox

pdf 36 trang dienloan 6520
Bạn đang xem 20 trang mẫu của tài liệu "Tóm tắt Luận án Ứng dụng mạng nơron xây dựng thuật toán tự động phát hiện các trang web đánh cắp thông tin trên mạng (phishing)", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Tóm tắt Luận án Ứng dụng mạng nơron xây dựng thuật toán tự động phát hiện các trang web đánh cắp thông tin trên mạng (phishing)

Tóm tắt Luận án Ứng dụng mạng nơron xây dựng thuật toán tự động phát hiện các trang web đánh cắp thông tin trên mạng (phishing)
 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ GIAO THÔNG VẬN TẢI 
TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI TP.HCM 
Nguyễn Lương Anh Tuấn 
 NG ỤNG MẠNG N RON X Y NG THUẬT 
TO N T ĐỘNG PHÁT HIỆN C C TRANG W 
Đ NH CẮP TH NG TIN TR N MẠNG 
(PHISHING) 
Chuyên Ngành: Kỹ thuật điều khiển và Tự động hóa 
Mã số: 62.52.02.16 
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT 
TP. HỒ CHÍ MINH – 2016 
Công trình được hoàn thành tại: Trường Đại học Giao thông vận tải TP.HCM 
Người hướng dẫn khoa học: PGS.TS Nguyễn Hữu Khương 
Phản biện 1: PGS.TS Phạm Ngọc Tiệp – Đại học Hàng hải Việt Nam. 
Phản biện 2: PGS.TS Nguyễn Thanh Phương – Đại học Công nghệ TP.HCM 
Phản biện 3: TS. Võ Công Phương - Đại học Giao thông vận tải TP.HCM 
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại: 
 ...................................................................................................................................... 
 ...................................................................................................................................... 
Trường Đại học Giao thông vận tải TP.HCM 
Vào lúc: giờ ngày tháng năm 
Có thể tìm hiểu luận án tại thư viện: 
- Thư viện Khoa học Tổng hợp Tp. HCM 
- Thư viện Trường Đại học Giao thông vận tải TP.HCM 
1 
CHƯ NG 1. GIỚI THIỆU 
1. Mục đích và đối tượng nghiên cứu của luận án 
Mục đích chung nghiên cứu của luận án là phân tích đối tượng, xác định cơ sở lý luận, 
phát triển, thiết kế và xây dựng mô hình nơron mờ đáp ứng các hệ thống hoặc quá 
trình có các đặc trưng ngõ vào không ổn định (chẳng hạn như, phát sinh thêm các đặc 
trưng mới hoặc giảm bớt các đặc trưng hoặc vừa thêm vừa giảm các đặc trưng) và ứng 
dụng xây dựng hệ thống tự động nhận dạng trang web phishing. 
Đối tượng nghiên cứu chính là quá trình tự động nhận dạng trang web phishing. Để 
phục vụ cho việc nghiên cứu đối tượng này, luận án cần phải nghiên cứu các vấn đề 
sau: Mạng nơron, lý thuyết mờ, mạng nơrơn mờ, các trang web phishing, Web service 
và Add-on trong trình duyệt web Firefox. 
2. Các phương pháp nghiên cứu đã sử dụng 
- Thu thập, phân tích, tổng hợp các tài liệu, các kết quả nghiên cứu của các tác giả 
khác đã công bố trong và ngoài nước liên quan đến luận án. 
- Nghiên cứu lý thuyết: Phân tích vấn đề nghiên cứu trên cơ sở lý thuyết về mạng 
nơron, logic mờ và mạng nơrơn mờ. Tìm hiểu và phân tích đối tượng nhận dạng là các 
trang web phishing. 
 - Nghiên cứu thực nghiệm: Thu thập tập mẫu, lập trình các thuật toán để thực nghiệm 
và biểu diễn kết quả nghiên cứu một cách trực quan. 
- So sánh phân tích kết quả nghiên cứu với những công trình liên quan khác. 
3. ố cục luận án 
Luận án bao gồm 7 chương được tổ chức thành 3 phần. Phần 1 giới thiệu tổng 
quan và cơ sở lý thuyết. Phần 2 trình bày các đóng góp của luận án. Phần 3 là kết luận 
chung và hướng phát triển. 
Phần 1 bao gồm 3 chương. Chương 1 giới thiệu tổng quan về luận án. Chương 2 
giới thiệu về mô hình mờ, mạng nơron và mô hình nơron mờ. Chương 3 giới thiệu về 
trang web giả mạo, các đặc trưng của trang web giả mạo (trang web phishing) và các 
công trình liên quan đến việc nhận dạng trang web phishing. 
Phần 2 bao gồm 3 chương. Chương 4 trình bày đề xuất các phương pháp tự động 
hóa quá trình nhận dạng trang web phishing dựa vào bộ điều khiển sử dụng mô hình 
nơron mờ cùng với các kết quả thực nghiệm được so sánh với các phương pháp đã 
công bố trước đây. Chương 5 trình bày đề xuất bộ điều khiển sử dụng các dạng mô 
hình nơron mờ tổng quan do luận án nghiên cứu và phát triển đề áp dụng cho các bài 
2 
toán nhận dạng khác nhau. Chương 6 trình bày hệ thống nhận dạng tự động trang web 
phishing trực tuyến là một hệ thống phần mềm add-on được nhúng vào trình duyệt 
web trên cơ sở kết quả nghiên cứu của luận án. 
Phần 3 trình bày những kết luận chung mà luận án đã đạt được và hướng phát 
triển của luận án. 
CHƯ NG 2. M HÌNH N RON MỜ NG ỤNG TRONG 
NHẬN ẠNG 
Trong chương 2 này, trình bày nghiên cứu tổng quan về lý thuyết mờ, mạng 
nơron và mạng nơron mờ lai được ứng dụng trong nhận dạng. 
CHƯ NG 3. GIỚI THIỆU PHISHING 
 “Phishing” được tạo ra bởi hai từ “Phreaking” và “fishing”, “Phreaking” được 
định nghĩa từ “Phone” và “breaking”, có nghĩa là lừa người khác để sử dụng điện 
thoại mà không phải trả phí. Do đó, phishing được hiểu là hành động “câu” những nạn 
nhân vào các trang web giả mạo để đánh cắp thông tin cá nhân như mật mã, tài khoản 
ngân hàng, thẻ tín dụng, v.v thông qua việc gửi email, gửi tin nhắn cho người dùng 
đưa ra yêu cầu “xác nhận thông tin” hay “cập nhật thông tin”, khi người dùng click 
vào liên kết trang web, trang web giả mạo có giao diện giống như trang web thật sẽ 
được mở ra làm người dùng không nghi ngờ gì và vẫn nhập các thông tin cá nhân của 
mình vào, sau đó, các thông tin cá nhân này sẽ được gửi đến email hay server của 
người tạo ra trang web giả mạo [24, 36]. 
Theo tổ chức APWG (Anti-Phishing Working Group) [22], Hình 3.1 trình bày 
báo cáo về số lượng trang web phishing của quý 1 năm 2014. 
Hình 3.1 - Số trang web phishing trong quý 1 năm 2014. 
Cách thức đánh lừa người dùng cơ bản nhất của các trang web phishing là sử 
dụng các liên kết (URL) gần giống với trang web thật và thiết kế giao diện trang web 
giả giống như trang web thật, thậm chí các đường liên kết bên trong nội dung sẽ dẫn 
đến trang web thật làm cho người dùng tin tưởng và không một chút nghi ngờ . 
3 
3.1 Các công trình liên quan 
Trong phần này, luận án bàn luận các phương pháp nhận dạng trang web 
phishing của các tác giả khác trên thế giới, đồng thời đánh giá ưu điểm và khuyết điểm 
của các phương pháp này. Sau đó, so sánh kết quả thực nghiệm của các phương pháp 
này với các phương pháp mới được đề xuất trong luận án. 
3.2 Đặc trưng của trang web phishing 
Trong phần này, luận án trình bày các loại đặc trưng hiện có của trang web 
phishing mà đa số các tác giả khác trên thế giới đang sử dụng để nhận dạng trang web 
phishing. Từ quá trình phân tích các đặc trưng này, luận án đóng góp các đặc trưng 
mới giúp nhận dạng trang web phishing hiệu quả hơn. 
3.3 Kết luận chương 3 
Hiện nay, kỹ thuật tạo một trang web có giao diện giống trang web khác rất dễ 
dàng, thậm chí có thể dùng các hình ảnh, video, âm thanh, v.v từ trang web thật để đưa 
vào trang web phishing. Vì vậy, nhận dạng trang web phishing dựa vào các đặc trưng 
nội dung sẽ không còn hiệu quả. 
Luận án tìm và đóng góp một số đặc trưng mới dựa vào địa chỉ web giúp cho việc 
nhận dạng rất hiệu quả, các đặc trưng mới này được trình bày cụ thể trong chương 4. 
Một số đặc trưng của trang web phishing đến nay không còn ý nghĩa nữa, các cá 
nhân hay tổ chức tạo ra các trang web phishing luôn luôn thay đổi để đánh lừa người 
dùng và tránh bị nhận dạng bởi các công cụ. Vì vậy, phương pháp nhận dạng trang web 
phishing phải đáp ứng với sự thay đổi đặc trưng sẽ là phương pháp hiệu quả và tổng quan. 
CHƯ NG 4. ĐỀ XUẤT C C PHƯ NG PH P T ĐỘNG HÓA 
QUÁ TRÌNH NHẬN ẠNG PHISHING 
Chương này trình bày các đóng góp chính của luận án. Trước tiên, luận án đề 
xuất một số đặc trưng mới hiệu quả cho việc nhận dạng phishing. Sau đó, luận án đề 
xuất năm phương pháp tự động hóa quá trình nhận dạng phishing và đồng thời sử dụng 
các đặc trưng mới được đề xuất để thực nghiệm các phương pháp này. Năm phương 
pháp nhận dạng được đề xuất trong luận án đó là: 
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng đặc trưng 
heuristic. 
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết mờ. 
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mạng 
nơron đơn lớp. 
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình 
nơron mờ 4 lớp không dùng tập luật If-Then. 
4 
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình 
nơron mờ 5 lớp không dùng tập luật If-Then, hàm liên thuộc được loại bỏ hết 
các tham số, thuật toán luyện mạng với tỷ lệ học thích nghi, các giá trị ngõ vào 
của mạng nơron được chuẩn hóa bằng cách sử dụng phần mờ của mô hình 
nơron mờ. 
Trong 5 phương pháp mà luận án đóng góp nêu trên thì phương pháp tự động 
nhận dạng phishing với bộ điều khiển sử dụng mô hình nơron mờ 5 lớp là mục tiêu 
chính đề ra trong luận án này. 
4.1 Các đặc trưng đề xuất trong luận án 
Trong các nghiên cứu trước đây của một vài tác giả cũng đã sử dụng đặc trưng 
của URL nhưng vẫn còn đóng vai trò thứ yếu [66]. Luận án đề xuất một số đặc trưng 
mới dựa vào URL kết hợp với chức năng tìm kiếm Suggestion của công cụ tìm kiếm 
mạnh nhất trên Internet hiện nay là Google. 
Trong luận án này, NCS đề xuất được 7 đặc trưng mới để nhận dạng trang web 
phishing hiệu quả đó là PrimaryDomain, SubDomain, PathDomain, AlexaRank, 
AlexaReputation, GoogleIndex, BackLink. 
4.2 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng đặc trưng 
heuristic 
Phương pháp này tính giá trị hệ thống bằng cách sử dụng giá trị các heuristic và 
các trọng số của chúng, sau đó dùng giá trị hệ thống này so sánh với ngưỡng nhận 
dạng trang web phishing được xác định bằng phương pháp thống kê và thừ sai để xác 
định trang web là trang web phishing hay là trang web thật. Mỗi heuristic là một đặc 
trưng được sử dụng cho hệ thống. Phương pháp này được trình bày trong các công 
trình của nghiên cứu sinh [CT8, CT9]. 
4.2.1 Mô hình hệ thống 
Mô hình hệ thống thực hiện qua 4 giai đoạn được trình bày trong hình 4.1. 
 Giai đoạn 1: Chọn các heuristic sử dụng cho hệ thống. 
 Giai đoạn 2: Tính giá trị cho từng heuristic. 
 Giai đoạn 3: Tính giá trị của hệ thống (vs – value of system). 
Trong giai đoạn 3 này, giá trị hệ thống được tính theo công thức (4.1) 
1
*
N
i i
i
vs V W (4.1) 
Ở đây, Vi là giá trị từng heuristic được tính trong giai đoạn 2 và Wi là trọng số 
cho từng heuristic. Các trọng số Wi được xác định dựa vào kinh nghiệm của chuyên 
gia hoặc khai thác dữ liệu trên tập dữ liệu huấn luyện. 
5 
Hình 4.1 - Mô hình hệ thống của phương pháp tự động nhận dạng phishing với bộ điều 
khiển sử dụng đặc trưng heuristic. 
 Giai đoạn 4: So sánh giá trị hệ thống vs với ngưỡng nhận dạng trang web 
phishing. Hệ thống so sánh giá trị vs với ngưỡng nhận dạng trang web phishing 
(ngưỡng nhận dạng trang web phishing được xác định trong quá trình thực nghiệm) 
để quyết định trang web là phishing hay không, thuật toán được thực hiện như trình 
bày trong hình 4.2. Giá trị ngưỡng được xác định dựa vào tập mẫu. 
Hình 4.2 - Thuật toán xác định kết quả nhận dạng theo ngưỡng. 
4.2.2. Thực nghiệm 
4.2.2.1 Dữ liệu thực nghiệm 
Dữ liệu thực nghiệm trong nghiên cứu này được nghiên cứu sinh tập hợp 11.660 
trang web phishing từ Phishtank [75] và 5.000 trang web thật từ DMOZ [33]. Quá trình 
thực nghiệm được thực hiện trên phần mềm lập trình bằng ngôn ngữ PHP và tập dữ liệu 
được quản lý bằng hệ quản trị cơ sở dữ liệu MYSQL. 
4.2.2.2 Kết quả thực nghiệm 
Kết quả thực nghiệm được đánh giá theo hai phương pháp đó là sai số RMSE 
(Root Mean Square Error – sai số bình phương trung bình) và theo ROC (Receiver 
Operating Characteristics), sau đó được so sánh với phương pháp khác. 
 Kết quả thực nghiệm được đánh giá theo sai số RMSE 
Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính 
xác là 97,161%. 
If vs < ngưỡng then 
“Trang web phishing ” 
else 
“Trang web thật” 
End if 
6 
 Kết quả thực nghiệm được đánh giá theo sai số ROC 
Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.1. 
Bảng 4.1 - Kết quả tỷ lệ nhận dạng theo ROC của phương pháp tự động nhận dạng 
phishing với bộ điều khiển sử dụng đặc trưng heuristic. 
Tập dữ liệu 
kiểm tra 
Tỷ lệ 
“True 
Positive” 
Tỷ lệ 
“False 
Positive” 
Tỷ lệ 
“True 
Negative” 
Tỷ lệ 
“False 
Negative” 
Tỷ lệ 
trung 
bình 
1 97,10% 2,80% 97,20% 2,90% 97,15% 
2 97,81% 1,71% 98,29% 2,19% 98,05% 
3 96,54% 2,23% 97,77% 3,46% 97,15% 
4 97,69% 2,88% 97,12% 2,31% 97,40% 
5 95,63% 1,55% 98,45% 4,37% 97,00% 
Để đánh giá hiệu quả nhận dạng ở các mức độ kém, khá hay tốt, trong luận án sử 
dụng đồ thị ROC được mô tả trong hình 4.3. 
Hình 4.3 - Đánh giá kết quả các tỷ lệ theo ROC. 
 So sánh kết quả thực nghiệm với phương pháp [82] 
Từ kết quả nhận dạng của các phương pháp được biểu diễn thông qua đồ thị 
ROC trong hình 4.4 và 4.5, chúng ta nhận thấy hiệu quả nhận dạng của phương pháp 
[82] kém hơn phương pháp sử dụng đặc trưng heuristic. 
7 
Hình 4.4 - Đồ thị ROC so sánh tỷ lệ nhận dạng trang web phishing giữa phương pháp tự 
động nhận dạng với bộ điều khiển sử dụng đặc trưng heuristic và phương pháp [82]. 
Hình 4.5 - Đồ thị ROC so sánh tỷ lệ nhận dạng trang web thật giữa phương pháp tự 
động nhận dạng với bộ điều khiển sử dụng đặc trưng heuristic và phương pháp [82]. 
4.2.3 Thảo luận 
Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng các đặc 
trưng heuristic mặc dù tính toán đơn giản, tốc độ tính toán nhanh, thuật toán dễ cài đặt 
với độ phức tạp thuật toán O(n) nhưng hiệu quả khá tốt với tỷ lệ nhận dạng đúng 
khoảng 97% và tỷ lệ nhận dạng sai khoảng 3%. Hơn nữa, khi thực nghiệm nhận dạng 
online mặc dù ảnh hưởng bởi nhiều yếu tố như tốc độ đường truyền Internet, thời gian 
truy xuất của các API, v.v nhưng thời gian nhận dạng chưa đến một giây đáp ứng được 
yêu cầu thời gian thực của hệ thống online. Tuy nhiên, phương pháp này cũng còn tồn 
tại một vài khuyết điểm cần nghiên cứu và phát triển thêm đó là vấn đề xác định trọng 
số của các đặc trưng và ngưỡng nhận dạng trang web phishing dựa vào phương pháp 
thử sai và phụ thuộc vào kinh nghiệm của chuyên gia hoặc phụ thuộc vào việc khai thác 
tập dữ liệu mẫu. 
4.3 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết 
mờ 
Theo lý thuyết mờ, các bộ điều khiển mờ thông thường phải có các khối như sau: 
khối mờ hóa, khối luật suy diễn, khối tổng hợp luật và khối giải mờ. Tuy nhiên, trong 
phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết mờ này, 
nghiên cứu sinh đã kết hợp hai khối mờ hóa và khối luật suy diễn thành một khối bằng 
8 
cách sử dụng hàm liên thuộc để xác định mức độ thuộc của từng đặc trưng vào trực tiếp 
tập kết quả KQ bao gồm Phishing và Legitimate (trong đó Phishing là trang web phishing 
và Legitimate là trang web thật). Do đó, phương pháp này không cần xây dựng khối luật 
suy diễn If-Then vẫn xác định được mức độ thuộc vào tập kết quả KQ dựa vào giá trị mờ 
của từng đặc trưng. Mỗi đặc trưng có 2 biến ngôn ngữ là Phishing và Legitimate, mỗi biến 
ngôn ngữ có một hàm liên thuộc để tính giá trị mờ. Kế tiếp, nghiên cứu sinh xây dựng 
khối tổng hợp mức độ thuộc của tất cả đặc trưng đối với kết quả là Phishing và tổng hợp 
mức độ thuộc của tất cả đặc trưng đối với kết quả là Legitimate. Sau cùng, so sánh giá trị 
của 2 mức độ thuộc tổng hợp này để xác định trang web đó là trang web phishing hay là 
trang web thật. Phương pháp này cũng không dùng khối giải mờ vì mục đích của kết quả 
nhận dạng là trang web ph ...  tiến và lan truyền ngược được thể hiện trong hình 
4.24. 
4.6.4 Thực nghiệm 
4.6.4.1 Dữ liệu thực nghiệm 
Giống phần 4.2.2.1 
4.6.4.2 Kết quả thực nghiệm 
 Kết quả thực nghiệm được đánh giá theo sai số RMSE 
Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính 
xác là 99,30%. 
 Kết quả thực nghiệm được đánh giá theo ROC 
Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.5. 
24 
Bảng 4.5 – Kết quả tỷ lệ nhận dạng theo ROC của phương pháp nơron mờ 5 lớp 
Tập dữ liệu 
kiểm tra 
Tỷ lệ 
“True 
Positive” 
Tỷ lệ 
“False 
Positive” 
Tỷ lệ 
“True 
Negative” 
Tỷ lệ 
“False 
Negative” 
Tỷ ệ trung 
bình 
1 99,42% 0,66% 99,34% 0,58% 99,38% 
2 99,20% 0,60% 99,40% 0,80% 99,30% 
3 99,24% 0,62% 99,38% 0,76% 99,31% 
4 99,22% 0,74% 99,26% 0,78% 99,24% 
5 99,46% 0,68% 99,32% 0,54% 99,39% 
 So sánh kết quả thực nghiệm với các phương pháp khác 
Trong phần này sử dụng 100 tập dữ liệu kiểm tra phát sinh ngẫu nhiên, kết quả 
thực nghiệm của các phương pháp được so sánh với nhau và được mô tả trong hình 4.23. 
Hình 4.23 - So sánh kết quả thực nghiệm giữa phương pháp tự động nhận dạng phishing 
với bộ điều khiển sử dụng mô hình nơron mờ 5 lớp với các phương pháp khác. 
4.6.5 Thảo luận 
Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình 
nơron mờ 5 lớp không dựa vào tập luật If-Then nhằm mục đích ứng dụng cho các hệ 
thống có đặc trưng ngõ vào không ổn định và không phụ thuộc tri thức của chuyên gia 
xây dựng tập luật If-Then. Quá trình luyện mạng của phương pháp này được thực hiện 
off-line, còn quá trình nhận dạng thực hiện online với tính toán đơn giản, tốc độ tính 
toán nhanh với độ phức tạp thuật toán O(n), hiệu quả khá tốt với tỷ lệ nhận dạng đúng 
khoảng 99,3% và tỷ lệ nhận dạng sai khoảng 0,7%. Hơn nữa, khi thực nghiệm nhận 
dạng online mặc dù ảnh hưởng bởi nhiều yếu tố như tốc độ đường truyền Internet, thời 
gian truy xuất của các API, v.v nhưng thời gian nhận dạng chưa đến 2 giây. Tuy nhiên, 
phương pháp này cũng còn một số điểm cần phát triển để hoàn thiện hơn: 
25 
- Cải tiến thuật toán luyện mạng tối ưu hơn nhằm tăng hiệu quả của mạng. 
- Mở rộng mô hình sao cho có thể sử dụng nhiều biến ngôn ngữ hơn. 
- Phát triển thành mô hình ứng dụng cho nhiều bài toán nhận dạng khác nhau. 
 Hình 4.25 - Thuật toán luyện mạng của phương pháp tự động nhận dạng phishing với 
bộ điều khiển sử dụng mô hình nơron mờ 5 lớp. 
Khởi tạo trọng số và tham số bias 
Trích các đặc trưng trong tập dữ liệu huấn luyện và tính 
giá trị cho các đặc trưng trong lớp 1 
Tính giá trị mờ cho các đặc trưng trong lớp 2 
Tính giá trị cho 2 nút lớp 3 
Chuẩn hóa giá trị cho 2 nút trong lớp 4 
Tính lỗi hệ thống 
Lỗi hệ thống <= 
Ngưỡng hoặc vòng 
lặp kết thúc 
Kết thúc luyện mạng 
Cập nhật trọng số 
và tham số bias 
Chưa 
Có 
Tính giá trị nhập và xuất cho nút xuất 
Tính lỗi cho nút xuất 
26 
4.7 Kết luận chương 4 
Trong chương này, nghiên cứu sinh trình bày các phương pháp theo thứ tự phát 
triển dần trong quá trình nghiên cứu để đạt được mô hình nơron mờ 5 lớp như mục 
tiêu luận án đề ra. Mô hình này có nhiều ưu điểm như đã trình bày ở trên, tuy nhiên đó 
không phải là mô hình hoàn hảo vì các yếu tố sau đây : 
- Khi các đặc trưng ngõ vào thay đổi, thì cần phải luyện lại mạng để đảm bảo 
hiệu quả nhận dạng, nhưng đây không là khuyết điểm lớn vì việc thực hiện 
luyện mạng là off-line. 
- Các giá trị đặc trưng ngõ vào cần qua bước tiền xử lý thành giá trị trong đoạn 
[0,1] thì mới có thể được đưa vào mô hình nơron mờ 5. 
Từ kết quả nghiên cứu và thực nghiệm mô hình nơron mờ 5 lớp ứng dụng cho 
bài toán nhận dạng phishing, nghiên cứu sinh đề xuất mô hình tổng quan ứng dụng cho 
nhiều bài toán nhận dạng khác nhau, mô hình tổng quan này được trình bày ở chương 5. 
CHƯ NG 5. ĐỀ XUẤT Ộ ĐIỀU KHIỂN SỬ ỤNG CÁC 
 ẠNG M HÌNH N RON MỜ NG ỤNG CHO NHIỀU ÀI 
TOÁN NHẬN ẠNG KHÁC NHAU 
Từ mô hình nơron mờ 5 lớp trong phương pháp tự động nhận dạng được trình 
bày ở phần 4.6 của chương 4, luận án đề xuất 4 dạng bộ điều khiển sử dụng mô hình 
nơron mờ tổng quan không dựa vào tập luật If-Then để ứng dụng cho nhiều bài toán 
nhận dạng khác nhau. 
5.1 ộ điều khiển sử dụng mô hình nơron mờ dạng 1 (Type-I) 
Mô hình này được mô tả trong hình 5.1. Mô hình này bao gồm 5 lớp và được tổ 
chức như sau: 
Hình 5.1 - Mô hình nơron mờ dạng 1 (Type –I). 
27 
5.2 ộ điều khiển sử dụng mô hình nơron mờ dạng 2 (Type-II) 
Mô hình này cũng bao gồm 5 lớp được mô tả trong hình 5.2. 
Hình 5.2 - Mô hình nơron mờ dạng 2 (Type-II). 
5.3 ộ điều khiển sử dụng mô hình nơron mờ dạng 3 (Type-III) 
Mô hình này cũng bao gồm 5 lớp được mô tả trong hình 5.3. 
Hình 5.3 - Mô hình nơron mờ dạng 3 (Type- III). 
28 
5.4 ộ điều khiển sử dụng mô hình dạng 4 (Type-IV) 
Mô hình này cũng bao gồm 5 lớp được mô tả trong hình 5.4. 
Hình 5.4 - Mô hình noron mờ dạng 4 (Type-IV). 
5.5. Kết luận chương 5 
Những bài toán nhận dạng cho từng dạng của mô hình trong chương 5 này sẽ 
được mở rộng nghiên cứu sau này, trong phạm vi của luận án nghiên cứu sinh không 
trình bày chi tiết ở đây. 
CHƯ NG 6. HỆ THỐNG T ĐỘNG NHẬN ẠNG PHISHING 
TR C TUYẾN A VÀO Ộ ĐIỀU KHIỂN SỬ ỤNG MÔ 
HÌNH N RON MỜ 5 LỚP 
Hệ thống tự động nhận dạng trang web phishing trực tuyến xây dựng dựa trên bộ 
điều khiển sử dụng mô hình nơron mờ 5 lớp được đề xuất trong luận án [C12]. 
Chương này trình bày chi tiết hoạt động của hệ thống cũng như kết quả thực nghiệm 
thực tế. 
29 
Trình duyệt web Add-on 
Web 
Service 
URL 
URL 
Kết quả nhận 
dạng 
Điều khiển 
6.1 Thiết kế mô hình tổng quan hệ thống 
Với mục tiêu được đề ra của luận án là xây dựng một hệ thống phần mềm trực 
tuyến được nhúng vào trình duyệt web và để điều khiển trình duyệt web dựa vào kết 
quả nhận dạng trang web phishing. Do vậy, để đáp ứng đúng mục tiêu được đề ra, mô 
hình tổng quan của hệ thống ứng dụng tự động nhận dạng trang web phishing trực 
tuyến được cấu trúc như trong hình 6.1. 
Hình 6.1 - Mô hình tổng quan của hệ thống. 
6.2 Thiết kế chi tiết mô hình hệ thống 
6.2.1 Phần Add-on 
Mô hình hoạt động chi tiết của phần mềm Add-on được trình bày trong hình 6.2. 
Hình 6.2 - Mô hình hoạt động của Add-on. 
Danh sách 
Whitelist 
Điều khiển trình duyệt cho 
xem trang web 
Danh sách 
Blacklist 
Có trong 
danh sách 
Không có trong 
danh sách 
Điều khiển trình duyệt cảnh 
báo trang web phishing 
Nhận URL từ trình duyệt 
Có trong 
danh sách 
Không có trong 
danh sách 
Chuyển URL cho Web Service 
30 
6.2.2 Phần Web Service 
Cấu trúc hoạt động của phần Web Service trong hệ thống được trình bày trong 
hình 6.3. 
Hình 6.3 - Mô hình hoạt động của Web Service. 
Bộ điều khiển sử dụng mô hình nơron mờ 5 lớp trong phần Web Service bao 
gồm hai bộ phận đó là bộ phận luyện mạng off-line và bộ phận kiểm tra nhận dạng 
online. Bộ phận luyện mạng được chạy off-line khi có nhu cầu cần thiết, bộ phận kiểm 
tra nhận dạng được chạy online (trực tuyến) khi nhận được URL từ Add-on truyền đến. 
6.3 Kết quả thực nghiệm 
Từ kết quả của bảng 6.1, chúng ta nhận thấy tỷ lệ nhận dạng chính xác khoảng 
99,14% và tỷ lệ nhận dạng sai khoảng 0,86%. 
Bảng 6.1 - Kết quả các tỷ lệ nhận dạng. 
Bộ dữ liệu 
Tỷ lệ “True 
Positive” 
Tỷ lệ 
“False 
Positive” 
Tỷ lệ “True 
Negative” 
Tỷ lệ 
“False 
Negative” 
Tỷ lệ 
trung 
bình 
1 99.20% 0.60% 99.40% 0.80% 99.30% 
2 99.60% 1.39% 98.61% 0.40% 99.10% 
3 98.62% 0.00% 100.00% 1.38% 99.30% 
4 99.80% 0.20% 99.80% 0.20% 99.80% 
5 100.00% 0.60% 99.40% 0.00% 99.70% 
6 99.60% 0.80% 99.20% 0.40% 99.40% 
7 99.40% 0.20% 99.80% 0.60% 99.60% 
Quá trình tiền xử lý 
Bộ điều khiển sử dụng mô hình 
nơron mờ 5 lớp Kết quả nhận dạng trang web 
Add-on điều khiển trình 
duyệt web 
Nhận URL từ Add-on 
31 
Bộ dữ liệu 
Tỷ lệ “True 
Positive” 
Tỷ lệ 
“False 
Positive” 
Tỷ lệ “True 
Negative” 
Tỷ lệ 
“False 
Negative” 
Tỷ lệ 
trung 
bình 
8 98.39% 1.99% 98.01% 1.61% 98.20% 
9 99.19% 1.59% 98.41% 0.81% 98.80% 
10 98.59% 2.18% 97.82% 1.41% 98.20% 
Tỷ lệ trung bình 99.24% 0.95% 99.05% 0.76% 99.14% 
KẾT LUẬN 
1.Luận án đề xuất được các đặc trưng mới để nhận dạng trang web phishing hiệu quả, 
đồng thời xây dựng các thuật toán tổng quan tiền xử lý giá trị cho các đặc trưng. 
2. Thiết kế các thuật toán cho 3 phương pháp nhận dạng phishing đó là phương pháp 
nhận dạng sử dụng heuristic, phương pháp nhận dạng sử dụng lý thuyết mờ và phương 
pháp nhận dạng sử dụng mạng nơron. Cả 3 phương pháp này mang lại hiệu quả tốt và 
làm tiền đề để xây dựng các mô hình nơron mờ. 
3. Luận án đề xuất bộ điều khiển sử dụng mô hình nơron mờ 4 lớp không dựa vào tập 
luật với nhiều cách sử dụng hàm liên thuộc khác nhau. Trong mô hình này, phần đầu là 
khối mô hình mờ và phần sau là khối mạng nơron 3 lớp, ngõ vào của mạng nơron này 
là các giá trị mờ được tính thông qua khối mô hình mờ, kết quả xuất của mạng nơron 
chính là kết quả của mô hình này dùng để nhận dạng. 
4. Dựa trên nền tảng bộ điều khiển sử dụng mô hình nơron mờ 4 lớp, nghiên cứu sinh 
xây dựng bộ điều khiển sử dụng mô hình nơron mờ 5 lớp không dựa vào tập luật và 
loại bỏ các tham số của hàm liên thuộc. Mô hình nơron mờ 5 lớp này có 4 dạng khác 
nhau để có thể ứng dụng cho các bài toán nhận dạng tổng quát khác nhau, tùy vào yêu 
cầu phân tích từng bài toán mà chúng ta chọn dạng mô hình nơron mờ 5 lớp thích hợp 
để ứng dụng. Cấu trúc mô hình nơron mờ 5 lớp này bao gồm hai khối: phần đầu là 
khối mô hình mờ, phần sau là khối mạng nơron đơn lớp. Ngõ vào của mạng norơn đơn 
lớp là các giá trị mờ được tính thông qua khối mô hình mờ giúp cho quá trình luyện 
mạng nhanh hội tụ và hiệu quả hơn. Thuật toán luyện mạng là thuật toán lan truyền 
ngược sai số với tỷ lệ học thích nghi. Kết quả xuất của mạng nơron cũng chính là kết 
quả của mô hình này dùng để nhận dạng. 
32 
5. Luận án xây dựng một hệ thống nhận dạng tự động trang web phishing trực tuyến 
để điều khiển trình duyệt web hỗ trợ người dùng tránh được các trang web phishing. 
Hệ thống này là một phần mềm dạng Add-on được nhúng vào trình duyệt web. Hệ 
thống hoạt động như sau: Khi người dùng nhập vào địa chỉ một trang web để xem, hệ 
thống sẽ truyền địa chỉ trang web này xuống Web Service, Web Service chứa mô hình 
nơron mờ do luận án đề xuất, mô hình nơron mờ này nhận dạng trang web có phải là 
trang web phishing hay không và trả kết quả về cho Add-on để điều khiển trình duyệt 
web. 
6. Một số bài báo quốc tế của các tác giả khác [35, 55, 58] đã trích dẫn các công trình 
đã được công bố của nghiên cứu sinh. 
Từ những nghiên cứu và kết quả đã đạt được của luận án này, nghiên cứu sinh đề 
nghị một số hướng nghiên cứu tiếp theo như sau: 
1. Nghiên cứu và đề xuất giải pháp xác định ngưỡng phù hợp với mô hình. 
2. Nghiên cứu cải tiến và đề xuất thuật toán luyện mạng mới phù hợp với mô hình 
5 lớp nhằm tăng hiệu quả quá trình luyện mạng. 
3. Vì Google ngày càng có nhiều thông tin nhiễu dẫn đến kết quả nhận dạng sai. 
Do đó, nghiên cứu sinh sẽ xây dựng công cụ tương tự Google_Suggestion để 
phục vụ cho mô hình trong luận án. 
4. Nghiên cứu triển khai các mô hình nơron mờ dạng 2, 3, và 4 ở chương 5 vào 
các bài toán nhận dạng thực tế. 
DANH MỤC C C C NG TRÌNH ĐÃ C NG Ố 
1. TẠP CHÍ VÀ HỘI NGHỊ QUỐC TẾ 
[CT1] L. A. T. Nguyen, H. K. Nguyen (2105), “Phishing Identification: An Efficient 
Neuro-Fuzzy Model Without Using Rule Sets”, The 10th Asian Control Conference 
2015 (ASCC 2015 – IEEE Control Conference), pp.1-6, DOI: 
10.1109/ASCC.2015.7244631, 31st May - 3rd June, 2015, Kota Kinabalu, Sabah, 
Malaysia. 
[CT2] L. A. T. Nguyen, H. K. Nguyen (2015), “Developing An Efficient Fuzzy Model for 
Phishing Identification”, The 10th Asian Control Conference 2015 (ASCC 2015 - 
IEEE Control Conference), pp.1-6, DOI: 10.1109/ASCC.2015.7244834, 31st May - 
3rd June, 2015, Kota Kinabalu, Sabah, Malaysia. 
[CT3] L. A. T. Nguyen, H. K. Nguyen, B. L. To (2015), “An Efficient Approach Based 
on Neuro-Fuzzy for Phishing Detection”, Journal of Automation and Control 
Engineering, Vol. 4, No. 2, pp. 159-165, ISSN: 2301-3702, doi: 
10.12720/joace.4.2.159-165, USA, Selected paper from The 3rd International 
Conference on Intelligent and Automation Systems (ICIAS), 6-7 February, 2015, 
Ho Chi Minh City, Vietnam. 
[CT4] L. A. T. Nguyen, B. L. To, H. K. Nguyen (2015), “An Efficient Approach for 
Phishing Detection Using Neuro-Fuzzy Model”, Journal of Automation and Control 
Engineering, Vol. 3, No. 6, pp. 519-525, ISSN: 2301-3702. doi: 
10.12720/joace.3.6.519-525, USA, Selected paper from The 7th International 
Conference on Computer and Automation Engineering (ICCAE), 5-6 January, 
2015, Bali, Indonesia. 
[CT5] L. A. T. Nguyen, B. L. To, H. K. Nguyen, C. Pham and C.S Hong (2014), “A 
Novel Neuro-Fuzzy Approach for Phishing Identification”, The 2014 IEEE 
International Conference on Control, Automation and Information Sciences 
(ICCAIS), pp.188-193 , 2-5 December, 2014, Gwangju, Korea. 
[CT6] L. A. T. Nguyen, B. L. To, H. K. Nguyen, and M. H. Nguyen (2014), “An 
Efficient Approach for Phishing Detection Using Single-Layer Neural Network”, 
The 7th IEEE International Conference on Advanced Technologies for 
Communications (ATC), pp 435-440, 15-17 October, 2014, Ha noi, Vietnam. 
[CT7] B. L. To, L. A. T. Nguyen, H. K. Nguyen, and M. H. Nguyen (2014), “A Novel 
Fuzzy Approach for Phishing Detection”, The Fifth IEEE International Conference 
on Communications and Electronics (ICCE). pp. 530-535, July 30th - August 1st, 
2014, Da nang, Vietnam. 
[CT8] L. A. T. Nguyen, B. L. To, H. K. Nguyen, and M. H. Nguyen (2014), “A novel 
approach for phishing detection using url-based heuristic”, The 2014 IEEE 
International Conference on Computing, Management and Telecommunications 
(ComManTel), pp. 298–303, 27-29 April, 2014, Da nang, Vietnam. 
[CT9] L. A. T. Nguyen, B. L. To, H. K. Nguyen, and M. H. Nguyen (2013), “Detecting 
Phishing Web Sites: A Heuristic URL-Based Approach”, The 6th IEEE 
International Conference on Advanced Technologies for Communications (ATC), 
pp. 597–602, 16-18 October, 2013, Ho Chi Minh City, Vietnam. 
2. TẠP CHÍ VÀ HỘI NGHỊ TRONG NƯỚC 
[CT10]Nguyễn Lương Anh Tuấn, Nguyễn Hữu Khương (2014), “Phát hiện Phishing 
dùng mạng nơron Perceptron”, Tạp chí khoa học công nghệ giao thông, Số 10-
02/2014, ISSN: 1859-4263, trang 11-15. 
[CT11]Nguyễn Lương Anh Tuấn, Nguyễn Hữu Khương (2014), “Thiết kế mạng nơron 
tự động phát hiện trang web phishing”, 2014 National Conference on Electronics, 
Communications and Information Technology (REV-ECIT 2014), ISBN: 978-604-
67-0349-5, pp. 274-278, 18-19 September, 2014, Nha Trang, Vietnam. 
3. ĐỀ TÀI NGHIÊN C U KHOA HỌC 
[CT12]Nguyễn Lương Anh Tuấn, Chủ nhiệm đề tài nghiên cứu khoa học cấp trường 
“Xây dựng hệ thống tự động cảnh báo trang web giả mạo, độc hại”, Mã số: 
KH1406, đã nghiệm thu đạt loại tốt vào tháng 8 năm 2015. Đơn vị chủ trì: Đại học 
GTVT TP.HCM. 

File đính kèm:

  • pdftom_tat_luan_an_ung_dung_mang_noron_xay_dung_thuat_toan_tu_d.pdf