Phân loại lớp phủ từ dữ liệu ảnh vệ tinh dựa trên phương pháp phân cụm phổ

Tóm tắt: Phân cụm ảnh là tìm ra các cấu trúc nhóm có những đặc tính tương

đồng để tạo thành cụm. Có nhiều phương pháp phân cụm khác nhau nhưng hầu hết

đều cùng chiến lược là dựa vào sự khác nhau về màu sắc để phân chia các điểm

ảnh về các cụm. Do tính chất phức tạp của dữ liệu ảnh vệ tinh là thông tin trên ảnh

thường bị chồng lấp nhau và hình dạng phức tạp của các đối tượng trên ảnh, do đó,

việc sử dụng các phương pháp truyền thống như tổ hợp màu, phân ngưỡng, có ưu

điểm dễ cài đặt nhưng có độ chính xác thấp. Phân cụm phổ là phương pháp phân

cụm dựa trên lý thuyết về đồ thị, có khả năng phân loại tốt các dữ liệu mà có cấu

trúc và hình dạng phức tạp như dữ liệu trên ảnh vệ tinh. Do yêu cầu tác chiến hiện

nay, người chỉ huy cần phải có những thông tin tức thời về hình thái khu vực tác

chiến để có phương án bố trí công sự, trận địa hợp lý. Bài báo giải quyết vấn đề

phân loại nhanh lớp phủ ảnh vệ tinh dựa trên phương pháp phân cụm phổ phục vụ

công tác ngụy trang.

Từ khóa: Phân cụm phổ, Ảnh vệ tinh, Fuzzy c-means, Phân loại lớp phủ.

pdf 9 trang Bích Ngọc 04/01/2024 1780
Bạn đang xem tài liệu "Phân loại lớp phủ từ dữ liệu ảnh vệ tinh dựa trên phương pháp phân cụm phổ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phân loại lớp phủ từ dữ liệu ảnh vệ tinh dựa trên phương pháp phân cụm phổ

Phân loại lớp phủ từ dữ liệu ảnh vệ tinh dựa trên phương pháp phân cụm phổ
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 153
PHÂN LOẠI LỚP PHỦ TỪ DỮ LIỆU ẢNH VỆ TINH 
DỰA TRÊN PHƯƠNG PHÁP PHÂN CỤM PHỔ 
Mai Đình Sinh1*, Đinh Văn Hội2,3 
Tóm tắt: Phân cụm ảnh là tìm ra các cấu trúc nhóm có những đặc tính tương 
đồng để tạo thành cụm. Có nhiều phương pháp phân cụm khác nhau nhưng hầu hết 
đều cùng chiến lược là dựa vào sự khác nhau về màu sắc để phân chia các điểm 
ảnh về các cụm. Do tính chất phức tạp của dữ liệu ảnh vệ tinh là thông tin trên ảnh 
thường bị chồng lấp nhau và hình dạng phức tạp của các đối tượng trên ảnh, do đó, 
việc sử dụng các phương pháp truyền thống như tổ hợp màu, phân ngưỡng, có ưu 
điểm dễ cài đặt nhưng có độ chính xác thấp. Phân cụm phổ là phương pháp phân 
cụm dựa trên lý thuyết về đồ thị, có khả năng phân loại tốt các dữ liệu mà có cấu 
trúc và hình dạng phức tạp như dữ liệu trên ảnh vệ tinh. Do yêu cầu tác chiến hiện 
nay, người chỉ huy cần phải có những thông tin tức thời về hình thái khu vực tác 
chiến để có phương án bố trí công sự, trận địa hợp lý. Bài báo giải quyết vấn đề 
phân loại nhanh lớp phủ ảnh vệ tinh dựa trên phương pháp phân cụm phổ phục vụ 
công tác ngụy trang. 
Từ khóa: Phân cụm phổ, Ảnh vệ tinh, Fuzzy c-means, Phân loại lớp phủ. 
1. ĐẶT VẤN ĐỀ 
Viễn thám là một lĩnh vực khoa học giúp thu thập thông tin về các đối tượng trên bề 
mặt trái đất mà không cần tiếp xúc trực tiếp với chúng, nguyên lý cơ bản của viễn thám đó 
là đặc trưng phản xạ hay bức xạ của các đối tượng tự nhiên tương ứng với từng giải phổ 
khác nhau [2]. Ảnh viễn thám có ưu điểm là phủ trùm trên một khu vực rộng lớn, dữ liệu 
ảnh được cập nhật thường xuyên và một số loại ảnh vệ tinh được cung cấp miễn phí trên 
mạng internet. Dữ liệu ảnh vệ tinh khó phân cụm một cách hiệu quả do sự chồng lấp và 
hình thù phức tạp của các đối tượng trên ảnh [3]. 
Hơn nữa, sự lựa chọn các thuật toán phân cụm phụ thuộc vào dữ liệu được khám phá, 
chất lượng của lời giải phân cụm cũng bị ảnh hưởng bởi độ đo sử dụng để đánh giá sự 
tương tự (khoảng cách) giữa các điểm ảnh. Cho đến nay, đã có nhiều công trình nghiên 
cứu bài toán phân loại đối tượng trên ảnh vệ tinh với nhiều phương pháp khác nhau [5, 7]. 
Những nghiên cứu trong và ngoài nước phân loại lớp phủ trên ảnh vệ tinh cho thấy, 
phương pháp sử dụng ảnh viễn thám để thành lập bản đồ hiện trạng lớp phủ đất có hiệu 
quả lớn. Với ưu điểm là diện tích phủ rộng, dữ liệu ảnh phong phú, thời gian chụp lặp lại 
tại một khu vực có thể trong vài ngày, không tốn nhiều thời gian, công sức cũng như chi 
phí so với các phương pháp khác, công nghệ viễn thám có thể được sử dụng hiệu quả trong 
xây dựng bản đồ hiện trạng lớp phủ trên phạm vi rộng lớn một cách nhanh chóng, nhằm hỗ 
trợ người chỉ huy lập các phương án ngụy trang hợp lý, giảm thiểu thương vong về con 
người và vũ khí trang bị. 
Đối với các vùng mà ranh giới không rõ ràng thì kết quả phân loại bằng các thuật toán 
thống kê truyền thống thường không đảm bảo thời gian và kinh phí, thậm chí không phân 
loại được với những khu vực rừng núi hiểm trở, do vậy, kết quả phân loại lớp phủ thường 
có độ chính xác thấp. Phương pháp sử dụng ảnh vệ tinh kết hợp với các số liệu đo đạc thực 
địa có độ chính xác cao nhưng chi phí xây dựng bản đồ lớp phủ lớn và tốn nhiều thời gian 
và không thể đáp ứng tức thời trong điều kiện tác chiến hiện nay. 
Thông tin về địa hình, địa vật đặc biệt có ý nghĩa và quan trọng trong lĩnh vực quốc 
phòng - an ninh. Do đặc điểm các vệ tinh có thể thu thập thông tin về các đối tượng trên bề 
mặt trái đất mà không cần tiếp xúc trực tiếp với chúng, đặc biệt những khu vực rừng núi 
Công nghệ thông tin & Cơ sở toán học cho tin học 
M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh  phương pháp phân cụm phổ.” 154 
hiểm trở, công việc đo đạc khó hoặc không thể thực hiện được, đây cũng là lý do chính để 
tác giả thực hiện nghiên cứu này. 
Trong bài báo này, tác giả đề xuất phương pháp phân loại lớp phủ từ dữ liệu ảnh vệ tinh 
Landsat dựa trên thuật toán phân cụm phổ. Để đánh giá hiệu quả và độ chính xác của 
phương pháp đề xuất, chúng tôi sử dụng một số chỉ số được sử dụng phổ biến hiện nay để 
đánh giá chất lượng của kết quả phân cụm với một số thuật toán phân cụm phổ biến hiện 
nay như k-Means, iso-data, fuzzy c-means. Bài báo gồm 3 phần chính, Phần 1 đặt vấn đề; 
Phần 2 cơ sở lý thuyết và phương pháp giải quyết; Phần 3 thực nghiệm và Phần 4 kết luận. 
2. CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT 
 2.1. Cơ sở lý thuyết 
Phân cụm phổ là phương pháp phát hiện ra các cấu trúc nhóm trong tập dữ liệu, dựa 
trên việc xem xét các điểm dữ liệu như là các nút của đồ thị liên thông, phương pháp này 
được giới thiệu lần đầu tiên bởi Donath, Hoffman [10] và Fiedler [8]. Coi tập dữ liệu biểu 
diễn dữ liệu ảnh vệ tinh đa phổ là 1 2, ,..., nx x x . Các cụm có thể được phát hiện dựa trên 
độ đo mức độ tương tự giữa cấu trúc các cụm hoặc khoảng cách Eulidean trong không 
gian màu [4]. Giả sử ta có tập dữ liệu n điểm ảnh 1 2{ , ,..., }nX x x x , ta đo độ tương tự 
của từng cặp điểm ảnh ,i jx x và ký hiệu ma trận tương tự tương ứng là ij( )nxnS s , ma 
trận này cho thấy mức độ tương đồng giữa các điểm ảnh. Trong phân cụm phổ thì giá trị 
biểu thị mức độ tương tự giữa 2 điểm ảnh thường được tính dựa trên hàm Gaussian: 
2
ij 2
(x ,x )
exp
i jd
s

. Với  là tham số do người dùng định nghĩa, giá trị  tối ưu là 
giá trị mà cho kết quả phân cụm tốt nhất và ( , )i jd x x là khoảng cách trong không gian 
màu giữa hai điểm ảnh ,i jx x . Giả sử ta coi tập dữ liệu là một đồ thị vô hướng 
( , )G X S trong đó X là tập các đỉnh (điểm ảnh) và S là tập các cạnh. Khi đó, 
ij( )nxnS s là ma trận trọng số của đồ thị, trong đó ij 0s nếu hai đỉnh ,i jx x không liên 
thông nhau và ij jis s do G là đồ thị vô hướng [9]. 
Xây dựng ma trận đường chéo D với giá trị các id miêu tả trọng số tại các nút của độ 
thị: ( , )i
j
d s i j  với j tương ứng là các chỉ số đỉnh kề với đỉnh i. 
Xây dựng ma trận Laplace từ ma trận S và ma trận D ở trên: 1/2 1/2L D SD , ma 
trận này sử dụng để trích xuất ra k cụm bởi việc tìm ra k véc tơ riêng với k giá trị riêng lớn 
nhất. 
Các bước thực hiện của thuật toán phân cụm phổ (SC): 
1. Tham chiếu tập dữ liệu ban đầu vào không gian 
nR . 
2. Định nghĩa ma trận kề S , sử dụng hàm Gaussian: ij{ }S s . 
3. Xây dựng đồ thị Laplacian L từ ma trận kề S: 1/2 1/2L D SD 
4. Tìm giá trị riêng theo công thức Lv v . 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 155
5. Lựa chọn k véc tơ riêng , 1,...,iv i k tương ứng với k giá trị riêng lớn nhất 
, 1,...,i i k và định nghĩa không gian con k chiều. 
6. Phân cụm trên tập dữ liệu trong không gian k chiều thành k cụm. 
Thuật toán trên chuyển đổi không gian dữ liệu ban đầu vào không gian dữ liệu k chiều 
(k chính là số cụm cần phải phân loại). Do các tính chất của đồ thị Laplace, những thay đổi 
biểu diễn làm tăng khả năng phân cụm trong dữ liệu, đến mức các cụm có thể được phát 
hiện dễ dàng trong biểu diễn mới. Và có thể sử dụng các thuật toán phân cụm thông 
thường như thuật toán k-Means để phát hiện các cụm trong biểu diễn mới. 
2.2. Áp dụng phương pháp phân cụm phổ phân loại lớp phủ ảnh vệ tinh 
2.2.1. Dữ liệu ảnh vệ tinh 
Ảnh viễn thám (ảnh vệ tinh): là ảnh số thể hiện các vật thể trên bề mặt trái đất được thu 
nhận bởi các bộ cảm biến đặt trên vệ tinh. Nguyên lý cơ bản của viễn thám đó là đặc trưng 
phản xạ hay bức xạ của các đối tượng tự nhiên tương ứng với từng giải phổ khác nhau. Kết 
quả của việc giải đoán các lớp thông tin phụ thuộc rất nhiều vào sự hiểu biết về mối tương 
quan giữa đặc trưng phản xạ phổ với bản chất, trạng thái của các đối tượng tự nhiên. 
Những thông tin về đặc trưng phản xạ phổ của các đối tượng tự nhiên sẽ cho phép các nhà 
chuyên môn chọn các kênh ảnh tối ưu, chứa nhiều thông tin nhất về đối tượng nghiên cứu, 
đồng thời đây cũng là cơ sở để phân tích nghiên cứu các tính chất của đối tượng, tiến tới 
phân loại chúng. 
Dữ liệu ảnh vệ tinh thường có nhiều kênh ảnh khác nhau tương ứng với các bước sóng 
phản xạ phổ khác nhau của các đối tượng trên mặt đất. Trong số đó, kênh đỏ và cận hồng 
ngoại (kênh 3, 4 đối với ảnh Landsat TM, ETM+; kênh 4, 5 đối với ảnh Landsat 8) được 
sử dụng để tính chỉ số thực vật (NDVI) [5] theo công thức sau: 
NIR RED
NIR RED
NDVI
 (1) 
Trong đó, ρNIR, ρRED là phản xạ phổ tại các kênh cận hồng ngoại và đỏ. 
Chỉ số thực vật có giá trị từ -1 đến +1, giá trị của NDVI cao cho biết khu vực có nhiều 
thực vật. Tuy nhiên, chỉ số NDVI được tính toán chỉ trên 2 kênh ảnh trong số nhiều kênh 
ảnh của ảnh vệ tinh, do đó, chỉ số này không phản ảnh được hết các thông tin bề mặt đất. 
Thông thường người dùng sẽ phải sử dụng kết hợp chỉ số này với các phương pháp khác 
như trích chọn trên ảnh, đo đạc ngoài thực địa,. Các phương pháp trên thường tốn rất 
nhiều thời gian, đặc biệt những khu vực rừng núi, địa hình hiểm trở. Vì vậy, nhóm tác giả 
đã đề xuất phương pháp sử dụng chỉ số thực vật NDVI cùng với với các kênh ảnh đa phổ 
ảnh Landsat để phân loại tự động các đối tượng lớp phủ trên ảnh vệ tinh. 
2.2.2. Phân loại lớp phủ ảnh vệ tinh 
Để áp dụng phương pháp phân cụm phổ vào phân loại ảnh vệ tinh, cần phải chuyển các 
dữ liệu ảnh vệ tinh thành dữ liệu đầu vào theo cấu trúc của thuật toán phân cụm phổ. Giả 
sử ảnh vệ tinh Landsat có b kênh ảnh, trong nghiên cứu này, nhóm tác giả bổ sung thêm 
dữ liệu ảnh chỉ số NDVI như là một kênh, như vậy, dữ liệu dùng để phân loại gồm có 
1b kênh ảnh. Với sự bổ sung thêm thông tin về lớp phủ thực vật này có thể giúp việc 
phân loại lớp phủ thực vật có thể tăng cường độ chính xác. 
Bài toán cần phân tách tập n vectơ đối tượng dữ liệu 1 2{ , ,..., }nX x x x vào 6 nhóm 
đối tượng, mỗi đối tượng , 0,...,ix i n là một vectơ có 1b thành phần. Bài toán cần 
Công nghệ thông tin & Cơ sở toán học cho tin học 
M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh  phương pháp phân cụm phổ.” 156 
xây dựng một đồ thị vô hướng mà các điểm là các đối tượng ix , xây dựng ma trận tương 
tự theo phương pháp trình bày ở trên, đặt S là ma trận trọng số của nó: 
2
ij 2
(x ,x )
exp
i jd
s

 (2) 
Tính ma trận Laplace L và tìm k véc tơ riêng có giá trị riêng lớn nhất 
1 2, ,..., k   của ma trận L : 
1/2 1/2L D SD (3) 
Đặt nxkE R là ma trận gồm các cột là các véc tơ 1 2, ,..., k   , với 0,...,i n , đặt 
k
iy R là véc tơ tương ứng với hàng thứ i của E . Lúc này, tập dữ liệu ban đầu trong 
không gian 1b được chuyển về không gian mới 1,...,( )
k
i i nY y R và bài toán ban 
đầu trở thành bài toán phân cụm trên tập dữ liệu Y. 
Để phân cụm dữ liệu trên tập 1,...,( )
k
i i nY y R có nhiều phương pháp khác nhau từ 
phân cụm rõ đơn thuần như k-Means và phát triển đến thuật toán phân cụm mờ loại một 
Fuzzy c-Means (FCM) bởi James C.Bezdek (1984) [6], do đặc điểm dữ liệu ảnh vệ tinh 
phức tạp hơn sơ với ảnh màu thông thường, vì vậy, tác giả lựa chọn thuật toán FCM để 
phân cụm trên tập dữ liệu Y nhằm tăng cường hiệu quả phân loại lớp phủ. Bài toán phân 
cụm FCM là bài toán tìm các độ thuộc iju nhằm tối thiểu hóa hàm mục tiêu: 
2
ij
1 1
( , ) ,1
n k
m
ij
i j
J U v u d m
  (4) 
Trong đó: 
+ ij i jd y c là khoảng cách theo thước đo Euclide giữa mẫu dữ liệu iy với trọng 
tâm cụm thứ , 1,...,jc j k . 
+ ij [0,1]u là bậc hay độ thuộc của dữ liệu mẫu iy với cụm thứ , 1,...,jc j k . 
+ 1[ ,..., ]kC c c là ma trận biểu diễn các giá trị tâm của cụm. 
Thuật toán FCM cung cấp một quá trình lặp qua lại giữa phương trình hàm thuộc: 
2
1
1
1 / ,1 ,1
k m
ij
l il
ij
d
d
u l k i n
  (5) 
Và trọng tâm các cụm: 
1 1
( ) / ( ) ,1
n n
m m
ij i ij
i i
j u y uc j k
   (6) 
Một phân cụm, nghĩa là hàm mục tiêu (4) đạt giá trị tối thiểu, mà chủ yếu dựa trên đó 
độ tương tự giữa iy và trọng tâm cụm jc , điều này tương đương với hai điều kiện (5) và 
(6) phải thỏa mãn các ràng buộc. Sau mỗi vòng lặp, thuật toán tính toán và cập nhật các 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 157
phần tử iju trong ma trận phân hoạch U. Phép lặp sẽ dừng khi 
( 1) ( )ax{ }t tm J J  
trong đó  là chuẩn kết thúc nằm trong khoảng [0,1] trong khi t là số bước lặp. 
Phương pháp đề xuất sẽ gồm 2 bước chính, bước 1 sử dụng phân cụm phổ để chuyển 
tập dữ liệu ban đầu X sang tập dữ liệu Y trong không gian mới và bước 2 sử dụng thuật 
toán FCM để phân cụm trên tập dữ liệu Y. 
Đầu vào: Dữ liệu ảnh vệ tinh, số cụm k và khởi tạo trọng tâm 1[ ,..., ]kC c c , tham số 
mờ m và điều kiện dừng  . 
Đầu ra: Bản đồ lớp phủ đất với k lớp phủ được tô màu và chồng lên nhau. 
Hình 1. Sơ đồ phương pháp phân loại lớp phủ từ dữ liệu ảnh vệ tinh. 
Chi tiết các bước thực hiện thuật toán phân cụm phổ mờ (FSC) như sau: 
Bước 1: Tính giá trị NDVI theo công thức (1). 
Bước 2: Tham chiếu các kênh ảnh dữ liệu ban đầu và giá trị chỉ số NDVI vào không 
gian 
1bR : 1 2{ , ,..., }nX x x x . 
Bước 3: Xây dựng ma trận trọng số ij( )nxnS s theo công thức (2). 
Bước 4: Xây dựng đồ thị Laplacian L từ ma trận kề S và ma trận đường chéo D theo 
(3). 
Bước 5: Tìm giá trị riêng theo công thức Lv v . 
Bước 6: Lựa chọn k véc tơ riêng , 1,...,iv i k tương ứng với k giá trị riêng lớn nhất 
, 1,...,i i k và định nghĩa không gian con k chiều 1,...,( )
k
i i nY y R . 
Bước 7: Tính giá trị hàm thuộc iju theo (5). 
Công nghệ thông tin & Cơ sở toán học cho tin học 
M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh  phương pháp phân cụm phổ.” 158 
Bước 8: Cập nhật trọng tâm , 1,...,ic i k theo (6). 
Bước 9: Tính giá trị hàm thuộc J và kiểm tra điều kiện dừng 
( 1) ( )ax{ }t tm J J  , nếu thỏa mãn thì chuyển sang bước 10, ngược lại thì 
quay lại bước 7. 
Bước 10: Đưa ra kết quả phân cụm 1 2, ,..., kA A A với {i|y c }j i jA , đánh giá độ 
chính xác, gán màu cho các lớp và hiển thị kết quả. 
Chi tiết sơ đồ phương pháp tác giả đề xuất thể hiện trên hình 1. 
2.2.3. Đánh giá kết quả phân cụm 
Để đánh giá chất lượng các cụm sau phân phân, chúng tôi sử dụng chỉ số sai số trung 
bình bình phương MSE (Mean Squared Error index) [1] và chỉ số chất lượng hình ảnh IQI 
(Image Quality Index) [11]. Với  1 2, ,...,i NX x x x x và  1 2, ,...,i NY y y y y 
tương ứng là ảnh ban đầu và ảnh kết quả sau phân cụm. 
- Chỉ số MSE được tính theo công thức: 
2
1
1
( , ) (x y )
N
i i
i
MSE x y
N 
  (7) 
Giá trị MSE càng nhỏ thì chất lượng các cụm sau phân loại càng tốt. 
- Chỉ số IQI được tính theo công thức sau: 
2 22 2
4
( )( )
xy
x y
x y
IQI
x y

 
 (8) 
Với 
1 1
1 1
, 
N N
i i
i i
x x y y
N N 
   , 2 2
1
1
(x )
1
N
x i
i
x
N

 , 2 2
1
1
(y )
1
N
y i
i
y
N

 
và 
1
1
(x )(y )
1
N
xy i i
i
x y
N

 . Giá trị tốt nhất là 1 khi và chỉ khi i iy x , giá trị kém 
nhất là -1 xảy ra khi 2i iy x x với 1,i N , N là số điểm ảnh. 
3. THỰC NGHIỆM 
3.1. Thực nghiệm 1 
a) b) 
Hình 2. Ảnh màu RGB và ảnh kết quả phân loại khu vực Quỳ Hợp năm 2016. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 159
Trong thực nghiệm 1, dữ liệu ảnh viễn thám Landsat chụp năm 2016 được sử dụng để 
phân tích và thành lập bản đồ thảm phủ. Tọa độ từ 104° 47' 8.7541" E, 19° 29' 1.3803" N 
đến 105° 31' 35.7251" E, 19° 09' 32.6510" N, với diện tích 941,28 km2. Dữ liệu ảnh vệ tinh 
sẽ được phân loại theo 6 đối tượng lớp phủ, bao gồm: mặt nước (1); Đất trống, đất ở (2); 
Đồng cỏ, cây bụi (3); Rừng nghèo (4); Rừng trồng, rừng tái sinh (5); Rừng tự nhiên (6). 
Hình 2 là ảnh màu RGB của khu vực nghiên cứu và ảnh kết quả sau khi phân loại, trên 
hình 2b chúng ta thấy khu vực có ít cây tập trung ở phía Đông và phía Nam của huyện 
Quỳ Hợp, khu vực rừng rậm tập trung nhiều ở khu vực đồi núi phía Bắc và phía Tây. Số 
liệu cụ thể các lớp phủ được thể hiện trên bảng 1. 
Bảng 1. Số liệu các lớp phủ năm 2016 huyện Quỳ Hợp. 
STT Tên đối tượng 
Màu sắc Số pixel Phần 
trăm 
Diện tích 
(km2) 
1 Sông ngòi, ao hồ 33.951 3,240% 30,499 
2 Đất trống, đất xây dựng 252.338 24,082% 226,680 
3 Đồng cỏ, thực vật thưa 263.122 25,111% 236,367 
4 Cây gỗ thấp 208.419 19,891% 187,227 
5 Rừng trồng 174.337 16,638% 156,610 
6 Thực vật dày, cây lâu năm 115.658 11,038% 103,898 
Bảng 2. Chỉ số đánh giá chất lượng phân loại khu vực Quỳ Hợp. 
STT Chỉ số k-Means Iso-data FCM FSC 
1 MSE 5,9821 3,6724 1,1893 0,1876 
2 IQI -0.1237 0,3768 0,5652 0,7871 
Bảng 2 là chỉ số đánh giá kết quả phân loại trên các thuật toán k-Means, Iso-data, FCM 
và FSC. Số liệu trong bảng 2 cho thấy kết quả phân loại trên thuật toán FSC cho kết quả 
tốt nhất với giá trị chỉ số MSE và IQI lần lượt là 0,1876 và 0,7871. Trong khi đó, thuật 
toán phân cụm mờ FCM cho kết quả tốt hơn các thuật toán Iso-data và k-Means, thuật toán 
k-Means cho kết quả phân loại kém nhất với chỉ số MSE và IQI là 5,9821 và -0,1237. 
3.2. Thực nghiệm 2 
Thực nghiệm 2 với dữ liệu ảnh viễn thám Landsat chụp năm 2014 khu vực huyện Bảo 
Lâm – Lâm Đồng. Tọa độ từ 107° 04' 21.7560" E, 11° 56' 32.3488" N và 108° 22' 
40.0897" E, 11° 20' 22.1085" N, với diện tích 1465 km2. Dữ liệu ảnh vệ tinh sẽ được phân 
loại theo 6 đối tượng lớp phủ, bao gồm: mặt nước (1); Đất trống, đất ở (2); Đồng cỏ, cây 
bụi (3); Rừng nghèo (4); Rừng trồng, rừng tái sinh (5); Rừng tự nhiên (6). 
a) b) 
Hình 3. Ảnh màu RGB và ảnh kết quả phân loại khu vực Bảo Lâm năm 2014. 
Công nghệ thông tin & Cơ sở toán học cho tin học 
M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh  phương pháp phân cụm phổ.” 160 
Hình 3 là ảnh màu RGB của khu vực Bảo Lâm và ảnh kết quả sau khi phân loại, trên 
hình 3b chúng ta thấy khu vực có ít cây tập trung ở phía Đông Nam và phía Nam của 
huyện Bảo Lâm, khu vực rừng rậm tập trung nhiều ở khu vực đồi núi phía Bắc và phía Tây 
Bắc. Số liệu cụ thể các lớp phủ được thể hiện trên bảng 3. 
Bảng 4 là chỉ số đánh giá kết quả phân loại trên các thuật toán k-Means, Iso-data, FCM 
và FSC. Thuật toán k-Means cho kết quả kém nhất với giá trị chỉ số MSE là 4,9784 và chỉ 
số IQI là 0,0098. Thuật toán FSC cho kết quả phân loại tốt nhất với giá trị chỉ số MSE và 
IQI lần lượt là 0,1683 và 0,8429. Thuật toán phân cụm mờ FCM cho kết quả tốt hơn thuật 
toán Iso-data và k-Means. 
Bảng 3. Số liệu các lớp phủ năm 2014 của huyện Bảo Lâm. 
STT Tên đối tượng Màu sắc Số pixel Phần trăm Diện tích (km2) 
1 Sông ngòi, ao hồ 384.914 5,078% 74,391 
2 Đất trống, đất xây dựng 1.077.941 14,221% 208,331 
3 Đồng cỏ, thực vật thưa 1.497.061 19,750% 289,333 
4 Cây gỗ thấp 1.656.004 21,846% 320,051 
5 Rừng trồng 1.701.277 22,444% 328,801 
6 Thực vật dày, cây lâu năm 1.262.986 16,662% 244,094 
Bảng 4. Chỉ số đánh giá chất lượng phân loại khu vực Bảo Lâm. 
STT Chỉ số k-Means Iso-data FCM FSC 
1 MSE 4,9784 1,9768 1,3821 0,1683 
2 IQI 0,0098 0,3329 0,5683 0,8429 
Các thuật toán k-Means, Iso-data và FCM phân loại trực tiếp trên tập dữ liệu ban đầu, 
do đó kết quả phân cụm phụ thuộc nhiều vào chất lượng dữ liệu ban đầu và các tham số 
khởi tạo. Thuật toán FSC cho kết quả tốt hơn cả là vì dữ liệu ảnh vệ tinh ban đầu qua thuật 
toán phân cụm phổ đã chuyển từ không gian dữ liệu ban đầu về không gian dữ liệu mới 
với số chiều bằng số cụm cần phân loại, giúp cho việc phân loại dễ dàng và có độ chính 
xác cao hơn nhiều so với các thuật toán khác. Kết quả này cho thấy có thể áp dụng vào 
thành lập nhanh bản đồ lớp phủ từ dữ liệu ảnh vệ tinh, giảm thiểu tối đa thời gian so với 
phương pháp thành lập bản đồ lớp phủ dựa trên số liệu thống kê, đo đạc thực địa và vẫn 
đảm bảo độ chính xác cao hơn nhiều so với một số phương pháp phân loại phổ biến như k-
Means, Iso-data, FCM. 
4. KẾT LUẬN 
Trong bài báo này, chúng tôi đã nghiên cứu và áp dụng thuật toán phân cụm phổ vào 
giải quyết bài toán phân loại lớp phủ đất từ dữ liệu ảnh vệ tinh. Với yêu cầu độ chính xác 
không quá cao thì hoàn toàn có thể áp dụng phương pháp này để đưa ra bản đồ hiện trạng 
lớp phủ đất một cách nhanh chóng. Nghiên cứu này là tiền đề cho những nghiên cứu tiếp 
theo đó là kết hợp với mô hình số độ cao để đưa ra bản đồ số địa hình, hỗ trợ người chỉ 
huy trong việc vạch tuyến hành quân và xây dựng các phương án tác chiến. Trong thời 
gian tới, chúng tôi sẽ thử nghiệm trên nhiều loại ảnh vệ tinh khác và nghiên cứu kết hợp 
kết quả bản đồ lớp phủ với mô hình số độ cao trong việc phân tích địa hình. 
TÀI LIỆU THAM KHẢO 
[1]. Bezdek J., Pal N. – “Some new indexes of cluster validity”. IEEE Transactions on 
Systems, Man and Cybernetics 3 (1998) 301-315. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 161
[2]. Dinh-Sinh Mai and Long Thanh Ngo, “Semi-Supervised Fuzzy C-Means Clustering 
for Change Detection from Multispectral Satellite Image”, 2015 IEEE International 
Conference on Fuzzy Systems, 2015, pp.1-8. 
[3]. Eric K. Forkuo, Adubofour Frimpong – “Analysis of Forest Cover Change 
detection”, International Journal of Remote Sensing Applications 2(4) (2012) 82-92. 
[4]. Feng Zhao, Hanqiang Liu, Licheng Jiao, “Spectral clustering with fuzzy similarity 
measure”, Digital Signal Processing 21 (2011) 701–709. 
[5]. Grant J. Firl, Lane Carter. “Calculating Vegetation Indices from Landsat 5 TM and 
Landsat 7 ETM+ Data” (2011). 
[6]. James C. Bezdek, Robert Ehrlich and William Full. FCM: “The fuzzy c-means 
clustering algorithm”, Computers & Geosciences, Vol 10, Issues 2–3, 1984, Pages 
191–203. 
[7]. Long Thanh Ngo and Dinh Dung Nguyen – “Land cover classification using interval 
type-2 fuzzy clustering for multi-spectral satellite imagery”, IEEE Conference on 
Systems, Man. and Cybernetics, 2012, pp. 2371 - 2376. 
[8]. M. Fiedler, “Algebraic connectivity of graphs”. Czechoslovak Math. J., 23, 298 – 
305, 1973. 
[9]. Peng Yang, Qingsheng Zhu, Biao Huang, “Spectral clustering with density sensitive 
similarity function”, Knowledge-Based Systems 24 (2011) 621–628. 
[10]. W. E. Donath, A. J. Hoffman, “Lower bounds for the partitioning of graphs”. IBM J. 
Res. Develop., 17, 420 – 425, 1973. 
[11]. Wang Z. and Bovik A. C. “A universal image quality index.” IEEE signal processing 
letters, vol. 9, no. 3, 2002, 81-84. 
ABSTRACT 
LANDCOVER CLASSIFICATION FROM SATELLITE IMAGE DATA 
BASED ON THE SPECTRAL CLUSTERING METHOD 
 Image Segmentation is to finding group structure with characteristics similar. 
There are many different methods of clustering, but almost all the same strategy is 
based on the difference in colors to assign the pixels into clusters. Due to the 
complexity of satellite image data, image information is often overlapping and 
complex shape of the objects in the image, so the use of traditional methods such as 
color combinations, thresholding has the advantage of easy installation but low 
precision. Spectral clustering is based on graph theory, have capability to classify 
well the data has structured and shapes complex, such as satellite image data. In 
the war, the commander need have immediate information about the status of the 
warfare region to constructing plan logical warfare. The article solve the problem 
faster landcover classification based on spectral clustering methods in service of 
camouflage using Landsat satellite image. 
Keywords: Spectral clustering, Satellite image, Fuzzy c-means, Landcover classification. 
Nhận bài ngày 05 tháng 01 năm 2017 
Hoàn thiện ngày 06 tháng 02 năm 2017 
Chấp nhận đăng ngày 18 tháng 8 năm 2017 
Địa chỉ: 1 Học viện Kỹ thuật quân sự; 
 2 Học viện Lục quân ; 
 3 Lớp cao học CNTT Khóa 27 – Học viện Kỹ thuật quân sự. 
 * Email: maidinhsinh@gmail.com. 

File đính kèm:

  • pdfphan_loai_lop_phu_tu_du_lieu_anh_ve_tinh_dua_tren_phuong_pha.pdf