Luận án Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị

Năm 2013, theo công bố của Tổ chức Y tế thế giới (WHO) trên thế giới có khoảng

285 triệu người suy giảm thị lực, trong đó 246 triệu người có thị lực kém ở mức độ vừa

phải đến mức độ nặng và 39 triệu người mù [107]. Tại Việt Nam, theo số liệu của Viện

mắt Trung ương cung cấp, có khoảng 1.2 triệu NKT, trong đó 820.503 người không

còn khả năng nhìn thấy ánh sáng. Nếu tính cả những người bị các tật về mắt như cận

hoặc viễn thì con số này còn lớn hơn rất nhiều.

Số lượng NKT lớn, bản thân NKT gặp nhiều khó khăn trong cuộc sống cũng như

nắm bắt các cơ hội việc làm. Chính vì vậy, trợ giúp NKT là vấn đề thu hút sự quan

tâm của nhiều nhà khoa học trong thời gian gần đây. Trong số các yêu cầu trợ giúp,

trợ giúp định hướng là cần thiết và chỉ dẫn để giúp họ tránh các vật cản trên đường

đi hay đưa ra các thông báo về môi trường xung quanh.

Trên thực tế, nhiều phương pháp đã được nghiên cứu và triển khai nhằm hỗ trợ

định hướng cho NKT, như sử dụng gậy [32], chó dẫn đường [32], hay thiết bị điện tử

[14]. Mỗi phương pháp có những ưu nhược điểm riêng: gậy dẫn đường bị hạn chế phạm

vi phát hiện vật cản theo kích thước của gậy; chó dẫn đường thường có chi phí cao và

gây trở ngại về tâm sinh lý đối với người dùng; thiết bị điện tử như các điện cực đặt

trên lưỡi có thể gây tâm lý ngại ngần khi sử dụng.

Trong bối cảnh này, nghiên cứu và phát triển một hệ thống trợ giúp dẫn đường

hiệu quả và thân thiện trợ giúp NKT vẫn là chủ đề đầy thách thức, động lực để NCS

thực hiện đề tài: “Nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh,

ứng dụng trợ giúp dẫn đường cho người khiếm thị”.

pdf 212 trang dienloan 15040
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị

Luận án Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN QUỐC HÙNG
NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT
ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG
TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội − 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN QUỐC HÙNG
NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT
ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG
TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ
Chuyên ngành: Khoa học Máy tính
Mã số chuyên ngành: 62480101
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Trần Thị Thanh Hải
2. PGS.TS. Nguyễn Quang Hoan
Hà Nội −2016
LỜI CAM ĐOAN
Tôi xin cam đoan luận án: “Nghiên cứu phát triển một số kỹ thuật định vị dựa
trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị” là công trình nghiên
cứu của riêng tôi.
Một phần các số liệu, kết quả trình bày trong luận án là trung thực, đã được công
bố trên các tạp chí khoa học chuyên ngành, kỷ yếu hội nghị khoa học trong nước và
quốc tế.
Phần còn lại của luận án chưa được công bố trong bất kỳ công trình nghiên cứu
trong và ngoài nước.
Hà Nội, ngày 20 tháng 7 năm 2016
NGHIÊN CỨU SINH
Nguyễn Quốc Hùng
TẬP THỂ HƯỚNG DẪN KHOA HỌC
TS. Trần Thị Thanh Hải PGS.TS. Nguyễn Quang Hoan
i
LỜI CẢM ƠN
Luận án tiến sĩ được thực hiện tại Viện Nghiên cứu Quốc tế MICA, trường Đại
học Bách khoa Hà Nội dưới sự hướng dẫn khoa học của TS. Trần Thị Thanh Hải và
PGS.TS. Nguyễn Quang Hoan. Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới các
thầy, cô về định hướng khoa học trong suốt quá trình nghiên cứu. Nghiên cứu sinh xin
được trân trọng cảm ơn các nhà khoa học, tác giả các công trình công bố đã được trích
dẫn và cung cấp nguồn tư liệu quý báu trong quá trình hoàn thành luận án.
Nghiên cứu sinh xin trân trọng cảm ơn Viện Nghiên cứu Quốc tế đa phương tiện
MICA; Viện Đào tạo sau Đại học Trường Đại học Bách Khoa Hà Nội; GS.TS. Phạm Thị
Ngọc Yến; GS.TS. Eric Castelli; đề tài KHCN tiềm năng mã số: KC.01.TN19/11-15,
đề tài VLIR mã số: ZEIN2012RIP19; đề tài hợp tác Việt - Bỉ mã số: FWO.102.2013.08;
Quỹ phát triển KH&CN quốc gia Việt Nam; Trường THCS Nguyễn Đình Chiểu Hà
Nội; nhóm nghiên cứu IPI Đại học GENT Vương quốc Bỉ...đã tạo điều kiện thuận lợi
về thời gian, địa điểm thực tập, trang thiết bị, hỗ trợ về mặt nhân lực để NCS thực
hiện việc thu thập dữ liệu, thực nghiệm các kết quả nghiên cứu.
Cuối cùng nghiên cứu sinh xin bày tỏ sự biết ơn tới Ban giám hiệu Trường Cao
đẳng Y tế Thái Nguyên; gia đình và đồng nghiệp đã động viên khích lệ, tạo mọi điều
kiện thuận lợi để NCS yên tâm công tác và học tập.
Hà Nội, ngày 20 tháng 7 năm 2016
NGHIÊN CỨU SINH
Nguyễn Quốc Hùng
ii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC vi
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii
DANH MỤC CÁC BẢNG ix
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ xv
MỞ ĐẦU 1
1 TỔNG QUAN VỀ HỆ THỐNG TRỢ GIÚP NGƯỜI KHIẾM THỊ 4
1.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Các nghiên cứu trên thế giới . . . . . . . . . . . . . . . . . . . . 4
1.2.1.1 Siêu âm . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1.2 Hồng ngoại . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1.3 Laser . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1.4 Camera . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1.5 Đa cảm biến . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Các nghiên cứu trong nước . . . . . . . . . . . . . . . . . . . . . 10
1.2.3 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Mục tiêu nghiên cứu và phương pháp đề xuất . . . . . . . . . . . . . . 12
1.3.1 Mục tiêu và phạm vi nghiên cứu . . . . . . . . . . . . . . . . . . 12
1.3.2 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 BIỂU DIỄN MÔI TRƯỜNG VÀ ĐỊNH VỊ 14
2.1 Giới thiệu chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Những nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Hướng tiếp cận sử dụng bản đồ số liệu . . . . . . . . . . . . . . 15
2.2.2 Hướng tiếp cận sử dụng bản đồ topo . . . . . . . . . . . . . . . 17
2.2.3 Hướng tiếp cận lai . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
iii
2.3 Đề xuất hướng tiếp cận lai ngữ nghĩa biểu diễn môi trường . . . . . . . 22
2.4 Phương pháp xây dựng bản đồ môi trường . . . . . . . . . . . . . . . . 23
2.4.1 Xây dựng bản đồ số liệu . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1.1 Phương pháp đo hành trình bằng hình ảnh sử dụng mô
hình không chắc chắn . . . . . . . . . . . . . . . . . . 24
2.4.1.2 Thích nghi VO cho môi trường trong nhà . . . . . . . 27
2.4.2 Xây dựng bản đồ topo . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.2.1 Giải thuật FAB-MAP . . . . . . . . . . . . . . . . . . 30
2.4.2.2 Thích nghi và cải thiện FAB-MAP xây dựng bản đồ topo 39
2.4.3 Bổ sung thông tin đối tượng vật cản tĩnh trên bản đồ . . . . . . 44
2.5 Phương pháp định vị . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6.1 Môi trường đánh giá . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6.2 Thu thập dữ liệu đánh giá . . . . . . . . . . . . . . . . . . . . . 46
2.6.2.1 Hệ thống thu thập dữ liệu . . . . . . . . . . . . . . . . 46
2.6.2.2 Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . 47
2.6.3 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.6.3.1 Đánh giá phương pháp xây dựng bản đồ số liệu . . . . 48
2.6.3.2 Đánh giá phương pháp định vị hình ảnh . . . . . . . . 53
2.7 Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3 PHÁT HIỆN VÀ ƯỚC LƯỢNG KHOẢNG CÁCH VẬT CẢN 60
3.1 Định nghĩa bài toán và các thách thức . . . . . . . . . . . . . . . . . . 60
3.2 Những nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2.1 Các phương pháp sử dụng 01 camera . . . . . . . . . . . . . . . 61
3.2.1.1 Hướng nghiên cứu sử dụng stereo camera . . . . . . . 62
3.2.1.2 Hướng nghiên cứu sử dụng cảm biến Kinect . . . . . . 64
3.2.1.3 Phân tích và đánh giá các phương pháp . . . . . . . . 65
3.3 Đề xuất phương pháp phát hiện và ước lượng khoảng cách . . . . . . . 66
3.4 Phát hiện vật cản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.1 Phát hiện vật cản cố định . . . . . . . . . . . . . . . . . . . . . 67
3.4.1.1 Đối sánh các điểm đặc trưng . . . . . . . . . . . . . . 68
3.4.1.2 Phát hiện vật cản từ kết quả đối sánh . . . . . . . . . 71
3.4.1.3 Xác định vùng chứa đối tượng . . . . . . . . . . . . . . 74
3.4.2 Phát hiện vật cản động . . . . . . . . . . . . . . . . . . . . . . . 75
3.4.2.1 Trích chọn đặc trưng HoG . . . . . . . . . . . . . . . . 75
3.4.2.2 Bộ phân loại SVM . . . . . . . . . . . . . . . . . . . . 76
3.5 Uớc lượng khoảng cách vật cản . . . . . . . . . . . . . . . . . . . . . . 77
3.5.1 Nguyên lý ước lượng khoảng cách . . . . . . . . . . . . . . . . . 77
iv
3.5.2 Xây dựng bản đồ chênh lệch . . . . . . . . . . . . . . . . . . . . 79
3.5.2.1 Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . 80
3.5.2.2 Hiệu chỉnh hình ảnh . . . . . . . . . . . . . . . . . . . 80
3.5.2.3 Đối sánh hình ảnh . . . . . . . . . . . . . . . . . . . . 84
3.5.2.4 Tính toán độ sâu . . . . . . . . . . . . . . . . . . . . . 86
3.6 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.6.1 Xây dựng cơ sở dữ liệu vật cản . . . . . . . . . . . . . . . . . . 88
3.6.2 Đánh giá giải thuật phát hiện đối tượng . . . . . . . . . . . . . 90
3.6.3 Đánh giá giải thuật ước lượng khoảng cách vật cản . . . . . . . 93
3.7 Kết luận chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4 PHÁT TRIỂN VÀ THỬ NGHIỆM HỆ THỐNG DẪN ĐƯỜNG 99
4.1 Hệ thống tích hợp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.1.1 Tích hợp phần cứng . . . . . . . . . . . . . . . . . . . . . . . . 99
4.1.2 Kiến trúc tổng thể . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2 Phát triển hệ thống dẫn đường sử dụng robot . . . . . . . . . . . . . . 102
4.2.1 Tìm đường cho robot . . . . . . . . . . . . . . . . . . . . . . . . 102
4.2.2 Điều khiển robot . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2.2.1 Điều khiển trực tiếp dựa trên đường đi xác định . . . . 103
4.2.2.2 Điều khiển theo dự báo và hiệu chỉnh vị trí của bộ lọc
Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2.3 Tương tác người-robot . . . . . . . . . . . . . . . . . . . . . . . 111
4.3 Thử nghiệm và đánh giá hệ thống dẫn đường . . . . . . . . . . . . . . 112
4.3.1 Môi trường và quy trình thử nghiệm . . . . . . . . . . . . . . . 112
4.3.1.1 Môi trường thử nghiệm . . . . . . . . . . . . . . . . . 112
4.3.1.2 Quy trình thử nghiệm . . . . . . . . . . . . . . . . . . 115
4.3.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3.2.1 Đánh giá khả năng xác định vị trí xuất phát của robot 116
4.3.2.2 Đánh giá khả năng điều khiển robot . . . . . . . . . . 117
4.3.2.3 Đánh giá khả năng tương tác người-robot . . . . . . . 119
4.3.2.4 Đánh giá hệ thống dẫn đường trợ giúp NKT bằng robot 121
4.3.3 Bàn luận hệ thống robot dẫn đường . . . . . . . . . . . . . . . . 130
4.4 Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133
TÀI LIỆU THAM KHẢO 136
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 148
PHỤ LỤC 151
v
A MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG 151
A.1 Đặc trưng Harris Corner . . . . . . . . . . . . . . . . . . . . . . . . . . 151
A.2 Đặc trưng SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
A.3 Đặc trưng SURF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
A.4 Đặc trưng GIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
A.5 Đặc trưng HoG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
A.6 Đặc trưng Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
B ĐÁNH GIÁ HIỆU NĂNG NHẬN DẠNG TRÊN MỘT SỐ CSDL 173
B.1 Giới thiệu 3 CSDL thử nghiệm . . . . . . . . . . . . . . . . . . . . . . 173
B.2 Khung nhận dạng đối tượng tổng quát . . . . . . . . . . . . . . . . . . 177
B.3 Độ đo đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
B.4 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
C THIẾT KẾ HỆ THỐNG THU THẬP DỮ LIỆU 188
C.1 Xe camera thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . 188
C.2 Hiệu chỉnh camera góc rộng . . . . . . . . . . . . . . . . . . . . . . . . 191
C.3 Robot PC-Bot914 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
vi
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
TT Viết tắt Nghĩa đầy đủ (tiếng Việt/tiếng Anh)
1 AM Appearance based Mapping
2 AP Average Precision
3 BOW Bag of Words
4 CSDL Cơ sở dữ liệu
5 ED Euclidean Distance
6 FAB-MAP Fast Appearance Based Mapping
7 FLANN Fast Library for Approximate Nearest Neighbors
8 FN False Negative
9 FP False Positive
10 GPS Global Positioning System
11 HOG Histogram of Oriented Gradients
12 HSI Hue Saturation and Intensity
13 KF Kalman Filter
14 KH&CN Khoa học và Công nghệ
15 k-NN K-Nearest Neighbors
16 LASER Light Amplification by Stimulated Emission of Radiation
17 LATS Luận án tiến sĩ
18 LIDAR Light Detection And Ranging
19 MICA Multimedia, Information, Communication & Applications
20 MUT Motion Uncertainty Tetragon
21 NCS Nghiên cứu sinh
22 NĐC Nguyễn Đình Chiểu
23 NKT Người khiếm thị
24 PUT Perspective Uncertainty Tetragons
25 RANSAC RANdom SAmple Consensus
26 RFID Radio Frequency Identification
27 RGB Red Green and Blue
28 RMSE Root Mean Square Error
29 SAD Sum of Absolute Differences
30 SIFT Scale Invariant Feature Transforms
31 SLAM Simultaneous Localization and Mapping
32 SURF Speeded Up Robust Features
33 SVM Support Vector Machine
34 TP True Positive
35 TQB Tạ Quang Bửu
36 VO Visual Odometry
37 WIFI Wireless Fidelity
vii
DANH MỤC CÁC BẢNG
Bảng 2.1 Bảng tổng hợp thông tin về 03 môi trường thử nghiệm . . . . . . 46
Bảng 2.2 Tốc độ lấy mẫu (fps) của các camera tại các môi trường thử nghiệm 47
Bảng 2.3 Dữ liệu thu thập tại E1:NĐC . . . . . . . . . . . . . . . . . . . . 47
Bảng 2.4 Dữ liệu thu thập tại E2:TQB . . . . . . . . . . . . . . . . . . . . 47
Bảng 2.5 Dữ liệu thu thập tại E3:MICA . . . . . . . . . . . . . . . . . . . 47
Bảng 2.6 Kết quả đánh giá RMSE tại E1:NĐC . . . . . . . . . . . . . . . . 48
Bảng 2.7 Kết quả đánh giá độ sai số tiêu chuẩn RMSE tại E2:TQB . . . . 50
Bảng 2.8 Kết quả đánh giá độ sai số tiêu chuẩn RMSE tại E3:MICA . . . . 52
Bảng 2.9 So sánh khả năng định vị của giải thuật FAB-MAP* tại E1:NĐC 54
Bảng 2.10 Kết quả đánh giá so sánh giải thuật định vị FAB-MAP* tại E2:TQB 56
Bảng 2.11 Kết quả đánh giá so sánh giải thuật định vị FAB-MAP* tại E3:MICA 57
Bảng 3.1 Kết quả thu nhận dữ liệu khung cảnh/đường đi phục vụ đánh giá 88
Bảng 3.2 Thu thập dữ liệu đánh giá phát hiện và ước lượng khoảng cách
vật cản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Bảng 3.3 Kết quả phát hiện đối tượng theo phương pháp đề xuất . . . . . 91
Bảng 3.4 Kết quả phát đánh giá so sánh với phương pháp Haar-AdaBoost 91
Bảng 3.5 Kết quả dự đoán độ sai số ước lượng khoảng cách vật cản . . . . 93
Bảng 4.1 Danh sách tham gia thử nghiệm dẫn đường tại E1:NĐC . . . . . 112
Bảng 4.2 Danh sách tham gia đánh giá hệ thống dẫn đường tại E2:TQB . 113
Bảng 4.3 Danh sách tham gia đánh giá hệ thống dẫn đường tại E3:MICA . 114
Bảng 4.4 Kết quả đánh giá điểm xuất phát của robot . . . . . . . . . . . . 117
Bảng 4.5 Kết quả đánh giá vai trò lọc Kalman trong điều khiển robot . . . 118
Bảng 4.6 Kết quả sai số định vị sử dụng sai số trung vị . . . . . . . . . . . 118
viii
Bảng 4.7 Kết quả sai số định vị sử dụng sai số trung bình . . . . . . . . . . 119
Bảng 4.8 Bảng câu hỏi phỏng vấn trước và sau khi sử dụng hệ thống . . . 119
Bảng 4.9 Tổng hợp kết quả tần số rung (Hz) phản hồi thông tin môi trường 121
Bảng 4.10 Kết quả đánh giá độ sai số RMSE khi robot chuyển động tịnh tiến 122
Bảng 4.11 Kết quả đánh giá hiệu năng robot dẫn đường chuyển động tịnh tiến122
Bảng 4.12 Kết quả đánh giá robot dẫn đường chuyển động tịnh tiến . . . . 123
Bảng 4.13 Kết quả đánh giá độ sai số RMSE với kịch bản robot chuyển động
tịnh tiến và quay tại E1:NĐC . . . . . . . . . . . . . . . . . . . . . . . 123
Bảng 4.14 Kết quả robot dẫn đường chuyển động quay và tịnh tiến tại E1:NĐC124
Bảng 4.15 Đánh giá các lần thử nghiệm hệ thống dẫn đường tại E1:NĐC . . 125
Bảng 4.16 Kết quả sai số RMSE robot phát hiện vật cản xuất hiện bất ngờ
tại E1:NĐC . . . . . . . . . . .  ... toán đạt 88.12 ms/ ảnh.
- CSDL Robot Vision 2013: Đã có 16 kết quả của các đội thi đến từ các nhóm
nghiên cứu trên thế giới gửi tới cuộc thi Robot Vision, trong đó nhóm MICA gửi 03
kết quả dự thi, cụ thể như sau.
Phương pháp nhận dạng được đề xuất sử dụng giải thuật kết hợp GIST k-NN để
nhận dạng khung cảnh trước khi nhận dạng các đối tượng. Kết quả nhận dạng minh
họa ở Hình B.12.
(b) Phaùt hieän nhaàm(a) Phaùt hieän ñuùng
Hình B.12 Một số kết quả nhận dạng đúng/sai CSDL RobotVision2013
Nhóm nghiên cứu MICA đứng thứ 9/16 kết quả đạt số điểm 4497.875 điểm, kết quả
xếp hạng có trong Bảng B.3.
Kết quả này chưa cao do một số nguyên nhân như nhóm nghiên cứu chưa sử dụng đến
hình ảnh độ sâu (Depth) được cung cấp, các đặc trưng khi trích chọn ảnh huấn luyện
chưa đủ nhiều, bao hết các trường hợp trên tập thử nghiệm. Với những nguyên nhân
184
Bảng B.3 Kết quả điểm nhận dạng đối tượng CSDL Robot Vision 2013
TT Đội thi Tổng điểm Kết quả tham dự
1 MIAR ICT 6033.5 1367338469342_result5.txt
2 MIAR ICT 5924.25 1367337521811_result1.txt
3 MIAR ICT 5924.25 1367338031442_result3.txt
4 MIAR ICT 5867.5 1367338141275_result4.txt
5 MIAR ICT 5867 1367337920393_result2.txt
6 NUDT 5722.5 1367330362498_Submission_zy.results
7 SIMD* 5004.75 1366035468189_exampletest.results
8 REGIM 4638.875 1367938209005_results2 (1).results
9 MICA 4497.875 1367489769671_MICA_RobotVision_2.txt
10 REGIM 3763.75 1367937984977__results1 (1).results
11 MICA 3316.125 1367487985297_MICA_RobotVision_1.txt
12 MICA 2680.625 1368014381988_MICA_RobotVision_3.txt
13 GRAM -487 1368038785876_gram_3dspmk_l2_k400.txt
14 GRAM -497 1368090179987_gram_3dspmk_l2_k800.txt
15 GRAM -497 1368090208187_gram_3dspmk_l2_k1000.txt
16 NUDT -866.25 1367376643434_Submission_yl.results
đó chúng tôi đề xuất kết hợp 02 nguồn dữ liệu màu sắc (RGB) và ảnh độ sâu (Depth)
để nhận dạng chính xác có trong khung cảnh đề xuất.
Thuật toán chạy cấu hình máy tính (CHIP Intel(R) Core(TM) i5-2520M CPU @
3.2 GHz x 2, RAM 8GB), kích thước ảnh trung bình 640 × 480, thời gian tính toán
trêm một ảnh 90.3 ms/ ảnh.
- CSDL PascalVOC 2007: Với đồ thị AP trong Hình B.13 có thể thấy rằng
đặc trưng GIST và bộ phân lớp k-NN khi chạy với CSDL Pascal VOC 2007 cho kết
quả trung bình, với AP=0.164, trong đó các đồ thị AP các lớp đối tượng trong Hình
B.14 thấy rõ vai trò đặc trưng GIST được sử dụng nhận dạng đối tượng cho kết quả
tốt nhất trong các lớp người, ô tô, xe buýt, màn hình ti vi và không tốt đối với các lớp
còn lại. Lý do các đối tượng trong CSDL rất đa dạng, số lượng lớn đặc biệt một ảnh
chứa nhiều đối tượng. Tuy nhiên, GIST, k-NN cần phối hợp với các đặc trưng khác để
cho kết quả tốt hơn.
Một số hình ảnh về kết quả nhận dạng trên CSDL Pascal VOC 2007:
Hình B.15(a) khoanh vùng được đối tượng ô tô, người (ngồi trong ô tô), đặc biệt
với kỹ thuật quét cửa sổ trên toàn ảnh khoanh vùng được khóm cây bên đường, giống
như đối tượng chậu hoa có trong CSDL. Tuy nhiên, phương pháp này cũng cho kết
185
Hình B.13 Đồ thị AP của 20 lớp đối tượng CSDL PascalVOC 2007
Hình B.14 Đồ thị AP từng lớp đối tượng CSDL PascalVOC 2007
186
(b) Phaùt hieän ñuùng, thöøa(a) Phaùt hieän ñuùng
Hình B.15 Kết quả nhận dạng đối tượng trong CSDL Pascal VOC 2007
quả phát hiện thừa như Hình B.15(b) và Hình B.15(c).
(b). Nhaän nhaàm sang lôùp choù
(c) Nhaän nhaàm sang lôùp Boø
(a) Lôùp cöøu
Hình B.16 Kết quả nhận dạng đối tượng trong CSDL Pascal VOC 2007
Thuật toán nhận dạng đối tượng trên cơ sở dữ liệu PascalVOC 2007 chạy trên
máy tính cấu hình (CHIP Intel(R) Core(TM) i5-2520M CPU @ 3.2 GHz x 2, RAM
8GB). Kích thước trung bình của ảnh (380× 470) điểm ảnh, tốc độ tính toán đạt 150
ms/ảnh.
187
PHỤ LỤC C
THIẾT KẾ HỆ THỐNG THU THẬP DỮ LIỆU
C.1 Xe camera thu thập dữ liệu
- Ý tưởng thử nghiệm: sử dụng 02 camera bố trí vuông góc, thu dữ liệu đồng thời:
camera thứ nhất chiếu xuống đất thu hình ảnh mặt đường, camera thứ hai hướng về
phía trước thu thập dữ liệu khung cảnh, camera được gắn trên gậy; cầm tay; gắn trên
ghế; gắn trên xe đẩy hàng; gắn trên xe đạp mô tả trong Hình C.1.
(d) Gaén treân gaäy ngöôøi ñi boä
(c) Gaén xe ñaïp(a) Gaén treân gheá (b) Gaén xe ñaåy haøng
(e) Caàm treân tay ngöôøi ñi boä
Hình C.1 Một số giải pháp thu thập dữ liệu từ 2 camera
Với các thiết kế đã đề xuất trong Hình C.1, chúng tôi tiến hành đánh giá 02 kịch
bản trong nhà và ngoài trời như sau:
+ Kịch bản 1 (trong nhà): tại khu thực nghiệm - Đại học Gent - Vương quốc Bỉ,
định nghĩa 06 địa điểm (A, B, C, D, E, G) xuất phát từ A đi thành một vòng tròn
khép kín qua các điểm rồi quay trở lại về A, chiều dài hành trình là d = 89.4m
như Hình C.2(a). Phương pháp thu thập dữ liệu sử dụng ghế và xe đẩy hàng mô
188
tả như Hình C.1(a-b). Kết quả lệch so với thực địa được môi tả như Hình C.2(b)
A
B
C
D
E
G
A
B
C
G
D
E
Thöïc ñòa
Ñuùng
Sai
(a). Kòch baûn thöû nghieäm (b). Keát quaû veõ baûn ñoà
Xuaát
phaùt
Keát
thuùc
Xuaát
phaùt
Keát
thuùc
Hình C.2 Một số lỗi khi xây dựng bản đồ tại môi trường trong nhà
do cấu trúc mặt sàn không đồng nhất, số lượng đặc trưng không đồng đều gây
ra lỗi tích lũy.
+ Kịch bản 2 (ngoài trời): tại khuôn viên Đại học Gent - Vương quốc Bỉ, định nghĩa
06 địa điểm (A, B, C, D, E, G) xuất phát từ A qua các điểm rồi quay lại A, chiều
dài d = 320m như Hình C.3(a). Phương pháp thu thập dữ liệu sử dụng gậy, xe
đạp và người đi bộ mô tả như Hình C.1(c-d-e).
A
B
C
D
E
G
A
BC
G
D
E
Thöïc ñòa
Ñuùng
Sai
(a). Kòch baûn thöû nghieäm (b). Keát quaû veõ baûn ñoà
Xuaát
phaùt
Keát
thuùc
Xuaát
phaùt
Keát
thuùc
Hình C.3 Một số lỗi khi xây dựng bản đồ tại môi trường ngoài trời
Kết quả lệch với thực địa như Hình C.3(b) do tại những điểm có mật độ các đặc trưng
ít dẫn tới việc sai số tích lũy làm thay đổi hành trình.
- Nhận xét và đánh giá: Kết quả không đạt được những tiêu chí đặt ra như hình
ảnh bị rung, nghiêng. Đặc biệt khi số lượng camera lớn hơn 2, thì việc lắp đặt trở lên
189
khó khăn hay khó để xác định một khoảng cách cụ thể để cố định camera theo các
hướng yêu cầu.
- Mục đích thiết kế xe camera: Hệ thống định vị và xây dựng bản đồ môi trường
trong luận án dựa trên 2 giải thuật cơ bản là VO* và FAB-MAP*, trong đó:
+ Giải thuật xây dựng bản đồ môi trường VO*: sử dụng 01 camera gắn trên xe
với một góc nhìn nào đó trúc xuống mặt đường. Nguyên lý trong VO là chỉ xem
xét đến các điểm đặc trưng trích chọn trên mặt phẳng để đơn giản phép tính
homography và phép ánh xạ ngược 2D-3D.
+ Giải thuật định vị hình ảnh FAB-MAP*: sử dụng 1 camera góc rộng (camera IP)
thu thập các hình ảnh khung cảnh phía trước, nguyên lý của FAP-MAP* sử dụng
xác suất có điều kiện Bayes giữa một quan sát hiện thời với một loạt các quan
sát trước đó để quyết định vị trí đã được định nghĩa trên bản đồ môi trường.
Do vậy cần có một nguồn dữ liệu được thu thập, đồng thời phục vụ cho pha huấn
luyện của hai giải thuật có chất lượng hình ảnh tốt. Chúng tôi đã đề xuất thiết kế và
chế tạo xe camera không phụ thuộc nhiều vào nguồn điện và truyền thông, được mô
tả như Hình C.4.
(a) Baûn veõ thieát keá (b) Xe hoaøn chænh
Hình C.4 Thiết kế xe camera thu thập dữ liệu
Hình C.4(a) mô tả chi tiết thiết kế xe camera kích thước: dài 1.3 m, rộng 0.6m,
cao 1m (độ cao này có thể thay đổi 1.2m nhờ 4 khóa định vị); cơ cấu bánh 4 bánh (02
bánh hơi giảm sóc, 02 bánh nhựa chuyên động quay); mặt sàn được khoan các lỗ (cách
nhau 20 cm, đường kính lỗ Φ = 0.5mm) giúp cố định nhiều thiết bị thu thập; thanh
chữ L (chiều dài 50cm) cố định camera theo các hướng; bảng bàn cờ (độ cao cách sàn
60 cm) di chuyển ngang giúp việc hiệu chỉnh các tham số trong và ngoài của camera;
190
vật liệu sử dụng innox chống gỉ sét. Hình C.4(b) thiết kế xe hoàn chỉnh gắn 2 camera
thu dữ liệu.
C.2 Hiệu chỉnh camera góc rộng
- Mục đích quá trình hiệu chỉnh: Thu thập được hình ảnh có chất lượng tốt, ổn
định phục vụ cho cho một loạt các bài toán như định vị, xây dựng bản đồ, tìm đường,
phát hiện vật cản... Do vậy các bước tiền xử lý hiệu chỉnh camera là rất quan trọng
giúp cho các thuật toán chạy nhanh hơn, loại bỏ được các lỗi ngoại lai khó phát hiện.
Quá trình hiệu chỉnh là việc xác định được 2 ma trận: ma trận nội tại (Intrinsic
Matrix) và ma trận biến dạng (Distortion Matrix). Trong [15] các camera thông dụng
hoạt động theo nguyên lý thu ảnh đối xứng như ở Hình C.5. Do vậy, nếu q là điểm thu
được từ Camera và Q là điểm trong thực tế, thì ta có:
Maët phaúng
 aûnh
Ñieåm thu 
nhaän aûnh
Truïc quang hoïc
Hình C.5 Mô hình thu nhận ảnh của camera
q = MQ , trong đó q =

xy
ω

 ,M =

fx 0 00 fy 0
0 0 1

 và Q =

XY
W

 (C.1)
Trong đó: fx và fy lần lượt là chiều dài tiêu cựu của camera, (Z, Y, Z) là tọa độ
của điểm Q. Tuy nhiên, tọa độ của camera không phải lúc nào cũng thẳng mà đôi khi
bị lệch. Để khắc phục điều này người ta cần thêm vào 2 hệ số cx và cy để đưa góc thu
nhận ảnh về vị trí ở trung tâm. Do đó công thức (C.1) trở thành:
q = MQ , trong đó q =

xy
ω

 ,M =

fx 0 cx0 fy cy
0 0 1

 và Q =

XY
W

 (C.2)
Ma trậnM trong công thức (C.2) được gọi là ma trận nội tại. Trong thực tế không
191
có camera nào hoàn hoản nên khi làm việc với camera luôn phải giải quyết vấn đề biến
dạng hình ảnh.
[15] đưa ra 2 loại: biến dạng bán kính (Radial Distortion), ảnh thu nhận được từ
ống kính thường bị biến dạng ở những chỗ gần cạnh và biến dạng tiếp tuyến (Tangential
Distortion) xảy ra khi không song song với ống kính như Hình C.6.
OÁng kính
AÛnh meùo
Camera thoâng duïng
OÁng kính
Ñieåm 
baùn dính
Chíp 
caûm bieán
Maët phaúng
 aûnh
Ñoái töôïng 
hình vuoâng
6
4
2
0
-2
-4
-6
-8
-10
(b). Bieán daïng tieáp tuyeán(a). Bieán daïng baùn kính
-10 -8 -6 -4 -2 0 2 4 6 8 10
Hình C.6 Các loại biến dạng khi thu nhận ảnh
Qua thực nghiệm, biến dạng thường không lớn và có thể chuẩn hóa bằng cách
sử dụng một vài hệ số đầu tiên trong triển khai Taylor xung quanh bán kính r = 0.
Để hiệu chỉnh loại biến dạng này người ta thường thêm 02 hệ số k1 và k2 đối với méo
thông thường, còn trường hợp méo lớn sử dụng thêm hệ số k3. Do vậy, biến dạng bán
kính của một điểm được hiệu chỉnh bởi cặp phương trình sau:
xcorrected = x(1 + k1r
2 + k2r
4 + k3r
6)
ycorrected = y(1 + k1r
2 + k2r
4 + k3r
6)
(C.3)
Trong đó (x, y) là tọa độ của điểm thu nhận bởi camera, (xcorrected, ycorrected) là tọa độ
sau khi đã khử biến dạng.
Bằng cách làm tương tự đối với biến dạng tiếp tuyến thì hai hệ số p1 và p2 được
bổ sung vào hệ tọa độ (x, y) của camera được điều chỉnh bằng cặp phương trình sau:
xcorrected = x+ [2p1y + p2(r
2 + 2x2)]
ycorrected = y + [p1(r
2 + 2y2) + 2p2x]
(C.4)
Năm hệ số ở công thức (C.3) và công thức (C.4) được gom lại thành một ma trận
(5× 1) và gọi là ma trận biến dạng trong công thức (C.5).
Distortioncoefficients = (k1 k2 p1 p2 k3 ) (C.5)
Trong khuôn khổ của luận án, chúng tôi sử dụng phương pháp ô bàn cờ (chess-
192
board) [15] bao gồm các ô hình vuông đen trắng giao nhau, quá trình hiệu chỉnh được
thực hiện khi biết được vị trí giao nhau giữa các ô đen trắng để tính ra các bộ tham
số méo của ảnh. Sau đó kết hợp với tọa độ ảnh thu thập tìm ra tọa độ trong không
gian theo công thức (C.4), trong đó (xcorrected, ycorrected) tọa độ không gian, (x, y) tọa
hộ ảnh thu thập, (r, p1, p2) bộ tham số lấy được từ quá trình hiệu chỉnh camera. Công
thức chuyển tọa độ ảnh sang hệ tọa độ không gian:

xy
ω

 =

fx 0 cx0 fy cy
0 0 1



XY
Z

 (C.6)
Trong đó (fx, fy) là tiêu cựu của ống kính, (cx, cy) điểm tâm quang, (ω = Z) hệ quy
chiếu thế giới thực.
Quá trình hiệu chỉnh Camera phục vụ việc sửa méo hình ảnh được thực hiện tuần
tự và được mô tả Hình C.7
(a) Hình aûnh chöa hieäu chænh (c) Hình aûnh ñaõ hieäu chænh(b) Hieäu chænh treân chessboard
Hình C.7 Quá trình hiệu chỉnh méo hình ảnh từ camera góc nhìn rộng
Hình C.7 minh họa kết quả hiệu chỉnh camera tại môi trường thử nghiệm của luận
án. Đây là một bước tiền xử lý quan trọng, phục vụ cho các bài toán liên quan đến
hình ảnh như: định vị, phát hiện và ước lượng khoảng cách vật cản...
C.3 Robot PC-Bot914
PC-Bot 914 là robot được nghiên cứu và chế tạo bởi WhiteBox robotic. Đây là
một robot dịch vụ đa chức năng với nền tảng xử lý mạnh bao gồm các thành phần:
- Khối xử lý trung tâm: Được sử dụng là một máy tính chủ (host computer),
có cấu hình iGoLogic i3899 Mini-ITX motherboard, bộ xử lý intel Core 2 DUO 2 GHz,
1 Gbyte, PC3200 DDR 400MHz DIMM (có thể nâng cấp lên 2x1 GB DDR 667MHz),
ổ cứng 80 GB SATA. Cung cấp sức mạnh xử lý và lưu trữ dữ liệu đa phương tiện và
cho phép nâng cấp dễ dàng. ROBOT dùng hệ điều hành Windows. Trên mỗi hệ điều
193
C0189168#06 C0189168#10 C0189168#07 C0189168#08 
Hình C.8 Các phiên bản của robot PC-Bot 914
hành đều có cung cấp các môi trường phát triển. Trên windows với khá nhiều phần
mềm như BRAIN, Microsoft Robotic Studio hay là Visual Studio vì 914 PC-Bot đã hỗ
trợ dot Net. Ngoài ra trên một số diễn đàn đã có những chương trình phát triển với
java hay C++. Đối với các phiên bản cài Linux (Ubuntu) thì có công cụ Players.
- Khối điều khiển trung tâm (M3): Hạt nhân của khối là 2 vi điều khiển
CM3410 của hãng Power machine device. Bên cạnh đó là mạch điều khiển động cơ và
mạch giao tiếp. Nhiệm vụ của khối M3 là nhận tín hiệu thiết lập từ Host Computer
(qua cổng USB), tín hiệu từ các cảm biến hồng ngoại (qua mạch giao tiếp) và thực
hiện tất các cả công việc liên quan đến việc chuyển động như điều khiển 2 động cơ
bước. Phần giao tiếp của M3 gồm 8 cổng vào tương tự (Analog_In1 à Analog_In8) để
nhận tín hiệu từ 8 cảm biến hồng ngoại, 8 cảm biến này sẽ cho 8 bit dữ liệu sau khi
tín hiệu được đi qua một bộ ADC. Ngoài ra còn nhiều cổng chưa được sử dụng, như:
8 cổng vào số; 8 cổng ra số; 2 cổng USB; 1 cổng IDC; 10 chân dùng để kết nối với bo
mạch chủ. Ngoài ra còn 30 pin Samtec Conn dùng để kết nối với mạch khối điều khiển
M3 . Trong thế hệ mới thì chỉ có một mạch I/O board Interface vì chỉ cần 1 mạch là
đủ đáp ứng các nhu cầu khác nhau. Tuy nhiên ta có thể chọn 1 hoặc 2 tùy thuộc vào
nhu cầu cụ thể.
- Khối thu thập dữ liệu: 8 cảm biến hồng ngoại phục vụ cho các bài toán liên
quan đến robot di động như: phát hiện và tránh vật cản được bố trí thành 2 phần:
3 cảm biến nằm ở phần thân robot, khoang 8×5.25 trên cùng (ở độ cao khoảng 370
mm). Góc nhìn hơi cúi xuống cho phép 914 PC-BOT có cái nhìn toàn cảnh với 5 cảm
biến nằm ở phần chân đế với góc nhìn nằm ngang, mô tả Hình C.9
- Khối chấp hành: Bao gồm 2 động cơ một chiều điều khiển bộ bánh xe 4 bánh
xe robot trong đó, 2 bánh lớn dẫn hướng, 2 bánh phụ giảm sóc cho robot Hình C.10.
194
(IR1)
(IR2)
(IR3)
(IR4)
(IR5)
90>
25>
0>
-25>
-90>
(a). 05 caûm bieán hoàng ngoaïi phaùt hieän
vaät caûn phía döôùi
(IR 2, IR3, IR4) (IR 1 & IR5)
(b). Vò trí laép caùc caûm bieán hoàng ngoaïi
(IR 6, IR7, IR8)
Hình C.9 Vị trí lắp các cảm biển hồng ngoại IR
Hình C.10 Cơ cấu bánh xe điều khiển của robot PC-Bot 914
195

File đính kèm:

  • pdfluan_an_nghien_cuu_va_phat_trien_mot_so_ky_thuat_dinh_vi_dua.pdf