Luận án Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị
Năm 2013, theo công bố của Tổ chức Y tế thế giới (WHO) trên thế giới có khoảng
285 triệu người suy giảm thị lực, trong đó 246 triệu người có thị lực kém ở mức độ vừa
phải đến mức độ nặng và 39 triệu người mù [107]. Tại Việt Nam, theo số liệu của Viện
mắt Trung ương cung cấp, có khoảng 1.2 triệu NKT, trong đó 820.503 người không
còn khả năng nhìn thấy ánh sáng. Nếu tính cả những người bị các tật về mắt như cận
hoặc viễn thì con số này còn lớn hơn rất nhiều.
Số lượng NKT lớn, bản thân NKT gặp nhiều khó khăn trong cuộc sống cũng như
nắm bắt các cơ hội việc làm. Chính vì vậy, trợ giúp NKT là vấn đề thu hút sự quan
tâm của nhiều nhà khoa học trong thời gian gần đây. Trong số các yêu cầu trợ giúp,
trợ giúp định hướng là cần thiết và chỉ dẫn để giúp họ tránh các vật cản trên đường
đi hay đưa ra các thông báo về môi trường xung quanh.
Trên thực tế, nhiều phương pháp đã được nghiên cứu và triển khai nhằm hỗ trợ
định hướng cho NKT, như sử dụng gậy [32], chó dẫn đường [32], hay thiết bị điện tử
[14]. Mỗi phương pháp có những ưu nhược điểm riêng: gậy dẫn đường bị hạn chế phạm
vi phát hiện vật cản theo kích thước của gậy; chó dẫn đường thường có chi phí cao và
gây trở ngại về tâm sinh lý đối với người dùng; thiết bị điện tử như các điện cực đặt
trên lưỡi có thể gây tâm lý ngại ngần khi sử dụng.
Trong bối cảnh này, nghiên cứu và phát triển một hệ thống trợ giúp dẫn đường
hiệu quả và thân thiện trợ giúp NKT vẫn là chủ đề đầy thách thức, động lực để NCS
thực hiện đề tài: “Nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh,
ứng dụng trợ giúp dẫn đường cho người khiếm thị”.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN QUỐC HÙNG NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội − 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN QUỐC HÙNG NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 62480101 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Trần Thị Thanh Hải 2. PGS.TS. Nguyễn Quang Hoan Hà Nội −2016 LỜI CAM ĐOAN Tôi xin cam đoan luận án: “Nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị” là công trình nghiên cứu của riêng tôi. Một phần các số liệu, kết quả trình bày trong luận án là trung thực, đã được công bố trên các tạp chí khoa học chuyên ngành, kỷ yếu hội nghị khoa học trong nước và quốc tế. Phần còn lại của luận án chưa được công bố trong bất kỳ công trình nghiên cứu trong và ngoài nước. Hà Nội, ngày 20 tháng 7 năm 2016 NGHIÊN CỨU SINH Nguyễn Quốc Hùng TẬP THỂ HƯỚNG DẪN KHOA HỌC TS. Trần Thị Thanh Hải PGS.TS. Nguyễn Quang Hoan i LỜI CẢM ƠN Luận án tiến sĩ được thực hiện tại Viện Nghiên cứu Quốc tế MICA, trường Đại học Bách khoa Hà Nội dưới sự hướng dẫn khoa học của TS. Trần Thị Thanh Hải và PGS.TS. Nguyễn Quang Hoan. Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới các thầy, cô về định hướng khoa học trong suốt quá trình nghiên cứu. Nghiên cứu sinh xin được trân trọng cảm ơn các nhà khoa học, tác giả các công trình công bố đã được trích dẫn và cung cấp nguồn tư liệu quý báu trong quá trình hoàn thành luận án. Nghiên cứu sinh xin trân trọng cảm ơn Viện Nghiên cứu Quốc tế đa phương tiện MICA; Viện Đào tạo sau Đại học Trường Đại học Bách Khoa Hà Nội; GS.TS. Phạm Thị Ngọc Yến; GS.TS. Eric Castelli; đề tài KHCN tiềm năng mã số: KC.01.TN19/11-15, đề tài VLIR mã số: ZEIN2012RIP19; đề tài hợp tác Việt - Bỉ mã số: FWO.102.2013.08; Quỹ phát triển KH&CN quốc gia Việt Nam; Trường THCS Nguyễn Đình Chiểu Hà Nội; nhóm nghiên cứu IPI Đại học GENT Vương quốc Bỉ...đã tạo điều kiện thuận lợi về thời gian, địa điểm thực tập, trang thiết bị, hỗ trợ về mặt nhân lực để NCS thực hiện việc thu thập dữ liệu, thực nghiệm các kết quả nghiên cứu. Cuối cùng nghiên cứu sinh xin bày tỏ sự biết ơn tới Ban giám hiệu Trường Cao đẳng Y tế Thái Nguyên; gia đình và đồng nghiệp đã động viên khích lệ, tạo mọi điều kiện thuận lợi để NCS yên tâm công tác và học tập. Hà Nội, ngày 20 tháng 7 năm 2016 NGHIÊN CỨU SINH Nguyễn Quốc Hùng ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ xv MỞ ĐẦU 1 1 TỔNG QUAN VỀ HỆ THỐNG TRỢ GIÚP NGƯỜI KHIẾM THỊ 4 1.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1 Các nghiên cứu trên thế giới . . . . . . . . . . . . . . . . . . . . 4 1.2.1.1 Siêu âm . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1.2 Hồng ngoại . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.1.3 Laser . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.1.4 Camera . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.1.5 Đa cảm biến . . . . . . . . . . . . . . . . . . . . . . . 9 1.2.2 Các nghiên cứu trong nước . . . . . . . . . . . . . . . . . . . . . 10 1.2.3 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3 Mục tiêu nghiên cứu và phương pháp đề xuất . . . . . . . . . . . . . . 12 1.3.1 Mục tiêu và phạm vi nghiên cứu . . . . . . . . . . . . . . . . . . 12 1.3.2 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4 Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2 BIỂU DIỄN MÔI TRƯỜNG VÀ ĐỊNH VỊ 14 2.1 Giới thiệu chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2 Những nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.1 Hướng tiếp cận sử dụng bản đồ số liệu . . . . . . . . . . . . . . 15 2.2.2 Hướng tiếp cận sử dụng bản đồ topo . . . . . . . . . . . . . . . 17 2.2.3 Hướng tiếp cận lai . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.4 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 iii 2.3 Đề xuất hướng tiếp cận lai ngữ nghĩa biểu diễn môi trường . . . . . . . 22 2.4 Phương pháp xây dựng bản đồ môi trường . . . . . . . . . . . . . . . . 23 2.4.1 Xây dựng bản đồ số liệu . . . . . . . . . . . . . . . . . . . . . . 23 2.4.1.1 Phương pháp đo hành trình bằng hình ảnh sử dụng mô hình không chắc chắn . . . . . . . . . . . . . . . . . . 24 2.4.1.2 Thích nghi VO cho môi trường trong nhà . . . . . . . 27 2.4.2 Xây dựng bản đồ topo . . . . . . . . . . . . . . . . . . . . . . . 29 2.4.2.1 Giải thuật FAB-MAP . . . . . . . . . . . . . . . . . . 30 2.4.2.2 Thích nghi và cải thiện FAB-MAP xây dựng bản đồ topo 39 2.4.3 Bổ sung thông tin đối tượng vật cản tĩnh trên bản đồ . . . . . . 44 2.5 Phương pháp định vị . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.6.1 Môi trường đánh giá . . . . . . . . . . . . . . . . . . . . . . . . 45 2.6.2 Thu thập dữ liệu đánh giá . . . . . . . . . . . . . . . . . . . . . 46 2.6.2.1 Hệ thống thu thập dữ liệu . . . . . . . . . . . . . . . . 46 2.6.2.2 Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . 47 2.6.3 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.6.3.1 Đánh giá phương pháp xây dựng bản đồ số liệu . . . . 48 2.6.3.2 Đánh giá phương pháp định vị hình ảnh . . . . . . . . 53 2.7 Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3 PHÁT HIỆN VÀ ƯỚC LƯỢNG KHOẢNG CÁCH VẬT CẢN 60 3.1 Định nghĩa bài toán và các thách thức . . . . . . . . . . . . . . . . . . 60 3.2 Những nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2.1 Các phương pháp sử dụng 01 camera . . . . . . . . . . . . . . . 61 3.2.1.1 Hướng nghiên cứu sử dụng stereo camera . . . . . . . 62 3.2.1.2 Hướng nghiên cứu sử dụng cảm biến Kinect . . . . . . 64 3.2.1.3 Phân tích và đánh giá các phương pháp . . . . . . . . 65 3.3 Đề xuất phương pháp phát hiện và ước lượng khoảng cách . . . . . . . 66 3.4 Phát hiện vật cản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.4.1 Phát hiện vật cản cố định . . . . . . . . . . . . . . . . . . . . . 67 3.4.1.1 Đối sánh các điểm đặc trưng . . . . . . . . . . . . . . 68 3.4.1.2 Phát hiện vật cản từ kết quả đối sánh . . . . . . . . . 71 3.4.1.3 Xác định vùng chứa đối tượng . . . . . . . . . . . . . . 74 3.4.2 Phát hiện vật cản động . . . . . . . . . . . . . . . . . . . . . . . 75 3.4.2.1 Trích chọn đặc trưng HoG . . . . . . . . . . . . . . . . 75 3.4.2.2 Bộ phân loại SVM . . . . . . . . . . . . . . . . . . . . 76 3.5 Uớc lượng khoảng cách vật cản . . . . . . . . . . . . . . . . . . . . . . 77 3.5.1 Nguyên lý ước lượng khoảng cách . . . . . . . . . . . . . . . . . 77 iv 3.5.2 Xây dựng bản đồ chênh lệch . . . . . . . . . . . . . . . . . . . . 79 3.5.2.1 Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . 80 3.5.2.2 Hiệu chỉnh hình ảnh . . . . . . . . . . . . . . . . . . . 80 3.5.2.3 Đối sánh hình ảnh . . . . . . . . . . . . . . . . . . . . 84 3.5.2.4 Tính toán độ sâu . . . . . . . . . . . . . . . . . . . . . 86 3.6 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.6.1 Xây dựng cơ sở dữ liệu vật cản . . . . . . . . . . . . . . . . . . 88 3.6.2 Đánh giá giải thuật phát hiện đối tượng . . . . . . . . . . . . . 90 3.6.3 Đánh giá giải thuật ước lượng khoảng cách vật cản . . . . . . . 93 3.7 Kết luận chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4 PHÁT TRIỂN VÀ THỬ NGHIỆM HỆ THỐNG DẪN ĐƯỜNG 99 4.1 Hệ thống tích hợp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.1.1 Tích hợp phần cứng . . . . . . . . . . . . . . . . . . . . . . . . 99 4.1.2 Kiến trúc tổng thể . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2 Phát triển hệ thống dẫn đường sử dụng robot . . . . . . . . . . . . . . 102 4.2.1 Tìm đường cho robot . . . . . . . . . . . . . . . . . . . . . . . . 102 4.2.2 Điều khiển robot . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.2.2.1 Điều khiển trực tiếp dựa trên đường đi xác định . . . . 103 4.2.2.2 Điều khiển theo dự báo và hiệu chỉnh vị trí của bộ lọc Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2.3 Tương tác người-robot . . . . . . . . . . . . . . . . . . . . . . . 111 4.3 Thử nghiệm và đánh giá hệ thống dẫn đường . . . . . . . . . . . . . . 112 4.3.1 Môi trường và quy trình thử nghiệm . . . . . . . . . . . . . . . 112 4.3.1.1 Môi trường thử nghiệm . . . . . . . . . . . . . . . . . 112 4.3.1.2 Quy trình thử nghiệm . . . . . . . . . . . . . . . . . . 115 4.3.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 116 4.3.2.1 Đánh giá khả năng xác định vị trí xuất phát của robot 116 4.3.2.2 Đánh giá khả năng điều khiển robot . . . . . . . . . . 117 4.3.2.3 Đánh giá khả năng tương tác người-robot . . . . . . . 119 4.3.2.4 Đánh giá hệ thống dẫn đường trợ giúp NKT bằng robot 121 4.3.3 Bàn luận hệ thống robot dẫn đường . . . . . . . . . . . . . . . . 130 4.4 Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133 TÀI LIỆU THAM KHẢO 136 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 148 PHỤ LỤC 151 v A MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG 151 A.1 Đặc trưng Harris Corner . . . . . . . . . . . . . . . . . . . . . . . . . . 151 A.2 Đặc trưng SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 A.3 Đặc trưng SURF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 A.4 Đặc trưng GIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 A.5 Đặc trưng HoG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 A.6 Đặc trưng Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 B ĐÁNH GIÁ HIỆU NĂNG NHẬN DẠNG TRÊN MỘT SỐ CSDL 173 B.1 Giới thiệu 3 CSDL thử nghiệm . . . . . . . . . . . . . . . . . . . . . . 173 B.2 Khung nhận dạng đối tượng tổng quát . . . . . . . . . . . . . . . . . . 177 B.3 Độ đo đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 B.4 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 C THIẾT KẾ HỆ THỐNG THU THẬP DỮ LIỆU 188 C.1 Xe camera thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . 188 C.2 Hiệu chỉnh camera góc rộng . . . . . . . . . . . . . . . . . . . . . . . . 191 C.3 Robot PC-Bot914 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT TT Viết tắt Nghĩa đầy đủ (tiếng Việt/tiếng Anh) 1 AM Appearance based Mapping 2 AP Average Precision 3 BOW Bag of Words 4 CSDL Cơ sở dữ liệu 5 ED Euclidean Distance 6 FAB-MAP Fast Appearance Based Mapping 7 FLANN Fast Library for Approximate Nearest Neighbors 8 FN False Negative 9 FP False Positive 10 GPS Global Positioning System 11 HOG Histogram of Oriented Gradients 12 HSI Hue Saturation and Intensity 13 KF Kalman Filter 14 KH&CN Khoa học và Công nghệ 15 k-NN K-Nearest Neighbors 16 LASER Light Amplification by Stimulated Emission of Radiation 17 LATS Luận án tiến sĩ 18 LIDAR Light Detection And Ranging 19 MICA Multimedia, Information, Communication & Applications 20 MUT Motion Uncertainty Tetragon 21 NCS Nghiên cứu sinh 22 NĐC Nguyễn Đình Chiểu 23 NKT Người khiếm thị 24 PUT Perspective Uncertainty Tetragons 25 RANSAC RANdom SAmple Consensus 26 RFID Radio Frequency Identification 27 RGB Red Green and Blue 28 RMSE Root Mean Square Error 29 SAD Sum of Absolute Differences 30 SIFT Scale Invariant Feature Transforms 31 SLAM Simultaneous Localization and Mapping 32 SURF Speeded Up Robust Features 33 SVM Support Vector Machine 34 TP True Positive 35 TQB Tạ Quang Bửu 36 VO Visual Odometry 37 WIFI Wireless Fidelity vii DANH MỤC CÁC BẢNG Bảng 2.1 Bảng tổng hợp thông tin về 03 môi trường thử nghiệm . . . . . . 46 Bảng 2.2 Tốc độ lấy mẫu (fps) của các camera tại các môi trường thử nghiệm 47 Bảng 2.3 Dữ liệu thu thập tại E1:NĐC . . . . . . . . . . . . . . . . . . . . 47 Bảng 2.4 Dữ liệu thu thập tại E2:TQB . . . . . . . . . . . . . . . . . . . . 47 Bảng 2.5 Dữ liệu thu thập tại E3:MICA . . . . . . . . . . . . . . . . . . . 47 Bảng 2.6 Kết quả đánh giá RMSE tại E1:NĐC . . . . . . . . . . . . . . . . 48 Bảng 2.7 Kết quả đánh giá độ sai số tiêu chuẩn RMSE tại E2:TQB . . . . 50 Bảng 2.8 Kết quả đánh giá độ sai số tiêu chuẩn RMSE tại E3:MICA . . . . 52 Bảng 2.9 So sánh khả năng định vị của giải thuật FAB-MAP* tại E1:NĐC 54 Bảng 2.10 Kết quả đánh giá so sánh giải thuật định vị FAB-MAP* tại E2:TQB 56 Bảng 2.11 Kết quả đánh giá so sánh giải thuật định vị FAB-MAP* tại E3:MICA 57 Bảng 3.1 Kết quả thu nhận dữ liệu khung cảnh/đường đi phục vụ đánh giá 88 Bảng 3.2 Thu thập dữ liệu đánh giá phát hiện và ước lượng khoảng cách vật cản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Bảng 3.3 Kết quả phát hiện đối tượng theo phương pháp đề xuất . . . . . 91 Bảng 3.4 Kết quả phát đánh giá so sánh với phương pháp Haar-AdaBoost 91 Bảng 3.5 Kết quả dự đoán độ sai số ước lượng khoảng cách vật cản . . . . 93 Bảng 4.1 Danh sách tham gia thử nghiệm dẫn đường tại E1:NĐC . . . . . 112 Bảng 4.2 Danh sách tham gia đánh giá hệ thống dẫn đường tại E2:TQB . 113 Bảng 4.3 Danh sách tham gia đánh giá hệ thống dẫn đường tại E3:MICA . 114 Bảng 4.4 Kết quả đánh giá điểm xuất phát của robot . . . . . . . . . . . . 117 Bảng 4.5 Kết quả đánh giá vai trò lọc Kalman trong điều khiển robot . . . 118 Bảng 4.6 Kết quả sai số định vị sử dụng sai số trung vị . . . . . . . . . . . 118 viii Bảng 4.7 Kết quả sai số định vị sử dụng sai số trung bình . . . . . . . . . . 119 Bảng 4.8 Bảng câu hỏi phỏng vấn trước và sau khi sử dụng hệ thống . . . 119 Bảng 4.9 Tổng hợp kết quả tần số rung (Hz) phản hồi thông tin môi trường 121 Bảng 4.10 Kết quả đánh giá độ sai số RMSE khi robot chuyển động tịnh tiến 122 Bảng 4.11 Kết quả đánh giá hiệu năng robot dẫn đường chuyển động tịnh tiến122 Bảng 4.12 Kết quả đánh giá robot dẫn đường chuyển động tịnh tiến . . . . 123 Bảng 4.13 Kết quả đánh giá độ sai số RMSE với kịch bản robot chuyển động tịnh tiến và quay tại E1:NĐC . . . . . . . . . . . . . . . . . . . . . . . 123 Bảng 4.14 Kết quả robot dẫn đường chuyển động quay và tịnh tiến tại E1:NĐC124 Bảng 4.15 Đánh giá các lần thử nghiệm hệ thống dẫn đường tại E1:NĐC . . 125 Bảng 4.16 Kết quả sai số RMSE robot phát hiện vật cản xuất hiện bất ngờ tại E1:NĐC . . . . . . . . . . . ... toán đạt 88.12 ms/ ảnh. - CSDL Robot Vision 2013: Đã có 16 kết quả của các đội thi đến từ các nhóm nghiên cứu trên thế giới gửi tới cuộc thi Robot Vision, trong đó nhóm MICA gửi 03 kết quả dự thi, cụ thể như sau. Phương pháp nhận dạng được đề xuất sử dụng giải thuật kết hợp GIST k-NN để nhận dạng khung cảnh trước khi nhận dạng các đối tượng. Kết quả nhận dạng minh họa ở Hình B.12. (b) Phaùt hieän nhaàm(a) Phaùt hieän ñuùng Hình B.12 Một số kết quả nhận dạng đúng/sai CSDL RobotVision2013 Nhóm nghiên cứu MICA đứng thứ 9/16 kết quả đạt số điểm 4497.875 điểm, kết quả xếp hạng có trong Bảng B.3. Kết quả này chưa cao do một số nguyên nhân như nhóm nghiên cứu chưa sử dụng đến hình ảnh độ sâu (Depth) được cung cấp, các đặc trưng khi trích chọn ảnh huấn luyện chưa đủ nhiều, bao hết các trường hợp trên tập thử nghiệm. Với những nguyên nhân 184 Bảng B.3 Kết quả điểm nhận dạng đối tượng CSDL Robot Vision 2013 TT Đội thi Tổng điểm Kết quả tham dự 1 MIAR ICT 6033.5 1367338469342_result5.txt 2 MIAR ICT 5924.25 1367337521811_result1.txt 3 MIAR ICT 5924.25 1367338031442_result3.txt 4 MIAR ICT 5867.5 1367338141275_result4.txt 5 MIAR ICT 5867 1367337920393_result2.txt 6 NUDT 5722.5 1367330362498_Submission_zy.results 7 SIMD* 5004.75 1366035468189_exampletest.results 8 REGIM 4638.875 1367938209005_results2 (1).results 9 MICA 4497.875 1367489769671_MICA_RobotVision_2.txt 10 REGIM 3763.75 1367937984977__results1 (1).results 11 MICA 3316.125 1367487985297_MICA_RobotVision_1.txt 12 MICA 2680.625 1368014381988_MICA_RobotVision_3.txt 13 GRAM -487 1368038785876_gram_3dspmk_l2_k400.txt 14 GRAM -497 1368090179987_gram_3dspmk_l2_k800.txt 15 GRAM -497 1368090208187_gram_3dspmk_l2_k1000.txt 16 NUDT -866.25 1367376643434_Submission_yl.results đó chúng tôi đề xuất kết hợp 02 nguồn dữ liệu màu sắc (RGB) và ảnh độ sâu (Depth) để nhận dạng chính xác có trong khung cảnh đề xuất. Thuật toán chạy cấu hình máy tính (CHIP Intel(R) Core(TM) i5-2520M CPU @ 3.2 GHz x 2, RAM 8GB), kích thước ảnh trung bình 640 × 480, thời gian tính toán trêm một ảnh 90.3 ms/ ảnh. - CSDL PascalVOC 2007: Với đồ thị AP trong Hình B.13 có thể thấy rằng đặc trưng GIST và bộ phân lớp k-NN khi chạy với CSDL Pascal VOC 2007 cho kết quả trung bình, với AP=0.164, trong đó các đồ thị AP các lớp đối tượng trong Hình B.14 thấy rõ vai trò đặc trưng GIST được sử dụng nhận dạng đối tượng cho kết quả tốt nhất trong các lớp người, ô tô, xe buýt, màn hình ti vi và không tốt đối với các lớp còn lại. Lý do các đối tượng trong CSDL rất đa dạng, số lượng lớn đặc biệt một ảnh chứa nhiều đối tượng. Tuy nhiên, GIST, k-NN cần phối hợp với các đặc trưng khác để cho kết quả tốt hơn. Một số hình ảnh về kết quả nhận dạng trên CSDL Pascal VOC 2007: Hình B.15(a) khoanh vùng được đối tượng ô tô, người (ngồi trong ô tô), đặc biệt với kỹ thuật quét cửa sổ trên toàn ảnh khoanh vùng được khóm cây bên đường, giống như đối tượng chậu hoa có trong CSDL. Tuy nhiên, phương pháp này cũng cho kết 185 Hình B.13 Đồ thị AP của 20 lớp đối tượng CSDL PascalVOC 2007 Hình B.14 Đồ thị AP từng lớp đối tượng CSDL PascalVOC 2007 186 (b) Phaùt hieän ñuùng, thöøa(a) Phaùt hieän ñuùng Hình B.15 Kết quả nhận dạng đối tượng trong CSDL Pascal VOC 2007 quả phát hiện thừa như Hình B.15(b) và Hình B.15(c). (b). Nhaän nhaàm sang lôùp choù (c) Nhaän nhaàm sang lôùp Boø (a) Lôùp cöøu Hình B.16 Kết quả nhận dạng đối tượng trong CSDL Pascal VOC 2007 Thuật toán nhận dạng đối tượng trên cơ sở dữ liệu PascalVOC 2007 chạy trên máy tính cấu hình (CHIP Intel(R) Core(TM) i5-2520M CPU @ 3.2 GHz x 2, RAM 8GB). Kích thước trung bình của ảnh (380× 470) điểm ảnh, tốc độ tính toán đạt 150 ms/ảnh. 187 PHỤ LỤC C THIẾT KẾ HỆ THỐNG THU THẬP DỮ LIỆU C.1 Xe camera thu thập dữ liệu - Ý tưởng thử nghiệm: sử dụng 02 camera bố trí vuông góc, thu dữ liệu đồng thời: camera thứ nhất chiếu xuống đất thu hình ảnh mặt đường, camera thứ hai hướng về phía trước thu thập dữ liệu khung cảnh, camera được gắn trên gậy; cầm tay; gắn trên ghế; gắn trên xe đẩy hàng; gắn trên xe đạp mô tả trong Hình C.1. (d) Gaén treân gaäy ngöôøi ñi boä (c) Gaén xe ñaïp(a) Gaén treân gheá (b) Gaén xe ñaåy haøng (e) Caàm treân tay ngöôøi ñi boä Hình C.1 Một số giải pháp thu thập dữ liệu từ 2 camera Với các thiết kế đã đề xuất trong Hình C.1, chúng tôi tiến hành đánh giá 02 kịch bản trong nhà và ngoài trời như sau: + Kịch bản 1 (trong nhà): tại khu thực nghiệm - Đại học Gent - Vương quốc Bỉ, định nghĩa 06 địa điểm (A, B, C, D, E, G) xuất phát từ A đi thành một vòng tròn khép kín qua các điểm rồi quay trở lại về A, chiều dài hành trình là d = 89.4m như Hình C.2(a). Phương pháp thu thập dữ liệu sử dụng ghế và xe đẩy hàng mô 188 tả như Hình C.1(a-b). Kết quả lệch so với thực địa được môi tả như Hình C.2(b) A B C D E G A B C G D E Thöïc ñòa Ñuùng Sai (a). Kòch baûn thöû nghieäm (b). Keát quaû veõ baûn ñoà Xuaát phaùt Keát thuùc Xuaát phaùt Keát thuùc Hình C.2 Một số lỗi khi xây dựng bản đồ tại môi trường trong nhà do cấu trúc mặt sàn không đồng nhất, số lượng đặc trưng không đồng đều gây ra lỗi tích lũy. + Kịch bản 2 (ngoài trời): tại khuôn viên Đại học Gent - Vương quốc Bỉ, định nghĩa 06 địa điểm (A, B, C, D, E, G) xuất phát từ A qua các điểm rồi quay lại A, chiều dài d = 320m như Hình C.3(a). Phương pháp thu thập dữ liệu sử dụng gậy, xe đạp và người đi bộ mô tả như Hình C.1(c-d-e). A B C D E G A BC G D E Thöïc ñòa Ñuùng Sai (a). Kòch baûn thöû nghieäm (b). Keát quaû veõ baûn ñoà Xuaát phaùt Keát thuùc Xuaát phaùt Keát thuùc Hình C.3 Một số lỗi khi xây dựng bản đồ tại môi trường ngoài trời Kết quả lệch với thực địa như Hình C.3(b) do tại những điểm có mật độ các đặc trưng ít dẫn tới việc sai số tích lũy làm thay đổi hành trình. - Nhận xét và đánh giá: Kết quả không đạt được những tiêu chí đặt ra như hình ảnh bị rung, nghiêng. Đặc biệt khi số lượng camera lớn hơn 2, thì việc lắp đặt trở lên 189 khó khăn hay khó để xác định một khoảng cách cụ thể để cố định camera theo các hướng yêu cầu. - Mục đích thiết kế xe camera: Hệ thống định vị và xây dựng bản đồ môi trường trong luận án dựa trên 2 giải thuật cơ bản là VO* và FAB-MAP*, trong đó: + Giải thuật xây dựng bản đồ môi trường VO*: sử dụng 01 camera gắn trên xe với một góc nhìn nào đó trúc xuống mặt đường. Nguyên lý trong VO là chỉ xem xét đến các điểm đặc trưng trích chọn trên mặt phẳng để đơn giản phép tính homography và phép ánh xạ ngược 2D-3D. + Giải thuật định vị hình ảnh FAB-MAP*: sử dụng 1 camera góc rộng (camera IP) thu thập các hình ảnh khung cảnh phía trước, nguyên lý của FAP-MAP* sử dụng xác suất có điều kiện Bayes giữa một quan sát hiện thời với một loạt các quan sát trước đó để quyết định vị trí đã được định nghĩa trên bản đồ môi trường. Do vậy cần có một nguồn dữ liệu được thu thập, đồng thời phục vụ cho pha huấn luyện của hai giải thuật có chất lượng hình ảnh tốt. Chúng tôi đã đề xuất thiết kế và chế tạo xe camera không phụ thuộc nhiều vào nguồn điện và truyền thông, được mô tả như Hình C.4. (a) Baûn veõ thieát keá (b) Xe hoaøn chænh Hình C.4 Thiết kế xe camera thu thập dữ liệu Hình C.4(a) mô tả chi tiết thiết kế xe camera kích thước: dài 1.3 m, rộng 0.6m, cao 1m (độ cao này có thể thay đổi 1.2m nhờ 4 khóa định vị); cơ cấu bánh 4 bánh (02 bánh hơi giảm sóc, 02 bánh nhựa chuyên động quay); mặt sàn được khoan các lỗ (cách nhau 20 cm, đường kính lỗ Φ = 0.5mm) giúp cố định nhiều thiết bị thu thập; thanh chữ L (chiều dài 50cm) cố định camera theo các hướng; bảng bàn cờ (độ cao cách sàn 60 cm) di chuyển ngang giúp việc hiệu chỉnh các tham số trong và ngoài của camera; 190 vật liệu sử dụng innox chống gỉ sét. Hình C.4(b) thiết kế xe hoàn chỉnh gắn 2 camera thu dữ liệu. C.2 Hiệu chỉnh camera góc rộng - Mục đích quá trình hiệu chỉnh: Thu thập được hình ảnh có chất lượng tốt, ổn định phục vụ cho cho một loạt các bài toán như định vị, xây dựng bản đồ, tìm đường, phát hiện vật cản... Do vậy các bước tiền xử lý hiệu chỉnh camera là rất quan trọng giúp cho các thuật toán chạy nhanh hơn, loại bỏ được các lỗi ngoại lai khó phát hiện. Quá trình hiệu chỉnh là việc xác định được 2 ma trận: ma trận nội tại (Intrinsic Matrix) và ma trận biến dạng (Distortion Matrix). Trong [15] các camera thông dụng hoạt động theo nguyên lý thu ảnh đối xứng như ở Hình C.5. Do vậy, nếu q là điểm thu được từ Camera và Q là điểm trong thực tế, thì ta có: Maët phaúng aûnh Ñieåm thu nhaän aûnh Truïc quang hoïc Hình C.5 Mô hình thu nhận ảnh của camera q = MQ , trong đó q = xy ω ,M = fx 0 00 fy 0 0 0 1 và Q = XY W (C.1) Trong đó: fx và fy lần lượt là chiều dài tiêu cựu của camera, (Z, Y, Z) là tọa độ của điểm Q. Tuy nhiên, tọa độ của camera không phải lúc nào cũng thẳng mà đôi khi bị lệch. Để khắc phục điều này người ta cần thêm vào 2 hệ số cx và cy để đưa góc thu nhận ảnh về vị trí ở trung tâm. Do đó công thức (C.1) trở thành: q = MQ , trong đó q = xy ω ,M = fx 0 cx0 fy cy 0 0 1 và Q = XY W (C.2) Ma trậnM trong công thức (C.2) được gọi là ma trận nội tại. Trong thực tế không 191 có camera nào hoàn hoản nên khi làm việc với camera luôn phải giải quyết vấn đề biến dạng hình ảnh. [15] đưa ra 2 loại: biến dạng bán kính (Radial Distortion), ảnh thu nhận được từ ống kính thường bị biến dạng ở những chỗ gần cạnh và biến dạng tiếp tuyến (Tangential Distortion) xảy ra khi không song song với ống kính như Hình C.6. OÁng kính AÛnh meùo Camera thoâng duïng OÁng kính Ñieåm baùn dính Chíp caûm bieán Maët phaúng aûnh Ñoái töôïng hình vuoâng 6 4 2 0 -2 -4 -6 -8 -10 (b). Bieán daïng tieáp tuyeán(a). Bieán daïng baùn kính -10 -8 -6 -4 -2 0 2 4 6 8 10 Hình C.6 Các loại biến dạng khi thu nhận ảnh Qua thực nghiệm, biến dạng thường không lớn và có thể chuẩn hóa bằng cách sử dụng một vài hệ số đầu tiên trong triển khai Taylor xung quanh bán kính r = 0. Để hiệu chỉnh loại biến dạng này người ta thường thêm 02 hệ số k1 và k2 đối với méo thông thường, còn trường hợp méo lớn sử dụng thêm hệ số k3. Do vậy, biến dạng bán kính của một điểm được hiệu chỉnh bởi cặp phương trình sau: xcorrected = x(1 + k1r 2 + k2r 4 + k3r 6) ycorrected = y(1 + k1r 2 + k2r 4 + k3r 6) (C.3) Trong đó (x, y) là tọa độ của điểm thu nhận bởi camera, (xcorrected, ycorrected) là tọa độ sau khi đã khử biến dạng. Bằng cách làm tương tự đối với biến dạng tiếp tuyến thì hai hệ số p1 và p2 được bổ sung vào hệ tọa độ (x, y) của camera được điều chỉnh bằng cặp phương trình sau: xcorrected = x+ [2p1y + p2(r 2 + 2x2)] ycorrected = y + [p1(r 2 + 2y2) + 2p2x] (C.4) Năm hệ số ở công thức (C.3) và công thức (C.4) được gom lại thành một ma trận (5× 1) và gọi là ma trận biến dạng trong công thức (C.5). Distortioncoefficients = (k1 k2 p1 p2 k3 ) (C.5) Trong khuôn khổ của luận án, chúng tôi sử dụng phương pháp ô bàn cờ (chess- 192 board) [15] bao gồm các ô hình vuông đen trắng giao nhau, quá trình hiệu chỉnh được thực hiện khi biết được vị trí giao nhau giữa các ô đen trắng để tính ra các bộ tham số méo của ảnh. Sau đó kết hợp với tọa độ ảnh thu thập tìm ra tọa độ trong không gian theo công thức (C.4), trong đó (xcorrected, ycorrected) tọa độ không gian, (x, y) tọa hộ ảnh thu thập, (r, p1, p2) bộ tham số lấy được từ quá trình hiệu chỉnh camera. Công thức chuyển tọa độ ảnh sang hệ tọa độ không gian: xy ω = fx 0 cx0 fy cy 0 0 1 XY Z (C.6) Trong đó (fx, fy) là tiêu cựu của ống kính, (cx, cy) điểm tâm quang, (ω = Z) hệ quy chiếu thế giới thực. Quá trình hiệu chỉnh Camera phục vụ việc sửa méo hình ảnh được thực hiện tuần tự và được mô tả Hình C.7 (a) Hình aûnh chöa hieäu chænh (c) Hình aûnh ñaõ hieäu chænh(b) Hieäu chænh treân chessboard Hình C.7 Quá trình hiệu chỉnh méo hình ảnh từ camera góc nhìn rộng Hình C.7 minh họa kết quả hiệu chỉnh camera tại môi trường thử nghiệm của luận án. Đây là một bước tiền xử lý quan trọng, phục vụ cho các bài toán liên quan đến hình ảnh như: định vị, phát hiện và ước lượng khoảng cách vật cản... C.3 Robot PC-Bot914 PC-Bot 914 là robot được nghiên cứu và chế tạo bởi WhiteBox robotic. Đây là một robot dịch vụ đa chức năng với nền tảng xử lý mạnh bao gồm các thành phần: - Khối xử lý trung tâm: Được sử dụng là một máy tính chủ (host computer), có cấu hình iGoLogic i3899 Mini-ITX motherboard, bộ xử lý intel Core 2 DUO 2 GHz, 1 Gbyte, PC3200 DDR 400MHz DIMM (có thể nâng cấp lên 2x1 GB DDR 667MHz), ổ cứng 80 GB SATA. Cung cấp sức mạnh xử lý và lưu trữ dữ liệu đa phương tiện và cho phép nâng cấp dễ dàng. ROBOT dùng hệ điều hành Windows. Trên mỗi hệ điều 193 C0189168#06 C0189168#10 C0189168#07 C0189168#08 Hình C.8 Các phiên bản của robot PC-Bot 914 hành đều có cung cấp các môi trường phát triển. Trên windows với khá nhiều phần mềm như BRAIN, Microsoft Robotic Studio hay là Visual Studio vì 914 PC-Bot đã hỗ trợ dot Net. Ngoài ra trên một số diễn đàn đã có những chương trình phát triển với java hay C++. Đối với các phiên bản cài Linux (Ubuntu) thì có công cụ Players. - Khối điều khiển trung tâm (M3): Hạt nhân của khối là 2 vi điều khiển CM3410 của hãng Power machine device. Bên cạnh đó là mạch điều khiển động cơ và mạch giao tiếp. Nhiệm vụ của khối M3 là nhận tín hiệu thiết lập từ Host Computer (qua cổng USB), tín hiệu từ các cảm biến hồng ngoại (qua mạch giao tiếp) và thực hiện tất các cả công việc liên quan đến việc chuyển động như điều khiển 2 động cơ bước. Phần giao tiếp của M3 gồm 8 cổng vào tương tự (Analog_In1 à Analog_In8) để nhận tín hiệu từ 8 cảm biến hồng ngoại, 8 cảm biến này sẽ cho 8 bit dữ liệu sau khi tín hiệu được đi qua một bộ ADC. Ngoài ra còn nhiều cổng chưa được sử dụng, như: 8 cổng vào số; 8 cổng ra số; 2 cổng USB; 1 cổng IDC; 10 chân dùng để kết nối với bo mạch chủ. Ngoài ra còn 30 pin Samtec Conn dùng để kết nối với mạch khối điều khiển M3 . Trong thế hệ mới thì chỉ có một mạch I/O board Interface vì chỉ cần 1 mạch là đủ đáp ứng các nhu cầu khác nhau. Tuy nhiên ta có thể chọn 1 hoặc 2 tùy thuộc vào nhu cầu cụ thể. - Khối thu thập dữ liệu: 8 cảm biến hồng ngoại phục vụ cho các bài toán liên quan đến robot di động như: phát hiện và tránh vật cản được bố trí thành 2 phần: 3 cảm biến nằm ở phần thân robot, khoang 8×5.25 trên cùng (ở độ cao khoảng 370 mm). Góc nhìn hơi cúi xuống cho phép 914 PC-BOT có cái nhìn toàn cảnh với 5 cảm biến nằm ở phần chân đế với góc nhìn nằm ngang, mô tả Hình C.9 - Khối chấp hành: Bao gồm 2 động cơ một chiều điều khiển bộ bánh xe 4 bánh xe robot trong đó, 2 bánh lớn dẫn hướng, 2 bánh phụ giảm sóc cho robot Hình C.10. 194 (IR1) (IR2) (IR3) (IR4) (IR5) 90> 25> 0> -25> -90> (a). 05 caûm bieán hoàng ngoaïi phaùt hieän vaät caûn phía döôùi (IR 2, IR3, IR4) (IR 1 & IR5) (b). Vò trí laép caùc caûm bieán hoàng ngoaïi (IR 6, IR7, IR8) Hình C.9 Vị trí lắp các cảm biển hồng ngoại IR Hình C.10 Cơ cấu bánh xe điều khiển của robot PC-Bot 914 195
File đính kèm:
- luan_an_nghien_cuu_va_phat_trien_mot_so_ky_thuat_dinh_vi_dua.pdf