Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video
Với sự phát triển nhanh chóng của các thiết bị có khả năng thu nhận hình
ảnh kỹ thuật số, dữ liệu đa phương tiện đã trở nên phổ biến, có mặt ở mọi nơi
và ảnh hưởng tới nhiều mặt của cuộc sống. Những dữ liệu này ngày càng được
các nhà sản xuất hàng hóa, nhà quảng cáo, nhà tiếp thị sử dụng như một phương
tiện truyền thông hiệu quả để quảng bá về sản phẩm, nhãn hiệu, thương hiệu,
. (gọi tắt là đối tượng quảng cáo trong luận án này) đến đông đảo khách hàng,
người tiêu dùng. Bên cạnh đó các nhà nghiên cứu thị trường cũng đã sử dụng
nguồn tài nguyên video phong phú để nghiên cứu, phân tích nội dung quảng
cáo bên trong nhằm tiếp cận thị trường, thu thập các thông tin hữu ích để nâng
cao tính cạnh tranh. Nhiều nghiên cứu đã cho thấy sự tăng trưởng mạnh mẽ
trong doanh thu được tạo ra từ quảng cáo trên các phương tiện truyền hình và
trên Internet thông qua các trang mạng, mạng xã hội trong thập kỷ vừa qua và
dự báo sẽ tiếp tục tăng mạnh trong những năm tới.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video
i LỜI CAM ĐOAN Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Thái Nguyên, ngày tháng 08 năm 2020 Tác giả luận án ii LỜI CẢM ƠN Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TS. Phạm Việt Bình và PGS.TS. Đỗ Năng Toàn. Lời đầu tiên, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới hai Thầy. Tôi xin chân thành cảm ơn TS. Phạm Thế Anh đã đóng góp những ý kiến quý báu cả về học thuật và kinh nghiệm nghiên cứu giúp đỡ tôi trong suốt quá trình thực hiện luận án. Tôi xin chân thành cảm ơn Ban lãnh đạo trường Đại học Công nghệ thông tin và Truyền thông, Khoa Công nghệ thông tin, Bộ môn Khoa học máy tính, Bộ phận quản lý nghiên cứu sinh – trường Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên đã tạo mọi điều kiện thuận lợi trong quá trình hoàn thành và bảo vệ luận án. Xin cảm ơn Ban Giám hiệu Trường Đại học Hồng Đức, các đồng nghiệp tại Phòng Đảm bảo chất lượng và Khảo thí, giảng viên khoa Công nghệ thông tin và Truyền thông – Trường Đại học Hồng Đức, cán bộ Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội đã luôn động viên giúp đỡ tôi trong công tác để tôi có thời gian tập trung nghiên cứu, thực hiện luận án. Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới Cha, Mẹ, Vợ, Con và các anh, chị em trong gia đình, những người luôn dành cho tôi những tình cảm nồng ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tôi trong quá trình nghiên cứu. Luận án cũng là món quà tinh thần mà tôi trân trọng gửi tặng đến các thành viên trong Gia đình. Tôi xin trân trọng cảm ơn! iii MỤC LỤC LỜI CAM ĐOAN ........................................................................................... i LỜI CẢM ƠN ................................................................................................ ii DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU ........................................ vi DANH MỤC CÁC BẢNG .......................................................................... viii DANH MỤC HÌNH VẼ ................................................................................ ix PHẦN MỞ ĐẦU ............................................................................................ 1 1. Tính cấp thiết .......................................................................................... 1 2. Mục tiêu nghiên cứu của luận án ............................................................. 2 3. Đối tượng, phạm vi nghiên cứu của luận án ............................................ 3 4. Đóng góp chính của luận án .................................................................... 4 5. Phương pháp và nội dung nghiên cứu ..................................................... 5 6. Cấu trúc luận án ...................................................................................... 5 CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO ...................................................................... 7 1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong video .............................................................................................................. 7 1.1.1. Khái quát về video ...................................................................... 7 1.1.2. Bài toán thay thế đối tượng trong video .................................... 12 1.1.3. Một số khái niệm ...................................................................... 16 1.1.3.1. Dò tìm đối tượng trong video ........................................... 16 1.1.3.2. Nhận dạng hình dạng đối tượng trong video .................... 16 1.1.3.3. Phát hiện đối tượng trong video ....................................... 16 1.1.3.4. Phân vùng đối tượng ........................................................ 17 1.1.3.5. Video inpainting .............................................................. 18 1.1.3.6. Thay thế đối tượng trong video ........................................ 19 1.1.4. Các thách thức cho bài toán thay thế đối tượng ......................... 19 1.2. Tổng quan về các kỹ thuật áp dụng trong hệ thống thay thế đối tượng trong video ................................................................................................... 22 iv 1.2.1. Dò tìm đối tượng ...................................................................... 22 1.2.1.1. Dựa trên điểm đặc trưng .................................................. 22 1.2.1.2. Dựa trên các mô hình từng phần của đối tượng ................ 23 1.2.1.3. Dựa trên mạng nơron nhân chập ...................................... 24 1.2.1.4. Phát hiện đối tượng quảng cáo ......................................... 25 1.2.2. Nhận dạng hình dạng đối tượng ................................................ 26 1.2.2.1. Lượng tử hóa vector ......................................................... 26 1.2.2.2. Lượng tử hóa tích đề các .................................................. 29 1.2.2.3. Độ đo khoảng cách .......................................................... 30 1.2.2.4. Nhận dạng hình dạng dựa trên tìm kiếm ANN ................. 32 1.2.3. Các kỹ thuật hoàn thiện video ................................................... 34 1.2.3.1. Video inpainting dựa trên lấy mẫu ................................... 35 1.2.3.2. Inpainting ảnh sử dụng DCNN cho không gian 2D ......... 36 1.2.3.3. Video inpainting sử dụng DCNN cho không gian 3D ...... 37 Kết luận chương 1 ..................................................................................... 38 CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO ......................... 39 2.1. Dò tìm đối tượng trong video ............................................................. 39 2.1.1. Khái quát về mô hình dò tìm đối tượng YOLO ......................... 40 2.1.2. Mô hình dò tìm đối tượng cải tiến YOLO-Adv ......................... 42 2.1.2.1. Cải tiến trong hàm loss .................................................... 42 2.1.2.2. Cải tiến trong kiến trúc mạng ........................................... 46 2.1.2.3. Trích chọn đặc trưng ........................................................ 49 2.1.3. Ước lượng, đánh giá mô hình cải tiến ....................................... 49 2.1.3.1. Dữ liệu kiểm thử .............................................................. 49 2.1.3.2. Độ đo ước lượng .............................................................. 50 2.1.3.3. Môi trường cài đặt ........................................................... 52 2.1.3.4. Ước lượng, đánh giá ........................................................ 52 2.2. Nhận dạng hình dạng đối tượng ......................................................... 59 2.2.1. Mô hình lập chỉ mục PSVQ ...................................................... 60 v 2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc ........................ 64 2.2.3. Ước lượng, đánh giá ................................................................. 68 2.2.3.1. Dữ liệu và cấu hình hệ thống kiểm thử ............................. 69 2.2.3.2. Ước lượng, đánh giá chất lượng mã hóa của PSVQ ......... 71 2.2.3.3. Ước lượng, đánh giá tốc độ tìm kiếm với PSVQ .............. 73 2.2.3.4. Ước lượng, đánh giá giải thuật tìm kiếm cây phân cụm thứ bậc kết hợp PSVQ ........................................................................ 75 Kết luận chương 2 ..................................................................................... 80 CHƯƠNG 3. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO ......... 81 3.1. Phân vùng đối tượng .......................................................................... 81 3.1.1. Các kỹ thuật phân vùng thực thể ............................................... 82 3.1.2. Mô hình phân vùng thực thể ..................................................... 84 3.1.2.1. Phát sinh mặt nạ vùng ...................................................... 85 3.1.2.1. Phân vùng thực thể bằng Mask R-CNN ........................... 87 3.1.3. Kết quả thực nghiệm mô hình phân vùng ................................. 90 3.2. Mô hình hoàn thiện video ................................................................... 92 3.2.1. Kiến trúc mô hình V-RBPconv ................................................. 94 3.2.2. Mô hình kiến trúc mạng RBPconv ............................................ 95 3.2.3. Hàm loss ................................................................................... 99 3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video ...................... 100 3.2.4.1. Môi trường thực nghiệm ................................................ 101 3.2.4.2. Kết quả so sánh định tính .............................................. 103 3.2.4.3. Kết quả so sánh định lượng ............................................ 104 Kết luận chương 3 ................................................................................... 109 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................. 110 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN .................................................................................................. 112 TÀI LIỆU THAM KHẢO .......................................................................... 113 PHỤ LỤC .................................................................................................. 122 vi DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU Từ viết tắt Tên đầy đủ (và tạm dịch) ANN Approximate Nearest Neighbor (Lân cận xấp xỉ gần nhất) ADC Asymmetric distance computation (Tính khoảng cách bất đối xứng) AVI Audio Video Interleave (tệp tin đa phương tiện chứa cả âm thanh và hình ảnh bên trong) CAM Class Activation Map (Bản đồ kích hoạt lớp) CPU Central processing unit (Bộ vi xử lý trung tâm) CNN Convolution Neural Network (Mạng nơron tích chập) DCNN Deep Convolution Neural Network (Mạng nơron tích chập sâu) FID Frechet Inception Distance (khoảng cách Frechet) FVI Free-form video inpainting (hoàn thiện/tái tạo video với mặt nạ bất kỳ) FCN Fully Convolutional Network (Mạng tích chập đầy đủ) GAN Generative Adversarial Networks (Mạng sinh đối kháng) GPU Graphics processing unit (Bộ xử lý đồ họa) HD High Definition (chuẩn độ nét cao) HOG Histogram of oriented gradients (Biểu đồ hướng gradient) IoU Intersection over Union (Tỷ lệ trùng khớp giữa hai hộp bao) IVFADC Inverted file index Asymmetric distance computation (Chỉ mục danh sách ngược của ADC) LPIPS Learned Perceptual Image Patch Similarity (Chỉ số đo sự tượng đồng các mẫu ảnh) MSE Mean square error (Lỗi bình phương trung bình) MPEG Moving Picture Experts Group (Nhóm chuyên gia hình ảnh động) NMS Non-Maxima Suppression (Loại bỏ các điểm không cực trị) vii Từ viết tắt Tên đầy đủ (và tạm dịch) NTSC National Television System Committee (Ủy ban quốc gia về các hệ thống truyền hình) PRM Peak Response Mapping (Ánh xạ độ nhạy tối đa) PSNR Peak signal-to-noise ratio (Tỉ số tín hiệu cực đại trên nhiễu) PAL Phase Alternation Line (Hệ truyền hình màu xoay pha) PQ Product quantization (Lượng tử hóa tích đề các) PSL Peak Simulation Layer (Tầng kích hoạt cực đại) PSVQ Product sub-vector quantization (Lượng tử hóa tích đề các cụm vector) RGB Red, Green, Blue (Hệ màu RGB) RoI Region of Interest (Vùng chứa đối tượng) R-CNN Region-based Convolutional Neural Networks (Mạng nơron tích chập dựa trên đề xuất vùng) SIFT Scale-Invariant Feature Transform (Biến đổi đặc trưng bất biến tỷ lệ) SSD Single Shot Detector (Bộ dò điểm đặc trưng SSD) SURF Speeded up robust features (Đặc trưng SURF) SD Standard Denfinition (Độ nét tiêu chuẩn) SSIM Structural Similarity Index (Chỉ số đồng nhất có cấu trúc) VGG Visual Geometry Group (Nhóm hình học trực quan) YOLO You only look once (Mạng nhìn đối tượng chỉ một lần) viii DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 2.1 Thông số phần cứng thực nghiệm mô hình YOLO-Adv 52 2.2 Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47 55 2.3 So sánh mAP của mô hình dò tìm đối tượng trên tập dữ liệu Flickrlogos-32 58 2.4 Các tập dữ liệu đặc trưng 69 2.5 Các tham số dùng để xây dựng các bộ lượng tử 75 3.1 So sánh kết quả của mô hình sử dụng với các phương pháp khác sử dụng nhiều phương pháp tạo mặt nạ huấn luyện khác nhau. 90 3.2 Kết quả định lượng trên tập dữ liệu Places2 của các mô hình: CA, Pconv, EC và RBPConv. 106 3.3 Kết quả định lượng trên tập dữ liệu FVI với các mô hình: EC, CombCN, 3Dgated và V- RBPConv 107 A.1 Số lượng đối tượng cho các tập huấn luyện và kiểm thử của tập dữ liệu FlickrLogo-47. 124 ix DANH MỤC HÌNH VẼ Số hiệu hình vẽ Tên hình vẽ Trang 1.1 Cấu trúc phân cấp của video 7 1.2 Sơ đồ chuyển đổi dữ liệu video 11 1.3 Một số ứng dụng chèn/thay thế logo trong video 12 1.4 Mô hình phát hiện và thay thế đối tượng trong video 13 1.5 Các kiểu phân vùng ảnh 17 1.6 Các ví dụ về hoàn thiện, tái tạo ảnh/video 18 1.7 Một số trở ngại trong phát hiện đối tượng quảng cáo 19 1.8 Mô hình lượng tử hóa tích đề các 28 1.9 Mô hình nhận dạng hình dạng đối tượng 32 1.10 Ví dụ hoàn thiện ảnh với kỹ thuật video inpainting 34 2.1 Ý tưởng chính của mô hình YOLO 40 2.2 Cách tính IoU 41 2.3 Kiến trúc chi tiết mạng YOLO-Adv 47 2.4 Mô hình trích chọn đặc trưng 48 2.5 Giá trị hàm loss trung bình huấn luyện trên tập Flicrklogos-47 53 2.6 Biểu đồ giá trị IoU huấn luyện trên tập FlicrkLogos-47 54 2.7 Một số hình ảnh phát hiện Logo 57 2.8 Chất lượng mã hóa PSVQ 70 2.9 Tốc độ tìm kiếm ANN trên các tập đặc trưng 72 2.10 Ảnh hưởng của tham số (d,k) trên các tập dữ liệu 74 x Số hiệu hình vẽ Tên hình vẽ Trang 2.11 Hiệu năng thực thi trên các tập đặc trưng 77 2.12 Một số kết quả trực quan nhận dạng hình dạng đối tượng quảng cáo 78 3.1 Mô hình huấn luyện mạng phân vùng ảnh 83 3.2 Ví dụ về làm tinh mặt nạ 85 3.3 Mô hình phân vùng thực thể Mask R-CNN 87 3.4 Một số kết quả phân vùng thực thể trực quan trên tập dữ liệu PASCAL VOC 2012 89 3.5 Hiệu năng phân lớp trên dữ liệu PASCAL VOC2012 91 3.6 Kiến trúc mô hình video inpainting 3DGated 92 3.7 Kiến trúc mô hình video inpainting V-RBPconv 93 3.8 Kiến trúc mô hình RBPconv 95 3.9 Kiến trúc khối residual cải tiến 96 3.10 Một số mặt nạ minh họa 101 3.11 So sánh trực quan tái tạo, hoàn thiện ảnh của các mô hình 102 3.12 So sánh trực quan của các mô hình video inpainting 103 A.1 Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47 (bên dưới) được thể hiện trong các bounding box 122 A.2 Một số ảnh ví dụ trong tập dữ liệu Flickrlogos-47 123 ... Catanzaro B. (2018), "Image inpainting for irregular holes using partial convolutions," arXiv preprint arXiv:1804.07723. [51] Liu H., Jiang S., Huang Q., Xu C. (2008), "A generic virtual content insertion system based on visual attention analysis," ACM MM’08, pp. 379- 388,. [52] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C, Y., and Berg, A, C. (2016), "Ssd: Single shot multibox detector", ECCV. [53] Long J., Shelhamer E., Darrell T. (2015), "Fully convolutional networks for semantic segmentation," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), p. 3431–3440. [54] Lowe D. G. (2004), "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, vol. 60, no. 2, pp. 91- 110. [55] Mahajan K. S., Vaidya M. B. (2012), "Image in Painting Techniques: A survey," IOSR Journal of Computer Engineering, vol. 5, no. 4, pp. 45-49. [56] Medioni G., Guy G., Rom H.(1998), "Real-Time Billboard Substitution in a Video Stream," Digital Communications. [57] Muja M., Lowe D. G. (2009), "Fast approximate nearest neighbors with automatic algorithm configuration," VISAPP International Conference on Computer Vision Theory and Applications, p. 331–340. 118 [58] Muja M., Lowe D. G. (2014), "Scalable nearest neighbor algorithms for Scalable nearest neighbor algorithms for," IEEE Trans. Pattern Anal. Mach. Intell. 36, p. 2227–2240. [59] Muja M., Lowe, D. G. (2012), "Fast matching of binary features," Proceedings of the Ninth Conference on Computer and Robot Vision (CRV), p. 404–410. [60] Nazeri K., Eric Ng., Joseph T., Qureshi F., Ebrahimi M. (2019), "EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning," arXiv preprint arXiv:1901.00212. [61] Neubeck A., Van Gool L. (2006), "Efficient non-maximum suppression," Proceedings of the International Conference on Pattern Recognition (ICPR); Hong Kong, China. 20–24 August 2006, p. 850–855. [62] Norouzi M., Fleet D. J. (2013), "Cartesian k-means," Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition, CVPR’13, p. 3017–3024. [63] Oliveira G., Frazao X., Pimentel A., Ribeiro B. (2016), "Automatic graphic logo detection via fast region-based convolutional networks," International Joint Conference on Neural Networks, p. 985–991. [64] Pathak D., Krahenbuhl P., Donahue J., Darrell T., Efros A. A. (2016), "Context encoders: Feature learning by inpainting," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p. 2536–2544. [65] Patwardhan K. A., Sapiro G., Bertalmio M. (2007), "Video inpainting under constrained camera motion," IEEE Trans. on Image Proc. (TIP), vol. 16, no. 2, pp. 545-553. [66] Pinheiro P. O., Lin T. Y., Collobert R., Dollár P. (2016), "Learning to refine object segments," ECCV. [67] Real E., Shlens J., Mazzocchi S., Pan X., Vanhoucke V. (2017), "Youtube-boundingboxes: A large high-precision human-annotated data set for object detection in video," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5296-5305. [68] Redmon J., Divvala S., Girshick R., Farhadi A. (2016), "You only look once: Unifed, real-time object detection.," EEE Conference on Computer Vision and Pattern Recognition, p. 779–788. 119 [69] Redmon J., Farhadi A. (2017), "Yolo9000: better, faster, stronger," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), p. 6517–6525, 21–26 July. [70] Redmon J., Farhadi A. (2018), "YOLOv3: An Incremental Improvement," arXiv:1804.02767v1. [71] Ren S., He K., Girshick R., Sun J. (2015), "Faster r-cnn: Towards real time object detection with region proposal networks," NIPS, pp. 91-99. [72] Romberg S., Pueyo L. G., Lienhart R., van Zwol R. (2011), "Scalable logo recognition in real-world images," ACM International Conference on Multimedia Retrieval, vol. 8, pp. 1-25. [73] Sharma A., Grau O., Fritz M. (2016), "Vconv-dae: Deep volumetric shape learning without object labels," European Conference on Computer Vision, p. 236–250. [74] Simonyan K., Zisserman A. (2014), "Very deep convolutional networks for large-scale image recognition," CoRR arXiv:1409.1556. [75] Su H., Zhu X., Gong S. (2017), "Deep learning logo detection with data expansion by synthesising context," IEEE Winter Conference on Applications of Computer Vision, p. 530–539. [76] Szegedy C., Wei L., Yangqing J., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., Rabinovich A. (2015), "Going deeper with convolutions," IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-9. [77] Timothy K., Shih N. C., Tan J. C., Zhong H. J. (2003), "Video Falsifying by Motion Interpolation and Inpainting". [78] Tursun O., Kalkan S. (2015), "Metu dataset: A big dataset for benchmarking trademark retrieval," IAPR International Conference on Machine Vision Applications, pp. 514-517. [79] Tuzko A., Herrmann C., Manger D., Jurgen B. (2018), "Open Set Logo Detection and Retrieval," International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. [80] Uijlings J. R. R., van de Sande K. E. A., Gevers T., Smeulders A. W. M. (2013), "Selective search for object recognition," International Journal of Computer ViVision, vol. 2, no. 104, p. 154–171, September. 120 [81] Venkatesh M. V., Cheung S. S., Zhao J. (2009), "Efficient objectbased video inpainting," Pattern Recognition Letters, vol. 30, no. 2, pp. 168-179. [82] Wang C., Huang H., Han X., and Wang J. (2019), "Video inpainting by jointly learning temporal structure and spatial details," Proceedings of the 33th AAAI Conference on Artificial Intelligence. [83] Wang W., Huang Q., You S., Yang C., Neumann U. (2017), "Shape inpainting using 3d generative adversarial network and recurrent convolutional networks," arXiv preprint arXiv:1711.06375. [84] Watve A., Sural S.( 2008), "Soccer video processing for the detection of advertisement billboards," Pattern Recognition Letters , vol. 29, no. 7, pp. 994-1006. [85] Weber M., Welling M., Perona P. (2000), "Towards automatic discovery of object categories," IEEE Conference on Computer Vision and Pattern Recognition, vol. 2, p. 101–108. [86] Wexler Y., Shechtman E., Irani M. (2007), "Space-time completion of video," IEEE Transactions on pattern analysis and machine intelligence, vol. 29, no. 3. [87] Xie J., Xu L., Chen E. (2012), "Image denoising and inpainting with deep neural networks," Advances in neural information processing systems, pp. 341-349. [88] Xu N., Yang L., Fan Y., Yang J., Yue D., Liang Y., Price B., Cohen S., Huang T. (2018), "Youtube-vos: Sequence-tosequence video object segmentation.," Proceedings of the European Conference on Computer Vision (ECCV), p. 585–601. [89] Yan W. Q., Wang J., Kankanhalli M. S. (2005), "Automatic video logo detection and removal," Springer-Verlag. [90] Yang C., Lu X., Lin Z., Shechtman E., Wang O., Li H. (2017), "High- resolution image inpainting using multi-scale neural patch synthesis," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 1, p. 3. [91] Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T. S. (2018), "Free- form image inpainting with gated convolution," arXiv preprint arXiv:1806.03589. 121 [92] Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T. S. (2018), "Generative image inpainting with contextual attention," arXiv preprint arXiv:1801.07892. [93] Zeiler M. D., Fergus R. (2014), "Visualizing and understanding convolutional networks," In Proceedings of the European Conference on Computer Vision, pp. 818-833. [94] Zheng C., Cham T., and Cai J. (2019), "Pluralistic Image Completion," CoRR abs/1903.04227. [95] Zhou W., Bovik A. C., Sheikh H. R., and Simoncelli E. P. (2004), "Image Qualifty Assessment: From Error Visibility to Structural Similarity.," IEEE Transactions on Image Processing, vol. 13, no. 4, p. 600– 612. [96] Zhou Y., Zhu Y., Ye Q., Qiu Q., Jiao J. (2018), "Weakly supervised instance segmentation using class peak response," CVPR. [97] Zhu Q., Wang L., Wu Y., Shi J. (2008), "Contour context selection for object detection: A set-to-set contour matching approach," European Conference on Computer Vision, pp. 774-787. 122 PHỤ LỤC A. Bộ dữ liệu kiểm thử Flickrlogos-47 Flickrlogos-47 được mở rộng, hiệu chỉnh từ bộ dữ liệu flickrlogos-32 rất phổ biến cho bài toán truy vấn ảnh logo. Do được thiết kế cho bài toán truy vấn logo trong ảnh nên yếu điểm lớn nhất của bộ dữ liệu flickrlogos-32 là các chú giải ở mức đối tượng chưa đầy đủ, chi tiết cho bài toán phát hiện logo. Thêm vào đó với flickrlogos-32, mỗi ảnh chỉ xác định một thể hiện logo thuộc duy nhất một nhãn nào đó mặc dù trong ảnh có nhiều thể hiện của một logo hay nhiều logo khác nhau. Điều đó có ý nghĩa trong ngữ cảnh truy vấn ảnh nhưng là một hạn chế cho bài toán nhận dạng. Hình A.1. Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47 (bên dưới) được thể hiện trong các bounding box Flickrlogos-47 ra đời không những cập nhật các chú thích còn thiếu cho các nhãn trong ảnh mà còn tách rời, đánh nhãn riêng cho biểu tượng và dòng văn bản minh họa logo, bổ sung thêm nhiều mẫu dữ liệu khác nhằm khắc phục các hạn chế của tập dữ liệu flickrlogos-32. Số lớp trong flickrlogos-47 được nâng lên 47 lớp bằng cách bổ sung thêm ảnh, tách số lớp có trong flickrlogos- 32. Các nhãn hiệu trong flickrlogos-32 gồm cả biểu tượng và ký tự thì được tách thành 2 lớp trong flickrlogos-47. Mỗi ảnh trong flickrlogos-32 chỉ chứa một logo thuộc về một lớp duy nhất thì trong flickrlogos-47 một ảnh có thể có nhiều thể hiện thuộc về cùng một logo hoặc các lớp logo khác nhau. Ảnh nhiễu trong flickrlogos-32 bị loại bỏ trong flickrlogos-47. Một khác biệt nữa của bộ 123 dữ liệu flickrlogos-47 so với flickrlogos-32 là sự đa dạng về kích thước, đặc biệt là xuất hiện nhiều ảnh chứa các logo nhỏ nhằm tạo thêm độ khó cho việc nhận dạng (hình A.1). Hình A.2. Một số ảnh ví dụ trong tập dữ liệu flickrlogos-47 Flickrlogos-47 thực hiện chú thích lại, mỗi ảnh có thể chứa nhiều thể hiện của logo và có thể thuộc vào nhiều lớp khác nhau vì vậy việc gắn các ảnh vào tập huấn luyện và tập kiểm thử cũng phải thay đổi, một ảnh có thể nằm trong đồng thời cả hai tập. Tập ảnh huấn luyện lúc này được hình thành từ 833 ảnh, tập kiểm thử gồm 1402 ảnh. Một thử thách lớn nhất khi phát hiện đối tượng trên tập dữ liệu flickrlogos-47 là các thể hiện của logo thường có kích thước ở nhiều tỷ lệ khác nhau, độ chênh lệch tỷ lệ có thể lớn. Trong đó nhiều thể hiện logo có kích thước tương đối nhỏ, mà các thể hiện của đối tượng có kích thước nhỏ thông thường khó nhận dạng hơn rất nhiều so với các thể hiện có kích thước lớn. Thể hiện logo nhỏ nhất đơn lẽ trong một ảnh trong tập huấn luyện có chiều dài là 15px trong khi thể hiện lớn nhất có chiều dài là 834px. Độ dài trung bình là 99px. Kích thước ảnh trong tập dữ liệu flickrlogos-47 rất đa dạng. Ảnh có kích thước lớn nhất là 1024x768px. Một số hình ảnh minh họa được thể hiện trong hình A.2. Chi tiết về số lượng từng đối tượng được cho trong bảng A.1. 124 Tên lớp Huấn luyện Kiểm thử Tên lớp Huấn luyện Kiểm thử Adidas (Symbol) 37 104 Adidas (Text) 34 71 Aldi 38 88 Apple 30 47 Becks (Symbol) 52 98 Becks (Text) 54 118 BMW 29 51 Carlsberg (Symbol) 30 92 Carlsberg (Text) 40 112 Chimay (Symbol) 45 79 Chimay (Text) 56 83 CocaCola 62 91 Corona (Symbol) 32 54 Corona (Text) 35 59 DHL 51 93 Erdinger (Symbol) 48 70 Erdinger (Text) 33 50 Esso (Symbol) 32 63 Esso (Text) 8 34 FedEx 36 60 Ferrari 29 44 Ford 30 47 Fosters (Symbol) 33 99 Fosters (Text) 43 98 Google 33 50 Guinness (Symbol) 37 80 Guinness (Text) 38 103 Heineken 63 103 HP 43 75 Milka 89 275 nVidia (Symbol) 40 97 nVidia (Text) 40 92 Paulaner (Symbol) 48 69 Paulaner (Text) 30 63 Pepsi (Symbol) 57 194 Pepsi (Text) 54 140 Rittersport 87 202 Shell 34 66 Singha (Symbol) 26 56 Singha (Text) 26 57 Starbucks 43 65 Stellaartois (Symbol) 43 72 Stellaartois (Text) 33 66 Texaco 33 56 Tsingtao (Symbol) 39 91 Tsingtao (Text) 49 95 UPS 34 57 Tổng 1936 4032 Bảng A.1. Số lượng đối tượng cho các tập huấn luyện và kiểm thử của tập dữ liệu FlickrLogo-47. Với mỗi lớp đối tượng, tập huấn luyện chiếm khoảng 33% tổng số đối tượng trong lớp đó. 125 B. Kiến trúc mạng Darknet-53 Kiểu Bộ lọc Kích thước Đầu ra Convolution 32 3 x 3 256 x 256 Convolution 64 3 x 3 / 2 128 x 128 1x Convolution 32 1 x 1 Convolution 64 3 x 3 Residual 128 x 128 Convolution 128 3 x 3 / 2 64 x 64 2x Convolution 64 1 x 1 Convolution 128 3 x 3 Residual 64 x 64 Convolution 256 3 x 3 / 2 32 x 32 8x Convolution 128 1 x 1 Convolution 256 3 x 3 Residual 32 x 32 Convolution 512 3 x 3 / 2 16 x 16 8x Convolution 256 1 x 1 Convolution 512 3 x 3 Residual 16 x 16 Convolution 1024 3 x 3 / 2 8 x 8 4x Convolution 512 1 x 1 Convolution 1024 3 x 3 Residual 8 x 8 Avgpool Global 1000 Connected 1000 Softmax 126 C. Chi tiết kiến trúc mạng RBPconv Input: ảnh (512 x 512 x 3) Kích thước [Tầng 1] ERB(64); 512x512x64 [Tầng 2] ERB(128); Max-pooling 2x2, stride = 2; 256 x 256 x 128 [Tầng 3] ERB(256); Max-pooling 2x2, stride = 2; 128 x 128 x 256 [Tầng 4] ERB (512); Max-pooling 2x2, stride = 2; 64 x 64 x 512 [Tầng 5] ERB (512); Max-pooling 2x2, stride = 2; 32 x 32 x 512 [Tầng 6] ERB (512); Max-pooling 2x2, stride = 2; 16 x 16 x 512 [Tầng 7] ERB (512); Max-pooling 2x2, stride = 2; 8 x 8 x 512 [Tầng 8] ERB (512); Max-pooling 2x2, stride = 2; 4 x 4 x 512 [Tầng 9] ERB (512); Max-pooling 2x2, stride = 2; 2 x 2 x 512 [Tầng 10] ERB (1024);Max-pooling 2x2, stride = 2; 1 x 1 x 1024 [Tầng 11] DRB(512); up-conv 2x2, stride = 2; 2 x 2 x 512 Concatenate (tầng 11, tầng 9) 2 x 2 x 1024 [Tầng 12] DRB(512); up-conv 2x2, stride = 2; 4 x 4 x 512 Concatenate (tầng 12, tầng 8); 4 x 4 x 1024 [Tầng 13] DRB(512); up-conv 2x2, stride = 2; 8 x 8 x 512 Concatenate (tầng 13, tầng 7); 8 x 8 x 1024 [Tầng 14] DRB(512); up-conv 2x2, stride = 2; 16 x 16 x 512 Concatenate (tầng 14, tầng 6); 16 x 16 x 1024 [Tầng 15] DRB(512); up-conv 2x2, stride = 2; 32 x 32 x 512 Concatenate (tầng 15, tầng 5); 32 x 32 x 1024 [Tầng 16] DRB(512); up-conv 2x2, stride = 2; 64 x 64 x 512 Concatenate (tầng 16, tầng 4); 64 x 64 x 1024 [Tầng 17] DRB(256); up-conv 2x2, stride = 2; 128 x 128 x 256 Concatenate (tầng 17, tầng 3); 128 x 128 x 512 [Tầng 18] DRB(128); up-conv 2x2, stride = 2; 256 x 256 x 128 Concatenate (tầng 18, tầng 2); 256 x 256 x 256 [Tầng 19] DRB(64); up-conv 2x2, stride = 2; 512 x 512 x 64 Concatenate (tầng 19, tầng 1); 512 x 512 x 128 [Tầng 20] DRB(3); 512 x 512 x 3 Output: ảnh (512 x 512 x 3)
File đính kèm:
- luan_an_nghien_cuu_cai_tien_ky_thuat_nhan_dang_va_thay_the_d.pdf
- tom tat luan an NCS Le Dinh Nghiep 8_2020.pdf
- trang thong tin luan an - Le Dinh Nghiep.docx