Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

Với sự phát triển nhanh chóng của các thiết bị có khả năng thu nhận hình
ảnh kỹ thuật số, dữ liệu đa phương tiện đã trở nên phổ biến, có mặt ở mọi nơi
và ảnh hưởng tới nhiều mặt của cuộc sống. Những dữ liệu này ngày càng được
các nhà sản xuất hàng hóa, nhà quảng cáo, nhà tiếp thị sử dụng như một phương
tiện truyền thông hiệu quả để quảng bá về sản phẩm, nhãn hiệu, thương hiệu,
. (gọi tắt là đối tượng quảng cáo trong luận án này) đến đông đảo khách hàng,
người tiêu dùng. Bên cạnh đó các nhà nghiên cứu thị trường cũng đã sử dụng
nguồn tài nguyên video phong phú để nghiên cứu, phân tích nội dung quảng
cáo bên trong nhằm tiếp cận thị trường, thu thập các thông tin hữu ích để nâng
cao tính cạnh tranh. Nhiều nghiên cứu đã cho thấy sự tăng trưởng mạnh mẽ
trong doanh thu được tạo ra từ quảng cáo trên các phương tiện truyền hình và
trên Internet thông qua các trang mạng, mạng xã hội trong thập kỷ vừa qua và
dự báo sẽ tiếp tục tăng mạnh trong những năm tới.
136 trang dienloan 33160 Free
Download
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

i 
LỜI CAM ĐOAN 
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. 
Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, không 
sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo 
các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo 
đúng quy định. 
Thái Nguyên, ngày tháng 08 năm 2020 
Tác giả luận án 
ii 
LỜI CẢM ƠN 
Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TS. Phạm 
Việt Bình và PGS.TS. Đỗ Năng Toàn. Lời đầu tiên, tôi xin bày tỏ lòng kính 
trọng và biết ơn sâu sắc tới hai Thầy. 
Tôi xin chân thành cảm ơn TS. Phạm Thế Anh đã đóng góp những ý kiến 
quý báu cả về học thuật và kinh nghiệm nghiên cứu giúp đỡ tôi trong suốt quá 
trình thực hiện luận án. 
Tôi xin chân thành cảm ơn Ban lãnh đạo trường Đại học Công nghệ 
thông tin và Truyền thông, Khoa Công nghệ thông tin, Bộ môn Khoa học máy 
tính, Bộ phận quản lý nghiên cứu sinh – trường Đại học Công nghệ thông tin 
và Truyền thông – Đại học Thái Nguyên đã tạo mọi điều kiện thuận lợi trong 
quá trình hoàn thành và bảo vệ luận án. 
Xin cảm ơn Ban Giám hiệu Trường Đại học Hồng Đức, các đồng nghiệp 
tại Phòng Đảm bảo chất lượng và Khảo thí, giảng viên khoa Công nghệ thông 
tin và Truyền thông – Trường Đại học Hồng Đức, cán bộ Viện Công nghệ thông 
tin – Đại học Quốc gia Hà Nội đã luôn động viên giúp đỡ tôi trong công tác để 
tôi có thời gian tập trung nghiên cứu, thực hiện luận án. 
Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới Cha, Mẹ, Vợ, Con và các 
anh, chị em trong gia đình, những người luôn dành cho tôi những tình cảm nồng 
ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tôi 
trong quá trình nghiên cứu. Luận án cũng là món quà tinh thần mà tôi trân trọng 
gửi tặng đến các thành viên trong Gia đình. 
Tôi xin trân trọng cảm ơn! 
iii 
MỤC LỤC 
LỜI CAM ĐOAN ........................................................................................... i 
LỜI CẢM ƠN ................................................................................................ ii 
DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU ........................................ vi 
DANH MỤC CÁC BẢNG .......................................................................... viii 
DANH MỤC HÌNH VẼ ................................................................................ ix 
PHẦN MỞ ĐẦU ............................................................................................ 1 
1. Tính cấp thiết .......................................................................................... 1 
2. Mục tiêu nghiên cứu của luận án ............................................................. 2 
3. Đối tượng, phạm vi nghiên cứu của luận án ............................................ 3 
4. Đóng góp chính của luận án .................................................................... 4 
5. Phương pháp và nội dung nghiên cứu ..................................................... 5 
6. Cấu trúc luận án ...................................................................................... 5 
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ 
ĐỐI TƯỢNG TRONG VIDEO ...................................................................... 7 
1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong 
video .............................................................................................................. 7 
1.1.1. Khái quát về video ...................................................................... 7 
1.1.2. Bài toán thay thế đối tượng trong video .................................... 12 
1.1.3. Một số khái niệm ...................................................................... 16 
1.1.3.1. Dò tìm đối tượng trong video ........................................... 16 
1.1.3.2. Nhận dạng hình dạng đối tượng trong video .................... 16 
1.1.3.3. Phát hiện đối tượng trong video ....................................... 16 
1.1.3.4. Phân vùng đối tượng ........................................................ 17 
1.1.3.5. Video inpainting .............................................................. 18 
1.1.3.6. Thay thế đối tượng trong video ........................................ 19 
1.1.4. Các thách thức cho bài toán thay thế đối tượng ......................... 19 
1.2. Tổng quan về các kỹ thuật áp dụng trong hệ thống thay thế đối tượng 
trong video ................................................................................................... 22 
iv 
1.2.1. Dò tìm đối tượng ...................................................................... 22 
1.2.1.1. Dựa trên điểm đặc trưng .................................................. 22 
1.2.1.2. Dựa trên các mô hình từng phần của đối tượng ................ 23 
1.2.1.3. Dựa trên mạng nơron nhân chập ...................................... 24 
1.2.1.4. Phát hiện đối tượng quảng cáo ......................................... 25 
1.2.2. Nhận dạng hình dạng đối tượng ................................................ 26 
1.2.2.1. Lượng tử hóa vector ......................................................... 26 
1.2.2.2. Lượng tử hóa tích đề các .................................................. 29 
1.2.2.3. Độ đo khoảng cách .......................................................... 30 
1.2.2.4. Nhận dạng hình dạng dựa trên tìm kiếm ANN ................. 32 
1.2.3. Các kỹ thuật hoàn thiện video ................................................... 34 
1.2.3.1. Video inpainting dựa trên lấy mẫu ................................... 35 
1.2.3.2. Inpainting ảnh sử dụng DCNN cho không gian 2D ......... 36 
1.2.3.3. Video inpainting sử dụng DCNN cho không gian 3D ...... 37 
Kết luận chương 1 ..................................................................................... 38 
CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO ......................... 39 
2.1. Dò tìm đối tượng trong video ............................................................. 39 
2.1.1. Khái quát về mô hình dò tìm đối tượng YOLO ......................... 40 
2.1.2. Mô hình dò tìm đối tượng cải tiến YOLO-Adv ......................... 42 
2.1.2.1. Cải tiến trong hàm loss .................................................... 42 
2.1.2.2. Cải tiến trong kiến trúc mạng ........................................... 46 
2.1.2.3. Trích chọn đặc trưng ........................................................ 49 
2.1.3. Ước lượng, đánh giá mô hình cải tiến ....................................... 49 
2.1.3.1. Dữ liệu kiểm thử .............................................................. 49 
2.1.3.2. Độ đo ước lượng .............................................................. 50 
2.1.3.3. Môi trường cài đặt ........................................................... 52 
2.1.3.4. Ước lượng, đánh giá ........................................................ 52 
2.2. Nhận dạng hình dạng đối tượng ......................................................... 59 
2.2.1. Mô hình lập chỉ mục PSVQ ...................................................... 60 
v 
2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc ........................ 64 
2.2.3. Ước lượng, đánh giá ................................................................. 68 
2.2.3.1. Dữ liệu và cấu hình hệ thống kiểm thử ............................. 69 
2.2.3.2. Ước lượng, đánh giá chất lượng mã hóa của PSVQ ......... 71 
2.2.3.3. Ước lượng, đánh giá tốc độ tìm kiếm với PSVQ .............. 73 
2.2.3.4. Ước lượng, đánh giá giải thuật tìm kiếm cây phân cụm thứ 
bậc kết hợp PSVQ ........................................................................ 75 
Kết luận chương 2 ..................................................................................... 80 
CHƯƠNG 3. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO ......... 81 
3.1. Phân vùng đối tượng .......................................................................... 81 
3.1.1. Các kỹ thuật phân vùng thực thể ............................................... 82 
3.1.2. Mô hình phân vùng thực thể ..................................................... 84 
3.1.2.1. Phát sinh mặt nạ vùng ...................................................... 85 
3.1.2.1. Phân vùng thực thể bằng Mask R-CNN ........................... 87 
3.1.3. Kết quả thực nghiệm mô hình phân vùng ................................. 90 
3.2. Mô hình hoàn thiện video ................................................................... 92 
3.2.1. Kiến trúc mô hình V-RBPconv ................................................. 94 
3.2.2. Mô hình kiến trúc mạng RBPconv ............................................ 95 
3.2.3. Hàm loss ................................................................................... 99 
3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video ...................... 100 
3.2.4.1. Môi trường thực nghiệm ................................................ 101 
3.2.4.2. Kết quả so sánh định tính .............................................. 103 
3.2.4.3. Kết quả so sánh định lượng ............................................ 104 
Kết luận chương 3 ................................................................................... 109 
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................. 110 
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN 
LUẬN ÁN .................................................................................................. 112 
TÀI LIỆU THAM KHẢO .......................................................................... 113 
PHỤ LỤC .................................................................................................. 122 
vi 
DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU 
Từ viết 
tắt 
Tên đầy đủ (và tạm dịch) 
ANN Approximate Nearest Neighbor (Lân cận xấp xỉ gần nhất) 
ADC Asymmetric distance computation (Tính khoảng cách bất đối xứng) 
AVI 
Audio Video Interleave (tệp tin đa phương tiện chứa cả âm thanh và 
hình ảnh bên trong) 
CAM Class Activation Map (Bản đồ kích hoạt lớp) 
CPU Central processing unit (Bộ vi xử lý trung tâm) 
CNN Convolution Neural Network (Mạng nơron tích chập) 
DCNN Deep Convolution Neural Network (Mạng nơron tích chập sâu) 
FID Frechet Inception Distance (khoảng cách Frechet) 
FVI 
Free-form video inpainting (hoàn thiện/tái tạo video với mặt nạ bất 
kỳ) 
FCN Fully Convolutional Network (Mạng tích chập đầy đủ) 
GAN Generative Adversarial Networks (Mạng sinh đối kháng) 
GPU Graphics processing unit (Bộ xử lý đồ họa) 
HD High Definition (chuẩn độ nét cao) 
HOG Histogram of oriented gradients (Biểu đồ hướng gradient) 
IoU Intersection over Union (Tỷ lệ trùng khớp giữa hai hộp bao) 
IVFADC 
Inverted file index Asymmetric distance computation (Chỉ mục 
danh sách ngược của ADC) 
LPIPS 
Learned Perceptual Image Patch Similarity (Chỉ số đo sự tượng 
đồng các mẫu ảnh) 
MSE Mean square error (Lỗi bình phương trung bình) 
MPEG Moving Picture Experts Group (Nhóm chuyên gia hình ảnh động) 
NMS Non-Maxima Suppression (Loại bỏ các điểm không cực trị) 
vii 
Từ viết 
tắt 
Tên đầy đủ (và tạm dịch) 
NTSC 
National Television System Committee (Ủy ban quốc gia về các hệ 
thống truyền hình) 
PRM Peak Response Mapping (Ánh xạ độ nhạy tối đa) 
PSNR Peak signal-to-noise ratio (Tỉ số tín hiệu cực đại trên nhiễu) 
PAL Phase Alternation Line (Hệ truyền hình màu xoay pha) 
PQ Product quantization (Lượng tử hóa tích đề các) 
PSL Peak Simulation Layer (Tầng kích hoạt cực đại) 
PSVQ 
Product sub-vector quantization (Lượng tử hóa tích đề các cụm 
vector) 
RGB Red, Green, Blue (Hệ màu RGB) 
RoI Region of Interest (Vùng chứa đối tượng) 
R-CNN 
Region-based Convolutional Neural Networks (Mạng nơron tích 
chập dựa trên đề xuất vùng) 
SIFT Scale-Invariant Feature Transform (Biến đổi đặc trưng bất biến tỷ lệ) 
SSD Single Shot Detector (Bộ dò điểm đặc trưng SSD) 
SURF Speeded up robust features (Đặc trưng SURF) 
SD Standard Denfinition (Độ nét tiêu chuẩn) 
SSIM Structural Similarity Index (Chỉ số đồng nhất có cấu trúc) 
VGG Visual Geometry Group (Nhóm hình học trực quan) 
YOLO You only look once (Mạng nhìn đối tượng chỉ một lần) 
viii 
DANH MỤC CÁC BẢNG 
Số hiệu 
bảng 
Tên bảng Trang 
2.1 Thông số phần cứng thực nghiệm mô hình YOLO-Adv 52 
2.2 Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47 55 
2.3 
So sánh mAP của mô hình dò tìm đối tượng trên tập dữ liệu 
Flickrlogos-32 
58 
2.4 Các tập dữ liệu đặc trưng 69 
2.5 Các tham số dùng để xây dựng các bộ lượng tử 75 
3.1 
So sánh kết quả của mô hình sử dụng với các phương pháp 
khác sử dụng nhiều phương pháp tạo mặt nạ huấn luyện 
khác nhau. 
90 
3.2 
Kết quả định lượng trên tập dữ liệu Places2 của các mô 
hình: CA, Pconv, EC và RBPConv. 
106 
3.3 
Kết quả định lượng trên tập dữ liệu FVI với các mô hình: 
EC, CombCN, 3Dgated và V- RBPConv 
107 
A.1 
Số lượng đối tượng cho các tập huấn luyện và kiểm thử của 
tập dữ liệu FlickrLogo-47. 
124 
ix 
DANH MỤC HÌNH VẼ 
Số hiệu 
hình vẽ 
Tên hình vẽ Trang 
1.1 Cấu trúc phân cấp của video 7 
1.2 Sơ đồ chuyển đổi dữ liệu video 11 
1.3 Một số ứng dụng chèn/thay thế logo trong video 12 
1.4 Mô hình phát hiện và thay thế đối tượng trong video 13 
1.5 Các kiểu phân vùng ảnh 17 
1.6 Các ví dụ về hoàn thiện, tái tạo ảnh/video 18 
1.7 Một số trở ngại trong phát hiện đối tượng quảng cáo 19 
1.8 Mô hình lượng tử hóa tích đề các 28 
1.9 Mô hình nhận dạng hình dạng đối tượng 32 
1.10 Ví dụ hoàn thiện ảnh với kỹ thuật video inpainting 34 
2.1 Ý tưởng chính của mô hình YOLO 40 
2.2 Cách tính IoU 41 
2.3 Kiến trúc chi tiết mạng YOLO-Adv 47 
2.4 Mô hình trích chọn đặc trưng 48 
2.5 Giá trị hàm loss trung bình huấn luyện trên tập Flicrklogos-47 53 
2.6 Biểu đồ giá trị IoU huấn luyện trên tập FlicrkLogos-47 54 
2.7 Một số hình ảnh phát hiện Logo 57 
2.8 Chất lượng mã hóa PSVQ 70 
2.9 Tốc độ tìm kiếm ANN trên các tập đặc trưng 72 
2.10 Ảnh hưởng của tham số (d,k) trên các tập dữ liệu 74 
x 
Số hiệu 
hình vẽ 
Tên hình vẽ Trang 
2.11 Hiệu năng thực thi trên các tập đặc trưng 77 
2.12 
Một số kết quả trực quan nhận dạng hình dạng đối tượng 
quảng cáo 
78 
3.1 Mô hình huấn luyện mạng phân vùng ảnh 83 
3.2 Ví dụ về làm tinh mặt nạ 85 
3.3 Mô hình phân vùng thực thể Mask R-CNN 87 
3.4 
Một số kết quả phân vùng thực thể trực quan trên tập dữ liệu 
PASCAL VOC 2012 
89 
3.5 Hiệu năng phân lớp trên dữ liệu PASCAL VOC2012 91 
3.6 Kiến trúc mô hình video inpainting 3DGated 92 
3.7 Kiến trúc mô hình video inpainting V-RBPconv 93 
3.8 Kiến trúc mô hình RBPconv 95 
3.9 Kiến trúc khối residual cải tiến 96 
3.10 Một số mặt nạ minh họa 101 
3.11 So sánh trực quan tái tạo, hoàn thiện ảnh của các mô hình 102 
3.12 So sánh trực quan của các mô hình video inpainting 103 
A.1 
Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47 
(bên dưới) được thể hiện trong các bounding box 
122 
A.2 Một số ảnh ví dụ trong tập dữ liệu Flickrlogos-47 123  ... Catanzaro B. 
(2018), "Image inpainting for irregular holes using partial convolutions," 
arXiv preprint arXiv:1804.07723. 
[51] Liu H., Jiang S., Huang Q., Xu C. (2008), "A generic virtual content 
insertion system based on visual attention analysis," ACM MM’08, pp. 379-
388,. 
[52] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C, Y., 
and Berg, A, C. (2016), "Ssd: Single shot multibox detector", ECCV. 
[53] Long J., Shelhamer E., Darrell T. (2015), "Fully convolutional 
networks for semantic segmentation," IEEE Conference on Computer Vision 
and Pattern Recognition (CVPR), p. 3431–3440. 
[54] Lowe D. G. (2004), "Distinctive image features from scale-invariant 
keypoints," International Journal of Computer Vision, vol. 60, no. 2, pp. 91-
110. 
[55] Mahajan K. S., Vaidya M. B. (2012), "Image in Painting Techniques: 
A survey," IOSR Journal of Computer Engineering, vol. 5, no. 4, pp. 45-49. 
[56] Medioni G., Guy G., Rom H.(1998), "Real-Time Billboard 
Substitution in a Video Stream," Digital Communications. 
[57] Muja M., Lowe D. G. (2009), "Fast approximate nearest neighbors 
with automatic algorithm configuration," VISAPP International Conference 
on Computer Vision Theory and Applications, p. 331–340. 
118 
[58] Muja M., Lowe D. G. (2014), "Scalable nearest neighbor algorithms 
for Scalable nearest neighbor algorithms for," IEEE Trans. Pattern Anal. 
Mach. Intell. 36, p. 2227–2240. 
[59] Muja M., Lowe, D. G. (2012), "Fast matching of binary features," 
Proceedings of the Ninth Conference on Computer and Robot Vision (CRV), 
p. 404–410. 
[60] Nazeri K., Eric Ng., Joseph T., Qureshi F., Ebrahimi M. (2019), 
"EdgeConnect: Generative Image Inpainting with Adversarial Edge 
Learning," arXiv preprint arXiv:1901.00212. 
[61] Neubeck A., Van Gool L. (2006), "Efficient non-maximum 
suppression," Proceedings of the International Conference on Pattern 
Recognition (ICPR); Hong Kong, China. 20–24 August 2006, p. 850–855. 
[62] Norouzi M., Fleet D. J. (2013), "Cartesian k-means," Proceedings of 
the 2013 IEEE Conference on Computer Vision and Pattern Recognition, 
CVPR’13, p. 3017–3024. 
[63] Oliveira G., Frazao X., Pimentel A., Ribeiro B. (2016), "Automatic 
graphic logo detection via fast region-based convolutional networks," 
International Joint Conference on Neural Networks, p. 985–991. 
[64] Pathak D., Krahenbuhl P., Donahue J., Darrell T., Efros A. A. (2016), 
"Context encoders: Feature learning by inpainting," Proceedings of the IEEE 
Conference on Computer Vision and Pattern Recognition, p. 2536–2544. 
[65] Patwardhan K. A., Sapiro G., Bertalmio M. (2007), "Video inpainting 
under constrained camera motion," IEEE Trans. on Image Proc. (TIP), vol. 
16, no. 2, pp. 545-553. 
[66] Pinheiro P. O., Lin T. Y., Collobert R., Dollár P. (2016), "Learning 
to refine object segments," ECCV. 
[67] Real E., Shlens J., Mazzocchi S., Pan X., Vanhoucke V. (2017), 
"Youtube-boundingboxes: A large high-precision human-annotated data set 
for object detection in video," Proceedings of the IEEE Conference on 
Computer Vision and Pattern Recognition, pp. 5296-5305. 
[68] Redmon J., Divvala S., Girshick R., Farhadi A. (2016), "You only 
look once: Unifed, real-time object detection.," EEE Conference on 
Computer Vision and Pattern Recognition, p. 779–788. 
119 
[69] Redmon J., Farhadi A. (2017), "Yolo9000: better, faster, stronger," 
Proceedings of the IEEE Conference on Computer Vision and Pattern 
Recognition (CVPR), p. 6517–6525, 21–26 July. 
[70] Redmon J., Farhadi A. (2018), "YOLOv3: An Incremental 
Improvement," arXiv:1804.02767v1. 
[71] Ren S., He K., Girshick R., Sun J. (2015), "Faster r-cnn: Towards real 
time object detection with region proposal networks," NIPS, pp. 91-99. 
[72] Romberg S., Pueyo L. G., Lienhart R., van Zwol R. (2011), "Scalable 
logo recognition in real-world images," ACM International Conference on 
Multimedia Retrieval, vol. 8, pp. 1-25. 
[73] Sharma A., Grau O., Fritz M. (2016), "Vconv-dae: Deep volumetric 
shape learning without object labels," European Conference on Computer 
Vision, p. 236–250. 
[74] Simonyan K., Zisserman A. (2014), "Very deep convolutional 
networks for large-scale image recognition," CoRR arXiv:1409.1556. 
[75] Su H., Zhu X., Gong S. (2017), "Deep learning logo detection with 
data expansion by synthesising context," IEEE Winter Conference on 
Applications of Computer Vision, p. 530–539. 
[76] Szegedy C., Wei L., Yangqing J., Sermanet P., Reed S., Anguelov D., 
Erhan D., Vanhoucke V., Rabinovich A. (2015), "Going deeper with 
convolutions," IEEE Conference on Computer Vision and Pattern 
Recognition, pp. 1-9. 
[77] Timothy K., Shih N. C., Tan J. C., Zhong H. J. (2003), "Video 
Falsifying by Motion Interpolation and Inpainting". 
[78] Tursun O., Kalkan S. (2015), "Metu dataset: A big dataset for 
benchmarking trademark retrieval," IAPR International Conference on 
Machine Vision Applications, pp. 514-517. 
[79] Tuzko A., Herrmann C., Manger D., Jurgen B. (2018), "Open Set 
Logo Detection and Retrieval," International Joint Conference on Computer 
Vision, Imaging and Computer Graphics Theory and Applications. 
[80] Uijlings J. R. R., van de Sande K. E. A., Gevers T., Smeulders A. W. 
M. (2013), "Selective search for object recognition," International Journal 
of Computer ViVision, vol. 2, no. 104, p. 154–171, September. 
120 
[81] Venkatesh M. V., Cheung S. S., Zhao J. (2009), "Efficient 
objectbased video inpainting," Pattern Recognition Letters, vol. 30, no. 2, 
pp. 168-179. 
[82] Wang C., Huang H., Han X., and Wang J. (2019), "Video inpainting 
by jointly learning temporal structure and spatial details," Proceedings of the 
33th AAAI Conference on Artificial Intelligence. 
[83] Wang W., Huang Q., You S., Yang C., Neumann U. (2017), "Shape 
inpainting using 3d generative adversarial network and recurrent 
convolutional networks," arXiv preprint arXiv:1711.06375. 
[84] Watve A., Sural S.( 2008), "Soccer video processing for the detection 
of advertisement billboards," Pattern Recognition Letters , vol. 29, no. 7, pp. 
994-1006. 
[85] Weber M., Welling M., Perona P. (2000), "Towards automatic 
discovery of object categories," IEEE Conference on Computer Vision and 
Pattern Recognition, vol. 2, p. 101–108. 
[86] Wexler Y., Shechtman E., Irani M. (2007), "Space-time completion 
of video," IEEE Transactions on pattern analysis and machine intelligence, 
vol. 29, no. 3. 
[87] Xie J., Xu L., Chen E. (2012), "Image denoising and inpainting with 
deep neural networks," Advances in neural information processing systems, 
pp. 341-349. 
[88] Xu N., Yang L., Fan Y., Yang J., Yue D., Liang Y., Price B., Cohen 
S., Huang T. (2018), "Youtube-vos: Sequence-tosequence video object 
segmentation.," Proceedings of the European Conference on Computer 
Vision (ECCV), p. 585–601. 
[89] Yan W. Q., Wang J., Kankanhalli M. S. (2005), "Automatic video 
logo detection and removal," Springer-Verlag. 
[90] Yang C., Lu X., Lin Z., Shechtman E., Wang O., Li H. (2017), "High-
resolution image inpainting using multi-scale neural patch synthesis," The 
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 
vol. 1, p. 3. 
[91] Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T. S. (2018), "Free-
form image inpainting with gated convolution," arXiv preprint 
arXiv:1806.03589. 
121 
[92] Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T. S. (2018), 
"Generative image inpainting with contextual attention," arXiv preprint 
arXiv:1801.07892. 
[93] Zeiler M. D., Fergus R. (2014), "Visualizing and understanding 
convolutional networks," In Proceedings of the European Conference on 
Computer Vision, pp. 818-833. 
[94] Zheng C., Cham T., and Cai J. (2019), "Pluralistic Image 
Completion," CoRR abs/1903.04227. 
[95] Zhou W., Bovik A. C., Sheikh H. R., and Simoncelli E. P. (2004), 
"Image Qualifty Assessment: From Error Visibility to Structural 
Similarity.," IEEE Transactions on Image Processing, vol. 13, no. 4, p. 600–
612. 
[96] Zhou Y., Zhu Y., Ye Q., Qiu Q., Jiao J. (2018), "Weakly supervised 
instance segmentation using class peak response," CVPR. 
[97] Zhu Q., Wang L., Wu Y., Shi J. (2008), "Contour context selection 
for object detection: A set-to-set contour matching approach," European 
Conference on Computer Vision, pp. 774-787. 
122 
PHỤ LỤC 
A. Bộ dữ liệu kiểm thử Flickrlogos-47 
Flickrlogos-47 được mở rộng, hiệu chỉnh từ bộ dữ liệu flickrlogos-32 rất 
phổ biến cho bài toán truy vấn ảnh logo. Do được thiết kế cho bài toán truy vấn 
logo trong ảnh nên yếu điểm lớn nhất của bộ dữ liệu flickrlogos-32 là các chú 
giải ở mức đối tượng chưa đầy đủ, chi tiết cho bài toán phát hiện logo. Thêm 
vào đó với flickrlogos-32, mỗi ảnh chỉ xác định một thể hiện logo thuộc duy 
nhất một nhãn nào đó mặc dù trong ảnh có nhiều thể hiện của một logo hay 
nhiều logo khác nhau. Điều đó có ý nghĩa trong ngữ cảnh truy vấn ảnh nhưng 
là một hạn chế cho bài toán nhận dạng. 
Hình A.1. Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47 (bên 
dưới) được thể hiện trong các bounding box 
Flickrlogos-47 ra đời không những cập nhật các chú thích còn thiếu cho 
các nhãn trong ảnh mà còn tách rời, đánh nhãn riêng cho biểu tượng và dòng 
văn bản minh họa logo, bổ sung thêm nhiều mẫu dữ liệu khác nhằm khắc phục 
các hạn chế của tập dữ liệu flickrlogos-32. Số lớp trong flickrlogos-47 được 
nâng lên 47 lớp bằng cách bổ sung thêm ảnh, tách số lớp có trong flickrlogos-
32. Các nhãn hiệu trong flickrlogos-32 gồm cả biểu tượng và ký tự thì được 
tách thành 2 lớp trong flickrlogos-47. Mỗi ảnh trong flickrlogos-32 chỉ chứa 
một logo thuộc về một lớp duy nhất thì trong flickrlogos-47 một ảnh có thể có 
nhiều thể hiện thuộc về cùng một logo hoặc các lớp logo khác nhau. Ảnh nhiễu 
trong flickrlogos-32 bị loại bỏ trong flickrlogos-47. Một khác biệt nữa của bộ 
123 
dữ liệu flickrlogos-47 so với flickrlogos-32 là sự đa dạng về kích thước, đặc 
biệt là xuất hiện nhiều ảnh chứa các logo nhỏ nhằm tạo thêm độ khó cho việc 
nhận dạng (hình A.1). 
Hình A.2. Một số ảnh ví dụ trong tập dữ liệu flickrlogos-47 
Flickrlogos-47 thực hiện chú thích lại, mỗi ảnh có thể chứa nhiều thể 
hiện của logo và có thể thuộc vào nhiều lớp khác nhau vì vậy việc gắn các ảnh 
vào tập huấn luyện và tập kiểm thử cũng phải thay đổi, một ảnh có thể nằm 
trong đồng thời cả hai tập. Tập ảnh huấn luyện lúc này được hình thành từ 833 
ảnh, tập kiểm thử gồm 1402 ảnh. Một thử thách lớn nhất khi phát hiện đối tượng 
trên tập dữ liệu flickrlogos-47 là các thể hiện của logo thường có kích thước ở 
nhiều tỷ lệ khác nhau, độ chênh lệch tỷ lệ có thể lớn. Trong đó nhiều thể hiện 
logo có kích thước tương đối nhỏ, mà các thể hiện của đối tượng có kích thước 
nhỏ thông thường khó nhận dạng hơn rất nhiều so với các thể hiện có kích thước 
lớn. Thể hiện logo nhỏ nhất đơn lẽ trong một ảnh trong tập huấn luyện có chiều 
dài là 15px trong khi thể hiện lớn nhất có chiều dài là 834px. Độ dài trung bình 
là 99px. Kích thước ảnh trong tập dữ liệu flickrlogos-47 rất đa dạng. Ảnh có 
kích thước lớn nhất là 1024x768px. Một số hình ảnh minh họa được thể hiện 
trong hình A.2. Chi tiết về số lượng từng đối tượng được cho trong bảng A.1. 
124 
Tên lớp Huấn 
luyện 
Kiểm 
thử 
 Tên lớp Huấn 
luyện 
Kiểm 
thử 
Adidas (Symbol) 37 104 Adidas (Text) 34 71 
Aldi 38 88 Apple 30 47 
Becks (Symbol) 52 98 Becks (Text) 54 118 
BMW 29 51 Carlsberg (Symbol) 30 92 
Carlsberg (Text) 40 112 Chimay (Symbol) 45 79 
Chimay (Text) 56 83 CocaCola 62 91 
Corona (Symbol) 32 54 Corona (Text) 35 59 
DHL 51 93 Erdinger (Symbol) 48 70 
Erdinger (Text) 33 50 Esso (Symbol) 32 63 
Esso (Text) 8 34 FedEx 36 60 
Ferrari 29 44 Ford 30 47 
Fosters (Symbol) 33 99 Fosters (Text) 43 98 
Google 33 50 Guinness (Symbol) 37 80 
Guinness (Text) 38 103 Heineken 63 103 
HP 43 75 Milka 89 275 
nVidia (Symbol) 40 97 nVidia (Text) 40 92 
Paulaner (Symbol) 48 69 Paulaner (Text) 30 63 
Pepsi (Symbol) 57 194 Pepsi (Text) 54 140 
Rittersport 87 202 Shell 34 66 
Singha (Symbol) 26 56 Singha (Text) 26 57 
Starbucks 43 65 Stellaartois (Symbol) 43 72 
Stellaartois (Text) 33 66 Texaco 33 56 
Tsingtao (Symbol) 39 91 Tsingtao (Text) 49 95 
UPS 34 57 Tổng 1936 4032 
Bảng A.1. Số lượng đối tượng cho các tập huấn luyện và kiểm thử của tập 
dữ liệu FlickrLogo-47. Với mỗi lớp đối tượng, tập huấn luyện chiếm 
khoảng 33% tổng số đối tượng trong lớp đó. 
125 
B. Kiến trúc mạng Darknet-53 
 Kiểu Bộ lọc Kích thước Đầu ra 
 Convolution 32 3 x 3 256 x 256 
 Convolution 64 3 x 3 / 2 128 x 128 
1x 
Convolution 32 1 x 1 
Convolution 64 3 x 3 
Residual 128 x 128 
 Convolution 128 3 x 3 / 2 64 x 64 
2x 
Convolution 64 1 x 1 
Convolution 128 3 x 3 
Residual 64 x 64 
 Convolution 256 3 x 3 / 2 32 x 32 
8x 
Convolution 128 1 x 1 
Convolution 256 3 x 3 
Residual 32 x 32 
 Convolution 512 3 x 3 / 2 16 x 16 
8x 
Convolution 256 1 x 1 
Convolution 512 3 x 3 
Residual 16 x 16 
 Convolution 1024 3 x 3 / 2 8 x 8 
4x 
Convolution 512 1 x 1 
Convolution 1024 3 x 3 
Residual 8 x 8 
 Avgpool Global 1000 
 Connected 1000 
 Softmax 
126 
C. Chi tiết kiến trúc mạng RBPconv 
Input: ảnh (512 x 512 x 3) Kích thước 
[Tầng 1] ERB(64); 512x512x64 
[Tầng 2] ERB(128); Max-pooling 2x2, stride = 2; 256 x 256 x 128 
[Tầng 3] ERB(256); Max-pooling 2x2, stride = 2; 128 x 128 x 256 
[Tầng 4] ERB (512); Max-pooling 2x2, stride = 2; 64 x 64 x 512 
[Tầng 5] ERB (512); Max-pooling 2x2, stride = 2; 32 x 32 x 512 
[Tầng 6] ERB (512); Max-pooling 2x2, stride = 2; 16 x 16 x 512 
[Tầng 7] ERB (512); Max-pooling 2x2, stride = 2; 8 x 8 x 512 
[Tầng 8] ERB (512); Max-pooling 2x2, stride = 2; 4 x 4 x 512 
[Tầng 9] ERB (512); Max-pooling 2x2, stride = 2; 2 x 2 x 512 
[Tầng 10] ERB (1024);Max-pooling 2x2, stride = 2; 1 x 1 x 1024 
[Tầng 11] DRB(512); up-conv 2x2, stride = 2; 2 x 2 x 512 
 Concatenate (tầng 11, tầng 9) 2 x 2 x 1024 
[Tầng 12] DRB(512); up-conv 2x2, stride = 2; 4 x 4 x 512 
 Concatenate (tầng 12, tầng 8); 4 x 4 x 1024 
[Tầng 13] DRB(512); up-conv 2x2, stride = 2; 8 x 8 x 512 
 Concatenate (tầng 13, tầng 7); 8 x 8 x 1024 
[Tầng 14] DRB(512); up-conv 2x2, stride = 2; 16 x 16 x 512 
 Concatenate (tầng 14, tầng 6); 16 x 16 x 1024 
[Tầng 15] DRB(512); up-conv 2x2, stride = 2; 32 x 32 x 512 
 Concatenate (tầng 15, tầng 5); 32 x 32 x 1024 
[Tầng 16] DRB(512); up-conv 2x2, stride = 2; 64 x 64 x 512 
 Concatenate (tầng 16, tầng 4); 64 x 64 x 1024 
[Tầng 17] DRB(256); up-conv 2x2, stride = 2; 128 x 128 x 256 
 Concatenate (tầng 17, tầng 3); 128 x 128 x 512 
[Tầng 18] DRB(128); up-conv 2x2, stride = 2; 256 x 256 x 128 
 Concatenate (tầng 18, tầng 2); 256 x 256 x 256 
[Tầng 19] DRB(64); up-conv 2x2, stride = 2; 512 x 512 x 64 
 Concatenate (tầng 19, tầng 1); 512 x 512 x 128 
[Tầng 20] DRB(3); 512 x 512 x 3 
Output: ảnh (512 x 512 x 3)
File đính kèm:
luan_an_nghien_cuu_cai_tien_ky_thuat_nhan_dang_va_thay_the_d.pdf
tom tat luan an NCS Le Dinh Nghiep 8_2020.pdf
trang thong tin luan an - Le Dinh Nghiep.docx