Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa / giải mã video phân tán

Video là một dạng dữ liệu đặc biệt, đầy tính hấp dẫn. dễ nhớ và phổ biến hơn bất cứ một loại dữ liệu nào khác. Các số liệu thống kê cho thấy nội dung video dang tăng mạnh hàng năm theo cấp số nhân. Diều dó cho thấy vai trò quan trọng cùa video trong tương lai. Cùng với dó là sự bùng nô của các thiết bị diện tử mói có khả nâng bắt giữ, chỉnh sửa, lưu trữ và chia sẻ nội dung video trên toàn thế giới dã dẫn đến một xu hướng mới mà ở dó việc xử lý thông tin dược tích hợp triệt dể vào các thiết bị và hoạt dộng hàng ngày. Dề dạt dược diều này, các thuật toán nén trờ nên vô cùng quan trọng, dặc biệt là nén video. Mục đích của nén video là tạo ra một cách biểu diễn dữ liệu video sao cho chiếm ít dung lượng nhất. Vì dữ liệu video nén sẽ dòi hỏi ít không gian lưu trữ hơn và băng thông truyền tải nhỏ hơn, do dó nén video là một phần không thể thiếu cùa hầu hết các hệ thống lưu trữ, xử lý, truyền thông và hiển thị video. Dặc biệt là bang thông luôn là một yếu tố hạn chế trong nhiều ứng dụng.

Tuy nhiên, nén cũng đi dôi với những trà giá. Thứ nhất, nén càng nhiều sẽ càng làm giảm chất lượng hình ảnh. Thứ hai, độ phức tạp của các thuật toán nén sẽ táng lên khi muốn tỷ lệ nén tốt hơn. Hơn nữa, tỷ lệ nén tốt nhất cũng phụ thuộc vào thiết bị, VỊ trí và ứng dụng cụ thể. Tuy nhiên, người dùng không cần phải biết đến các cấu hình phức tạp và các lựa chọn hên quan đến video và định dạng nén. Dó là lý do tại sao có nhiều chuẩn nén video, có thể phù hợp với vô số các kịch bản ứng dụng khác nhau. Các tiêu chuẩn này, còn dược gọi là chuẩn mã hóa video, dược sử dụng rộng rãi và phát triển không ngừng.

137 trang dienloan 19340

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa / giải mã video phân tán", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa / giải mã video phân tán

BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN THỊ HƯƠNG THẢO
NGHIÊN CỨU CẢI TIẾN HIỆU NĂNG
HỆ THỐNG MÃ HÓA/GIẢI MÃ VIDEO PHÂN TÁN
LUẬN ÁN TIẾN SĨ KỸ THUẬT
CHUYÊN NGÀNH: Kỹ thuật điện tử
MÃ SỐ: 9.52.02.03
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Vũ Văn San
2. TS. Nguyễn Ngọc Minh
Hà Nội - 2020
ii
LỜI CAM ĐOAN
Tôi xin cam đoan dưới đây là luận án tốt nghiệp của riêng tôi dưới sự hướng
dẫn của các giáo viên hướng dẫn. Tất cả các số liệu, các kết quả trình bày trong
luận án hoàn toàn trung thực và có được từ những nghiên cứu mà tôi và nhóm
nghiên cứu của tôi đã thực hiện trong quá trình làm luận án.
Hà Nội, ngày tháng năm 2020
Nghiên cứu sinh
iii
LỜI CẢM ƠN
Trong quá trình nghiên cứu, tác giả đã nhận được nhiều sự giúp đỡ quý giá.
Tác giả xin gửi lời cảm ơn sâu sắc tới những người thầy, người đồng nghiệp
PGS.TS Vũ Văn San và TS. Nguyễn Ngọc Minh đã tận tình hướng dẫn, định
hướng nghiên cứu khoa học, giúp đỡ tác giả trong quá trình nghiên cứu và hoàn
thành Luận án. Tác giả cũng xin gửi lời cảm ơn sâu sắc tới các thành viên trong
Lab Công nghệ truyền thông đa phương tiện của Đại học Công nghệ - Đại học
Quốc gia Hà Nội, đặc biệt TS. Hoàng Văn Xiêm đã hỗ trợ và có những góp ý
khoa học quý báu cho nội dung luận án.
Tác giả xin gửi lời cảm ơn tới Lãnh đạo học viện Công nghệ bưu chính viễn
thông, Hội đồng khoa học, Hội đồng Tiến sĩ, Khoa đào tạo sau đại học - Học
viện Công nghệ bưu chính viễn thông đã tạo điều kiện thuận lợi cho tác giả hoàn
thành luận án này.
Tác giả xin gửi lời cảm ơn tới các đồng nghiệp tại Khoa Kỹ thuật Điện tử 1
– Học viện Công nghệ Bưu chính Viễn thông đã tạo điều kiện về thời gian cũng
như có các góp ý cho tác giả về nội dung luận án trong quá trình nghiên cứu và
hoàn thiện luận án.
Tác giả xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp đã luôn ủng hộ,
động viên, chia sẻ, giúp đỡ tác giả hoàn thành luận án như ngày hôm nay.
Hà Nội, ngày tháng năm 2020
Nghiên cứu sinh
iv
LỜI MỞ ĐẦU
Lý do nghiên cứu
Video là một dạng dữ liệu đặc biệt, đầy tính hấp dẫn, dễ nhớ và phổ biến
hơn bất cứ một loại dữ liệu nào khác. Các số liệu thống kê cho thấy nội dung
video đang tăng mạnh hàng năm theo cấp số nhân. Điều đó cho thấy vai trò
quan trọng của video trong tương lai. Cùng với đó là sự bùng nổ của các thiết
bị điện tử mới có khả năng bắt giữ, chỉnh sửa, lưu trữ và chia sẻ nội dung video
trên toàn thế giới đã dẫn đến một xu hướng mới mà ở đó việc xử lý thông tin
được tích hợp triệt để vào các thiết bị và hoạt động hàng ngày. Để đạt được điều
này, các thuật toán nén trở nên vô cùng quan trọng, đặc biệt là nén video. Mục
đích của nén video là tạo ra một cách biểu diễn dữ liệu video sao cho chiếm ít
dung lượng nhất. Vì dữ liệu video nén sẽ đòi hỏi ít không gian lưu trữ hơn và
băng thông truyền tải nhỏ hơn, do đó nén video là một phần không thể thiếu
của hầu hết các hệ thống lưu trữ, xử lý, truyền thông và hiển thị video. Đặc biệt
là băng thông luôn là một yếu tố hạn chế trong nhiều ứng dụng.
Tuy nhiên, nén cũng đi đôi với những trả giá. Thứ nhất, nén càng nhiều sẽ
càng làm giảm chất lượng hình ảnh. Thứ hai, độ phức tạp của các thuật toán
nén sẽ tăng lên khi muốn tỷ lệ nén tốt hơn. Hơn nữa, tỷ lệ nén tốt nhất cũng
phụ thuộc vào thiết bị, vị trí và ứng dụng cụ thể. Tuy nhiên, người dùng không
cần phải biết đến các cấu hình phức tạp và các lựa chọn liên quan đến video và
định dạng nén. Đó là lý do tại sao có nhiều chuẩn nén video, có thể phù hợp
với vô số các kịch bản ứng dụng khác nhau. Các tiêu chuẩn này, còn được gọi
là chuẩn mã hóa video, được sử dụng rộng rãi và phát triển không ngừng.
Trong suốt quá trình phát triển của mình, các tiêu chuẩn mã hóa video luôn
tuân theo một quy tắc thống nhất. Đó là tiêu chuẩn mã hóa video mới luôn
luôn phải làm giảm đáng kể tốc độ bit. Chẳng hạn, chuẩn mã hóa video hiệu
suất cao HEVC [54] tiết kiệm tốc độ bit khoảng 50 % so với chuẩn H.264/AVC
[65] trước đó với cùng một chất lượng hình ảnh. Tuy nhiên, để đạt được tỷ lệ
nén tốt hơn với cùng một chất lượng tương đương sẽ phải trả giá bằng sự phức
tạp của cả bộ mã hóa và bộ giải mã. Mặt khác, độ phức tạp bộ mã hóa và độ
phức tạp của bộ giải mã cũng không giống nhau. Trong các chuẩn mã hóa video
truyền thống, bộ mã hóa thường phức tạp hơn rất nhiều so với bộ giải mã. Cách
thiết kế này thường phù hợp với các ứng dụng video truyền thống, ví dụ truyền
hình quảng bá, nơi mà chương trình truyền hình được mã hóa một lần và sau
đó được giải mã để xem bởi hàng triệu người dùng.
Với sự phát triển mạnh mẽ của mạng không dây, xuất hiện hàng loạt các ứng
dụng mới mà ở đó không tuân thủ theo sơ đồ một - nhiều như các ứng dụng
trước đó. Có thể kể đến mạng cảm biến video không dây (WVSN). Đối với các
ứng dụng mới này, thường sẽ có nhiều bộ mã hóa gửi dữ liệu tới một vài bộ giải
vmã trung tâm. Điều này cũng đi ngược lại với mục tiêu thiết kế ban đầu của các
chuẩn nén video truyền thống. Trong các mạng này, có rất nhiều yêu cầu truyền
dẫn đường lên. Do đó, các cảm biến camera cần có bộ mã hóa đơn giản trong
khi các trạm gốc có thể giải mã với nhiều tài nguyên hơn hay nói cách khác bộ
giải mã có thể có độ phức tạp cao. Vì vậy thách thức trong các hệ thống này là
làm sao có thể thực hiện nén video trên các thiết bị có tài nguyên hạn chế hay
nói cách khác các ứng dụng mới này yêu cầu bộ mã hóa nhẹ, hoặc ít nhất phải
có sự phân chia độ phức tạp hệ thống một cách linh hoạt, có khả năng chống
lại hiện tượng mất gói, hiệu suất nén cao và độ trễ thấp. Nói một cách khác,
các ứng dụng mới này sẽ cần một sơ đồ mã hóa video mới có khả năng đáp ứng
được các yêu cầu ở trên với hiệu suất mã hóa có thể tiệm cận với các hệ thống
mã hóa video dự đoán hiện nay trong khi độ phức tạp bộ mã hóa thấp.
Một giải pháp thay thế có thể đáp ứng các yêu cầu này là mã hóa video
phân tán (DVC). Trong mã hóa video phân tán, ước lượng chuyển động và do
đó là độ phức tạp của nó được chuyển từ bộ mã hóa sang bộ giải mã. Mục tiêu
trọng tâm giờ đây là một bộ mã hóa nhẹ, phù hợp với các thiết bị bị hạn chế về
tài nguyên xử lý và cả thời gian xử lý. Ngược lại, bộ giải mã được coi là có tài
nguyên phong phú. Một trường hợp ví dụ là quay video trên thiết bị bị hạn chế
ví dụ như điện thoại cầm tay và sau đó giải mã trên máy tính ở nhà mà không
có bất kỳ hạn chế thời gian nào. Phải nhấn mạnh rằng mục đích của DVC không
phải là thay thế cho H.264/AVC hay HEVC bằng cách cung cấp khả năng nén
tốt hơn. Trên thực tế, DVC tốt nhất được dự kiến là có thể thực hiện với hiệu
năng nén tương đương.
Tuy nhiên bất kể các ưu điểm đầy tiềm năng của DVC như hiệu suất nén
cao, công suất thấp, khả năng chống nhiễu nội tại như được chứng minh về mặt
lý thuyết trong các nghiên cứu trước đây, cho đến hiện nay vẫn chưa có nền
tảng nào thực hiện hoặc kiểm nghiệm DVC. Về mặt lý thuyết, DVC đã được
chứng minh có thể đạt được hiệu năng tương đương như các chuẩn mã hóa video
truyền thống. Tuy nhiên, các kết quả thực tế cho thấy DVC vẫn chưa đạt được
hiệu suất mong muốn như các chuẩn nén video dự đoán hiện nay, đặc biệt trong
bối cảnh giữ cho bộ mã hóa có độ phức tạp thấp. Vì vậy cho đến hiện nay, cộng
đồng nghiên cứu vẫn đang nỗ lực để cải thiện hiệu năng méo tín hiệu - tốc độ
bit (RD) và giải quyết các trở ngại chính của DVC trong các ứng dụng thực tế
với các điều kiện bị ràng buộc. Tuy nhiên, trong thực tế vẫn còn một khoảng
cách giữa hiệu suất mã hóa của DVC và các chuẩn mã hóa video truyền thống.
Mục tiêu nghiên cứu
Các phân tích ở trên cho thấy rằng DVC đóng một vai trò quan trọng đối
với các ứng dụng mới như mạng cảm biến hình ảnh hay mạng giám sát không
dây. Tuy nhiên thách thức chính đối với DVC là phải đạt được hiệu năng nén ở
mức tiệm cận với các hệ thống mã hóa video dự đoán hiện có. Vì vậy mục tiêu
nghiên cứu của luận án là nghiên cứu đề xuất kỹ thuật cải tiến hiệu năng nén
vi
của mã hóa video phân tán DVC và mã hóa video phân tán liên lớp DSVC.
Nội dung nghiên cứu
Với mục tiêu nghiên cứu ở trên, phần nội dung nghiên cứu của Luận án tập
trung vào các nội dung sau:
Đề xuất các phương pháp mới nhằm cải tiến hiện năng nén cho mã hóa
video phân tán bao gồm phương pháp được thực hiện tại phía mã hóa và
nhóm các phương pháp thực hiện tại phía giải mã.
Đề xuất các kỹ thuật tạo thông tin phụ trợ mới để cải tiến hiệu năng nén
cho mã hóa video phân tán liên lớp.
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu là mã hóa video phân tán và mở rộng của mã hóa video
phân tán là mã hóa video phân tán liên lớp. Phạm vi nghiên cứu của luận án là
các kỹ thuật nhằm nâng cao hiệu năng nén của mã hóa video phân tán và mã
hóa video phân tán liên lớp.
Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Ý nghĩa khoa học của luận án mà nghiên cứu sinh hướng đến là đề xuất các
kỹ thuật mới nhằm nâng cao hiệu năng nén của mã hóa video phân tán và mã
hóa video phân tán liên lớp.
Ý nghĩa thực tiễn của luận án mà nghiên cứu sinh hy vọng đạt được là những
kết quả nghiên cứu của luận án góp phần vào việc rút ngắn khoảng cách về hiệu
suất mã hóa của mã hóa video phân tán với hệ thống mã hóa video dự đoán
hiện nay, sớm đưa mã hóa video phân tán vào các ứng dụng thực tế.
Phương pháp nghiên cứu
Để thực hiện được các nội dung nghiên cứu đề ra, phương pháp nghiên cứu
được sử dụng trong Luận án này bao gồm:
Phương pháp nghiên cứu lý luận: Phân tích, tổng hợp và đánh giá các công
trình nghiên cứu, sách chuyên khảo và các nguồn tài liệu khoa học có liên
quan đến mã hóa video phân tán và mã hóa video phân tán liên lớp. Từ đó
đề xuất các kỹ thuật mới nhằm cải tiến hiệu năng nén cho mã hóa video
phân tán và mã hóa video phân tán liên lớp.
Phương pháp mô phỏng: Các đề xuất cải tiến hiệu năng nén cho mã hóa
video phân tán và mã hóa video phân tán liên lớp được thử nghiệm và đánh
giá so sánh với các giải pháp trước đó trên các phần mềm tham chiếu.
Cấu trúc của luận án
vii
Ngoài phần mở đầu và phần kết luận, kiến nghị, Luận án được chia thành 3
chương với bố cục như sau:
Chương 1: Tổng quan về mã hóa video.
Chương 1 giới thiệu tổng quan về mã hóa video nói chung và tập trung vào
mã hóa video phân tán. Trong chương này giới thiệu một số các chuẩn nén video
dự đoán, lý thuyết nền tảng của DVC và các bộ mã hóa video phân tán thực tế
được nghiên cứu trong cộng đồng nghiên cứu DVC. Phần cuối của chương 1 đề
cập đến các vấn đề đang được nghiên cứu trong DVC. Đây chính là các gợi mở
cho các nghiên cứu được thực hiện ở các chương sau.
Chương 2: Cải tiến hiệu năng nén cho mã hóa video phân tán.
Chương 2 trình bày các kết quả nghiên cứu mới của Luận án cho mã hóa
video phân tán. Phần đầu của chương này khảo sát một số các nghiên cứu có
liên quan. Từ đó đề xuất một số phương pháp nhằm nâng cao hiệu năng nén
cho mã hóa video phân tán bao gồm phương pháp thay đổi kích thước nhóm
ảnh được thực hiện tại phía mã hóa, nhóm các phương pháp được thực hiện tại
phía giải mã gồm phương pháp cải tiến chất lượng thông tin phụ trợ và phương
pháp cải tiến độ chính xác của mô hình nhiễu tương quan.
Các kết quả nghiên cứu của chương 2 được công bố trong các bài báo số [1],
[2], [3] trong danh mục các công trình công bố của tác giả.
Chương 3: Cải tiến hiệu năng nén cho mã hóa video phân tán liên
lớp.
Chương 3 trình bày các kết quả nghiên cứu mới về cải tiến chất lượng thông
tin phụ trợ cho mã hóa video phân tán liên lớp bao gồm kỹ thuật tạo thông tin
phụ trợ dựa trên kết hợp ảnh và tạo thông tin phụ trợ dựa trên máy vecto hỗ
trợ (SVM).
Các kết quả nghiên cứu của chương 3 được công bố trong các bài báo số
[4],[5] trong danh mục các công trình công bố của tác giả.
Mục lục
Mục lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii
Chương 1. Tổng quan về mã hóa video . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1 Mã hóa video dự đoán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Các tiêu chuẩn mã hóa video trước đây . . . . . . . . . . . . . . . . 7
1.1.2 Chuẩn mã hóa video H.264/MPEG-4 AVC . . . . . . . . . . . . . . 9
1.1.3 Chuẩn mã hóa video HEVC . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Mã hóa video phân tán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Các kiến trúc mã hóa video phân tán . . . . . . . . . . . . . . . . . . . . . 15
1.3.1 Kiến trúc cơ bản của mã hóa video phân tán . . . . . . . . . . . . . 15
1.3.2 Kiến trúc mã hóa video Stanford . . . . . . . . . . . . . . . . . . . . 16
1.3.3 Kiến trúc mã hóa video phân tán PRISM . . . . . . . . . . . . . . . 19
1.3.4 So sánh kiến trúc Stanford và kiến trúc PRISM . . . . . . . . . . . . 21
1.3.5 Kiến trúc mã hóa video phân tán DISCOVER . . . . . . . . . . . . 23
1.4 Các vấn đề đang được nghiên cứu trong mã hóa video phân tán . . . . . 28
1.4.1 Cải tiến hiệu năng nén . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4.2 Cung cấp khả năng chống lỗi . . . . . . . . . . . . . . . . . . . . . . 32
1.4.3 Cung cấp khả năng liên lớp . . . . . . . . . . . . . . . . . . . . . . . 33
1.4.4 Mã hóa video phân tán đa góc nhìn . . . . . . . . . . . . . . . . . . 33
1.5 Các hướng nghiên cứu trong luận án . . . . . . . . . . . . . . . . . . . . . 34
1.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Chương 2. Cải tiến hiệu năng nén cho mã hóa video
phân tán. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1 Giới thiệu chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.1 Các nghiên cứu về thông tin phụ trợ . . . . . . . . . . . . . . . . . . 38
MỤC LỤC ix
2.1.2 Các nghiên cứu về mô hình nhiễu tương quan . . . . . . . . . . . . . 40
2.1.3 Các nghiên cứu về thay đổi kích thước nhóm ảnh . . . . . . . . . . 43
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa . . . . . . . 45
2.2.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.2 Phương pháp thay đổi kích thước GOP đề xuất . . . . . . . . . . . 47
2.2.3 Đánh giá hiệu năng của phương pháp đề xuất AGOP-DVC . . . . . 53
2.3 Đề xuất 2: Cải tiến hiệu năng nén cho DVC tại phía giải mã . . . . . . . 57
2.3.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.3.2 Kiến trúc bộ mã hóa đề xuất Adv-DVC . . . . . . . . . . . . . . . . 58
2.3.3 Các mô-đun mã hóa đề xuất mới . . . . . . . . . . . . . . . . . . . . 59
2.3.4 Đánh giá hiệu năng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Chương 3. Cải tiến hiệu năng nén cho mã hóa video
phân tán liên lớp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.1 Giới thiệu chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.1.1 Mã hóa video liên lớp . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.1.2 Mã hóa video phân tán liên lớp . . . . . . . . . . . ... video đơn góc nhìn cho đến đa góc nhìn, từ khả năng chống lỗi mạnh mẽ
cho đến mã hóa video liên lớp, và vì vậy, cần phải có nghiên cứu đầy đủ và sự
khai thác triệt để sơ đồ mã hóa video này. Để cải thiện hơn nữa hiệu năng của
các codec video này sao cho đạt được hiệu năng nén tương đương với các chuẩn
mã hóa video mới nhất và các ứng dụng khác thì các nghiên cứu tiếp theo là vô
cùng cần thiết.
Các nghiên cứu tiếp theo có thể tập trung vào khai thác hơn nữa khả năng
chống lỗi mạnh mẽ của kiến trúc này và các kịch bản sử dụng nguyên tắc DVC
trong hệ thống mã hóa video đa góc nhìn. Đây là những lợi thế rất lớn của DVC
nhưng chưa được khai thác nhiều trong các hệ thống mã hóa video. Nghiên cứu
sinh cũng mong muốn được phát triển các bộ mã hóa video phân tán đề xuất
trên các hệ thống nhúng trong tương lai.
Các công trình khoa học
[1] (2018) T. N. Thi Huong, H. Phi Cong, T. V. Huu, and X.
Hoang Van,Artificial Intelligence Based Adaptive GOP Size Selection for
Effective Wyner-Ziv Video Coding, International Conference on Advanced
Technologies for Communications, vol. 2018-Octob, pp. 120–124, 2018, doi:
10.1109/ATC.2018.8587573.
[2] (2019) T. V. Huu, T. Nguyen Thi Huong, M. N. Ngoc, and X. Hoang-
van, Improving performance of distributed video coding by consecutively refining
of side information and correlation noise model, Proceedings - 2019 19th Inter-
national Symp Symposium on Communications and Information Technologies
(ISCIT 2019), pp. 502–506, 2019, doi: 10.1109/ISCIT.2019.8905187.
[3] (2020) Tien Vu Huu, Thao Nguyen Thi Huong, Xiem Hoang Van, San
Vu Van, Improving TDWZ Correlation Noise Estimation: A Deep Learning based
Approach, REV Journal on Electronics and Communications: Article scheduled
for publication in Vol. 10, No. 1–2, January–June, pp. 11-20, 2020, ISSN 1859 –
378X.
[4] (2017) N. T. H. Thao, V. Van San, and V. H. Tien, Fusion Based Side
Information Creation Method for Distributed Scalable Video Coding, Tạp chí
Khoa học và Công nghệ, vol. 121, pp. 48–53, 2017, ISSN 2354-1083.
[5](2017) X. Hoangvan and T. N. T. Huong, An online SVM based side
information creation for efficient distributed scalable video coding, in Interna-
3.4 Kết luận chương 117
tional Conference on Advanced Technologies for Communications, 2017, vol.
2017-Octob, pp. 225–228, doi: 10.1109/ATC.2017.8167622.
Bibliography
[1] A. Aaron, S. Rane, and B. Girod (2004), “Wyner-Ziv video coding with
hash-based motion compensation at the receiver”, International Conference
on Image Processing, ICIP ’04., Singapore, pp. 3097–3100.
[2] A. Aaron, R. Zhang, and B. Girod (2002), “Coding of Motion Video”,
Asilomar Conf. Signals, Syst. Comput. Pacific Grove, CA, pp. 240–244.
[3] A. Aaron et al. (2004), “Transform-domain Wyner-Ziv codec for video”,
Vis. Commun. Image Process. 2004, vol. 5308, p. 520.
[4] A. Abou-Elailah et al. (2012), “Successive refinement of side information
using adaptive search area for long duration GOPs in distributed video
coding”, 19th Int. Conf. Telecommun. ICT 2012, no. Ict.
[5] I. Ahmad, Z. Ahmad, and I. Abou-Faycal (2009), “Content adaptive GOP
size control with feedback channel suppression in distributed video coding”,
Proceedings - International Conference on Image Processing, ICIP, pp.
1397–1400.
[6] I. Ahmad, Z. Ahmad, and I. Abou-Faycal (2009), “Delay-efficient GOP size
control algorithm in Wyner-Ziv video coding”, IEEE International Sympo-
sium on Signal Processing and Information Technology, ISSPIT 2009, pp.
403–407.
BIBLIOGRAPHY 119
[7] J. M. Boyce et al. (2016), “Overview of SHVC : Scalable Extensions of
the High Efficiency Video Coding Standard”, IEEE Trans. Circuits Syst.
Video Technol., vol. 26, no. 1, pp. 20–34.
[8] J. Q. Pedro et al. (2007), “Studying Error Resilience Performance for a
Feedback Channel Based Transform Domain Wyner-Ziv Video Codec”,
Picture Coding Symposium, Lisbon, Portugal, 2007, no. November.
[9] X. Artigas et al. (2007), “The DISCOVER codec: architecture, techniques
and evaluation”, Proc. Pict. Coding Symp., pp. 6–9.
[10] J. Ascenso, C. Brites, and F. Pereira (2005), “Improving Frame Interpola-
tion with Spatial Motion Smoothing for Pixel Domain Distributed Video
Coding”, 5th EURASIP Conf. Speech Image Process. Multimed. Commun.
Serv., no. Dvc, pp. 1–6.
[11] J. Ascenso, C. Brites, and F. Pereira (2006), “Content Adaptive Wyner-
ZIV Video Coding Driven by Motion Activity”, International Conference
on Image Processing, pp. 605–608.
[12] B.G.Haskell (1997), “Digital video: an introduction to MPEG-2”, Springer.
[13] G. Bjontegaard (2001), “Calculation of average PSNR differences between
RD curves”, Doc. VCEG-M33, 13th ITU-T VCEG Meeting, Austin, TX,
USA.
[14] C. Brites, J. Ascens, and F. Pereira (2006), “Studying temporal correla-
tion noise modeling for pixel based Wyner–Ziv video coding”, International
Conference on Image Processing, Atlanta, GA., pp. 273–276.
[15] C. Brites, J. Ascenso, and F. Pereira (2006), “Improving transform domain
Wyner-Ziv video coding performance”, ICASSP, IEEE International Con-
ference on Acoustics, Speech and Signal Processing - Proceedings, vol. 2,
pp. 525–528.
BIBLIOGRAPHY 120
[16] C. Brites, J. Ascenso, and F. Pereira (2006), “Modeling correlation noise
statistics at decoder for pixel based Wyner-Ziv video coding”, 25th PCS
Proc. Pict. Coding Symp.
[17] C. Brites and F. Pereira (2005), “Improving frame interpolation with
spatial motion smoothing for pixel domain distributed video cod-
ing”, EURASIP Conf. Speech Image Process. Multimed. Commun. Serv.
Smolenice, Slovak Repub., no. January.
[18] C. Brites and F. Pereira (2008), “Correlation noise modeling for efficient
pixel and transform domain Wyner-Ziv video coding”, IEEE Trans. Cir-
cuits Syst. Video Technol., vol. 18, no. 9, pp. 1177–1190.
[19] G. Cote et al. (1998), “H. 263+: Video coding at low bit rates”, Circuits
and Systems for Video Technology, IEEE Transactions on.
[20] B. Dash et al. (2018), “Multi-resolution extreme learning machine-based
side information estimation in distributed video coding”, Multimed. Tools
Appl., vol. 77, no. 20, pp. 27301–27335.
[21] K. DinhQuoc, X. HoangVan, and B. Jeon (2011), “An iterative algorithm
for efficient adaptive GOP size in transform domain Wyner-Ziv video cod-
ing”, Ho YS. Adv. Image Video Technol. PSIVT 2011. Lect. Notes Comput.
Sci. vol 7088. Springer, Berlin, Heidelb., vol. 7088 LNCS, no. PART 2,
pp. 347–358.
[22] B. Girod et al. (2005), “Distributed video coding”, Proc. IEEE, vol. 93,
no. 1, pp. 71–83.
[23] C. Guillemot and F. Pereira (2007), “Distributed Monoview and Multiview
Video Coding”, IEEE Signal Process. Mag., vol. 24, no. 5, pp. 67–76.
[24] S. R. Gunn (1998), “Support vector machines for classification and regres-
sion”, Technical Report, University of Southampton, Southampton, UK.
BIBLIOGRAPHY 121
[25] X. HoangVan, J. Ascenso, and F. Pereira (2017), “Adaptive Scalable Video
Coding: An HEVC-Based Framework Combining the Predictive and Dis-
tributed Paradigms”, IEEE Trans. Circuits Syst. Video Technol., vol. 27,
no. 8, pp. 1761–1776.
[26] X. Hoangvan, J. Ascenso, and F. Pereira (2015), “Improving enhancement
layer merge mode for HEVC scalable extension”, Picture Coding Sympo-
sium, PCS 2015 - with 2015 Packet Video Workshop, PV 2015 - Proceed-
ings, pp. 15–19.
[27] Chih-Wei Hsu and Chih-Jen Lin (2002), “A comparison of methods for
multiclass support vector machines”, IEEE Transactions on Neural Net-
works, vol. 13, no. 2, pp. 415-425,
[28] X. Huang and S. Forchhammer (2012), “Cross-band noise model refine-
ment for transform domain Wyner-Ziv video coding”, Signal Process. Im-
age Commun., vol. 27, no. 1, pp. 16–30.
[29] N. Imran, B. C. Seet, and A. C. M. Fong (2015), “Distributed video coding
for wireless video sensor networks : a review of the state - of - the - art
architectures”, Springerplus, vol. 4.
[30] T. Joachims (2008), “Support Vector Machine: SVM-light”, Available:
[31] D. Kubasov, J. Nayak, and C. Guillemot (2007), “Optimal reconstruction
in Wyner-Ziv video coding with multiple side information”, 2007 IEEE 9Th
Int. Work. Multimed. Signal Process. MMSP 2007 - Proc., pp. 183–186.
[32] D. Kubasov et al. (2006), “Mesh-Based Motion-Compensated Interpolation
for Side Information Extraction in Distributed Video Coding”, Interna-
tional Conference on Image Processing, Atlanta, GA, 2006, pp. 261–264.
[33] M. Liou (1991), “Overview of the p x 64 kbit/s video coding standard”,
Communications of the ACM, vol. 34, no. 4, pp. 59–63.
BIBLIOGRAPHY 122
[34] H. Van Luong, L. L. Raket, and S. Forchhammer (2014), “Re-estimation
of motion and reconstruction for distributed video coding”, IEEE Trans.
Image Process., vol. 23, no. 7, pp. 2804–2819.
[35] R. Martins et al. (2009), “Refining side information for improved trans-
form domain wyner-ziv video coding”, IEEE Trans. Circuits Syst. Video
Technol., vol. 19, no. 9, pp. 1327–1341.
[36] R. Martins et al. (2010), “Statistical motion learning for improved trans-
form domain Wyner-Ziv video coding”, IET Image Process., vol. 4, no. 1,
pp. 28–41.
[37] T. Maugey et al. (2010), “Using an exponential power model for Wyner
Ziv video coding”, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc.,
pp. 2338–2341.
[38] S. Milani, J. Wang, and K. Ramchandran (2007), “Achieving H.264-like
compression efficiency with distributed video coding”, Proc. SPIE 6508,
Vis. Commun. Image Process., vol. 6508, pp. 1013– 1024.
[39] W. Miled et al. (2009), “Image interpolation with dense disparity esti-
mation in multiview distributed video coding”, Third ACM/IEEE Inter-
national Conference on Distributed Smart Cameras (ICDSC), Como, pp.
1–6.
[40] M. Ouaret, F. Dufaux, and T. Ebrahimi (2009), “Error-resilient scalable
compression based on distributed video coding”, Signal Process. Image
Commun., vol. 24, no. 6, pp. 437–451.
[41] J. Park et al. (2009), “Wyner-Ziv video coding with region adaptive quan-
tization and progressive channel noise modeling”, IEEE Int. Symp. Broad-
band Multimed. Syst. Broadcast. BMSB 2009.
[42] F. Pereira and J. Ascenso (2007), “Adaptive Hash-Based Side Information
Exploitation for Efficient Wyner-Ziv Video Coding”, International Confer-
ence on Image Processing, San Antonio, TX, vol. 9, pp. 29–32.
BIBLIOGRAPHY 123
[43] R. Puri, A. Majumdar, and K. Ramchandran (2007), “PRISM: A video
coding paradigm with motion estimation at the decoder”, IEEE Trans.
Image Process., vol. 16, no. 10, pp. 2436–2448.
[44] R. Puri and K. Ramchandran (2002), “PRISM: A new robust video coding
architecture based on distributed compression principles”, Proceedings of
the Allerton Conference on Communication Control and Computing.
[45] H. Qin and B. Song (2012), “Adaptive Correlation Noise Model for DC
Coefficients in Wyner-Ziv Video Coding”, ETRI J., vol. 34, pp. 190–198.
[46] J. Ross Quinlan (1994), “C4.5: Programs for Machine Learning”, Morgan
Kaufmann Publishers, Mach Learn 16, PP. 235–240.
[47] I. E. Richardson (2004), “H.264 and MPEG-4 video compression: video
coding for next-generation multimedia”, Wiley.com.
[48] K. Sakomizu, T. Nishi, and T. Onoye (2012), “A hierarchical motion
smoothing for distributed scalable video coding”, Picture Coding Sympo-
sium, pp. 209–212.
[49] M. Salmistraro et al. (2014), “A robust fusion method for multiview dis-
tributed video coding”, EURASIP J. Adv. Signal Process., no. December.
[50] H. Schwarz, D. Marpe, and T. Wiegand (2007), “Overview of the Scalable
Video Coding Extension of the H . 264 / AVC Standard”, IEEE Trans.
Circuits Syst. Video Technol., vol. 17, no. 9, pp. 1103–1120.
[51] A. Sehgal, A. Jagmohan, and N. Ahuja (2004), “Scalable video coding
using Wyner-Ziv codes”, Picture Coding Symposium, San Francisco, CA.,
2004, vol. 6, no. 1.
[52] A. Sehgal, A. Jagmohan, and N. Ahuja (2004), “Wyner – Ziv Coding of
Video : An Error-Resilient Compression Framework”, IEEE Trans. Mul-
timed., vol. 6, no. 2, pp. 249–258.
[53] D. Slepian and J. K. Wolf (1973), “Noiseless Coding of Correlated Infor-
mation Sources”, IEEE Trans. Inf. Theory, vol. 19, no. 4, pp. 471–480.
BIBLIOGRAPHY 124
[54] G. J. Sullivan et al. (2012), “Overview of the High Efficiency Video Cod-
ing”, IEEE Trans. Circuits Syst. Video Technol., vol. 22, no. 12, pp.
1649–1668.
[55] M. Tagliasacchi (2004), “A distributed-source-coding based robust spatio-
temporal scalable video codec”, Proc. Picture Coding Symposium.
[56] M. Tagliasacchi, M. Abhik, and K. Ramchandran (2004), “A distributed-
source-coding based robust spatio-temporal scalable video code”, Proc.
Pict. Coding Symp.
[57] M. Tagliasacchi et al. (2006), “Intra Mode Decision Based on Spatio-
Temporal Cues in Pixel Domain Wyner-ZIV Video Coding”, IEEE Inter-
national Conference on Acoustics Speech and Signal Processing Proceed-
ings,pp. 57–60.
[58] B. Tian and W. Xiong (2018), “A Side Information Generation method
using Deep Learning for Distributed Video Coding”, J. Phys. Conf. Ser.,
vol. 1087, no. 6.
[59] D. C. Tsai, C. M. Lee, and W. N. Lie (2006), “Dynamic key block decision
with spatio-temporal analysis for Wyner-Ziv video coding”, Proc. - Int.
Conf. Image Process. ICIP, vol. 6, no. Dvc, pp. 425–428.
[60] X. Hoang Van, J. Ascenso, and F. Pereira (2014), “Correlation modeling for
a distributed scalable video codec based on the HEVC standard”, IEEE
16th International Workshop on Multimedia Signal Processing (MMSP),
Jakarta, pp. 1–6.
[61] X. Hoang Van, J. Ascenso, and F. Pereira (2015), “HEVC backward com-
patible scalability: A low encoding complexity distributed video coding
based approach”, Signal Process. Image Commun., vol. 33, pp. 51–70.
[62] K. R. Vijayanagar and J. Kim (2011), “Dynamic GOP size control for low-
delay distributed video coding”, 18th IEEE International Conference on
Image Processing, Brussels., pp. 157-160.
BIBLIOGRAPHY 125
[63] D. J. Le Gall W. B. Pannebaker and W. B. Pennebaker (1995), “MPEG1:
Video compression standard”, COMPCON Spring ’91 Digest of Papers.
[64] H. Wang, N. M. Cheung, and A. Ortega (2006), “A framework for adap-
tive scalable video coding using Wyner-Ziv techniques”, URASIP J. Appl.
Signal Processing, vol. 2006, pp. 1–18.
[65] T. Wiegand et al. (2003), “Overview of the H.264/AVC Video Coding
Standard”, IEEE Trans. Circuits Syst. Video Technol., vol. 13, no. 7, pp.
560–576.
[66] A. Wyner and J.Ziv (1976), “The Rate-Distortion Function for Source
Coding with Side Information at the Decoder”, IEEE Trans. Inf. Theory.,
vol. 22, no. 1, pp. 1–10.
[67] Hoangvan Xiem, Ascenso Joao, and Pereira Fernando (2014), “Optimal
reconstruction for a HEVC backward compatible distributed scalable video
codec”, IEEE Visual Communications and Image Processing Conference,
VCIP 2014, pp. 193–196.
[68] Q. Xu and Z. Xiong (2006), “Layered Wyner–Ziv Video Coding”, IEEE
Trans. Image Process., vol. 15, no. 12, pp. 3791–3803.

File đính kèm:

luan_an_nghien_cuu_cai_tien_hieu_nang_he_thong_ma_hoa_giai_m.pdf
2020.Thao.Trang_thong_tin_tieng_Anh.doc
2020.Thao.Trich_yeu_luan_an_NCS_Nguyen Thi Huong Thao.docx
2020.Thao_Tom_tat_luan_an.pdf
2020.Trang_thong_tin_tieng_Viet.doc