Mô hình nhiễu tương quan cho hệ thống mã hóa video phân tán

Mã hóa video phân tán (DVC) là sơ đồ mã hóa video

mới phù hợp cho các ứng dụng đường lên như hệ thống giám sát

video không dây, mạng cảm biến không dây. Các kết quả nghiên cứu

trước đã chỉ ra rằng mặc dù thực hiện mã hóa độc lập và giải mã kết

hợp, hiệu năng của hệ thống mã hóa video phân tán có thể đạt mức

tương đương so với các hệ thống mã hóa video dự đoán hiện nay.

Tuy nhiên, hiệu năng méo – tốc độ (RD) của các hệ thống mã hóa

video phân tán này phụ thuộc rất lớn vào việc mô hình hóa nhiễu

tương quan giữa thông tin gốc ở phía mã hóa và thông tin phụ trợ

tương ứng ở phía giải mã. Trong các nghiên cứu trước, hầu hết đều

sử dụng mô hình Laplacian để mô hình hóa nhiễu tương quan mà

không tính đến đặc tính thống kê và đặc tính chuyển động của chuỗi.

Bài báo này đề xuất phương pháp mô hình hóa nhiễu tương quan mới

thay đổi thích ứng cho các hệ số DC dựa vào đặc tính của chuỗi. Các

kết quả thực nghiệm cho thấy hiệu năng của phương pháp đề xuất đã

được cải thiện hơn so với mô hình Laplacian trước đây

pdf 6 trang dienloan 19320
Bạn đang xem tài liệu "Mô hình nhiễu tương quan cho hệ thống mã hóa video phân tán", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mô hình nhiễu tương quan cho hệ thống mã hóa video phân tán

Mô hình nhiễu tương quan cho hệ thống mã hóa video phân tán
Nguyễn Thị Hương Thảo, Vũ Văn San 
Tác giả liên hệ: Nguyễn Thị Hương Thảo 
Email: thaontth@ptit.edu.vn 
Đến tòa soạn: 10/2018, chỉnh sửa: 12/2018, chấp nhận đăng: 12/2018. 
MÔ HÌNH NHIỄU TƢƠNG QUAN CHO HỆ THỐNG 
MÃ HÓA VIDEO PHÂN TÁN 
Nguyễn Thị Hƣơng Thảo, Vũ Văn San 
Học viện Công nghệ Bưu chính Viễn thông 
Tóm tắt: Mã hóa video phân tán (DVC) là sơ đồ mã hóa video 
mới phù hợp cho các ứng dụng đường lên như hệ thống giám sát 
video không dây, mạng cảm biến không dây. Các kết quả nghiên cứu 
trước đã chỉ ra rằng mặc dù thực hiện mã hóa độc lập và giải mã kết 
hợp, hiệu năng của hệ thống mã hóa video phân tán có thể đạt mức 
tương đương so với các hệ thống mã hóa video dự đoán hiện nay. 
Tuy nhiên, hiệu năng méo – tốc độ (RD) của các hệ thống mã hóa 
video phân tán này phụ thuộc rất lớn vào việc mô hình hóa nhiễu 
tương quan giữa thông tin gốc ở phía mã hóa và thông tin phụ trợ 
tương ứng ở phía giải mã. Trong các nghiên cứu trước, hầu hết đều 
sử dụng mô hình Laplacian để mô hình hóa nhiễu tương quan mà 
không tính đến đặc tính thống kê và đặc tính chuyển động của chuỗi. 
Bài báo này đề xuất phương pháp mô hình hóa nhiễu tương quan mới 
thay đổi thích ứng cho các hệ số DC dựa vào đặc tính của chuỗi. Các 
kết quả thực nghiệm cho thấy hiệu năng của phương pháp đề xuất đã 
được cải thiện hơn so với mô hình Laplacian trước đây. 
Từ khóa: Video phân tán, nhiễu tương quan. 
I. GIỚI THIỆU 
Trong các hệ thống truyền thông và đa phương tiện hiện 
nay, các kỹ thuật nén video số đóng một vai trò vô cùng quan 
trọng vì sự hạn chế của độ rộng băng tần. Ngoài các kỹ thuật 
mã hóa video truyền thống sử dụng mã hóa dự đoán và biến đổi 
cosine rời rạc còn có một kỹ thuật mã hóa video khác được gọi 
là mã hóa video phân tán. Điểm khác biệt chính giữa hai 
phương pháp này là nơi thực hiện khai thác tương quan thời 
gian, điều đó dẫn đến sự khác nhau về độ phức tạp của bộ mã 
hóa và bộ giải mã. Kiến trúc mã hóa video dự đoán hướng đến 
các ứng dụng video mà ở đó video được mã hóa một lần và 
được giải mã nhiều lần, ví dụ truyền hình quảng bá. Vì vậy, bộ 
mã hóa có độ phức tạp cao hơn từ 5 đến 10 lần so với bộ giải 
mã. Tuy nhiên kiến trúc này lại không phù hợp với các ứng 
dụng mới ví dụ như mạng giám sát video không dây, mạng 
cảm biến không dây vì các ứng dụng này có rất nhiều bộ mã 
hóa trong khi chỉ có một vài bộ giải mã. Giải pháp cho tình 
huống này là sử dụng mã hóa video phân tán. DVC thực hiện 
khai thác tương quan thời gian, một phần hoặc toàn phần tại 
phía giải mã, do đó làm giảm độ phức tạp cho bộ mã hóa. Nói 
cách khác, DVC thực hiện mã hóa độc lập và giải mã kết hợp. 
Điều này giúp dịch chuyển bớt độ phức tạp từ phía mã hóa 
sang phía giải mã trong khi hiệu suất nén vẫn giữ tương đương 
so với kiến trúc mã hóa video dự đoán truyền thống. 
Định lý Slepian-Wolf [1] và định lý Wyner-Ziv [2] từ lý 
thuyết thông tin đã phát biểu rằng đối với nén không tổn thất và 
nén có tổn thất, có thể mã hóa độc lập và giải mã kết hợp cho 
các nguồn có tương quan với nhau mà vẫn giữ được tốc độ 
tương đương với trường hợp mã hóa và giải mã kết hợp như 
trong mã hóa video truyền thống. 
Dựa trên các kết quả lý thuyết của các định lý Slepian-Wolf và 
Wyner-Ziv, các kiến trúc DVC thực tế đã được đề xuất trong 
[3,4] bởi nhóm nghiên cứu nhóm của giáo sư Bernd Girod tại 
Đại học Stanford hay còn gọi là kiến trúc Stanford mà sau này 
được cải tiến thành codec DISCOVER [3] và nhóm của giáo sư 
Kannan Ramchandran tại Berkeley (Đại học California) còn 
được biết đến là kiến trúc PRISM [4]. Hình 1 mô tả phương 
pháp nén video phân tán với thông tin phụ trợ được tạo ra tại 
phía phát.Trong kiến trúc Stanford, chuỗi video được chia 
thành các khung hình chính (KF) và các khung hình Wyner-Ziv 
(WZF). Tại phía mã hóa, các KF sẽ được mã hóa kỹ thuật mã 
hóa video truyền thống như H.264/AVC Intra hoặc HEVC 
Intra. Các WZF được biến đổi cosine rời rạc (DCT) và lượng 
tử hóa, sau đó áp dụng mã hóa kênh để tạo ra các bit kiểm tra. 
Tuy nhiên, chỉ các bit kiểm tra này được gửi tới bên thu tùy 
theo yêu cầu còn các bit hệ thống bị loại bỏ nhằm hạn chế số 
lượng bit cần gửi đi. Tại phía giải mã, các KF đã mã hóa sẽ 
được giải mã. Các khung hình này sẽ được sử dụng như các 
khung hình tham chiếu để tạo ra khung hình thông tin phụ trợ 
(SI), một phiên bản „nhiễu‟ của khung hình WZ gốc. Bộ giải 
mã kênh sẽ sử dụng các bit kiểm tra được gửi tới để „sửa sai‟ 
cho các SI để thu được các khung hình WZ ban đầu. Như vậy, 
để số lượng bit kiểm tra phải gửi tới phía thu càng ít thì ngoài 
việc tạo ra SI có chất lượng tốt, điều quan trọng là phải dự đoán 
đúng mô hình nhiễu tương quan giữa khung hình WZ gốc và SI 
được tạo ra tại phía giải mã. Tuy nhiên, đây là một công việc 
rất phức tạp vì thông tin phụ trợ chỉ có tại bộ giải mã và chất 
lượng SI thay đổi theo chuỗi và thay đổi trong bản thân mỗi 
khung hình. Nói cách khác, nhiễu tương quan không chỉ dừng 
theo thời gian mà còn dừng theo không gian. Khi chuỗi chuyển 
động nhanh, rất khó để dự đoán khung hình WZ và sai lỗi trong 
SI tăng lên đáng kể. 
Hình 1. Phương pháp nén video phân tán với thông tin phụ trợ 
phía giải mã 
 Trong hầu hết các nghiên cứu về DVC đều lựa chọn mô 
hình Laplacian để mô tả nhiễu tương quan. Tuy nhiên qua quan 
sát thực nghiệm cho thấy không phải lúc nào mô hình 
Laplacian cũng chính xác. Vì vậy bài báo này nghiên cứu một 
mô hình lai ghép kết hợp mô hình Laplacian và mô hình 
Gaussian để mô tả nhiễu tương quan. Việc lựa chọn mô hình 
nào tùy thuộc vào nội dung của khung hình tương ứng. 
SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 3
MÔ HÌNH NHIỄU TƯƠNG QUAN CHO HỆ THỐNG MÃ HÓA VIDEO PHÂN TÁN 
Phần tiếp theo của bài báo được tổ chức như sau. Phần II 
giới thiệu về kiến trúc DVC được sử dụng trong bài báo. Mô 
hình nhiễu tương quan được đề xuất trong Phần III. Các kết 
quả và thảo luận được giới thiệu trong phần IV và phần V là 
kết luận. 
II. KIẾN TRÚC MÃ HÓA VIDEO WYNER-ZIV MIỀN 
BIẾN ĐỔI 
DCT Q
Bộ mã hóa miền biến đổi Bộ giải mã miền biến đổi
Bộ mã hóa 
LDPC
Khung hình WZ 
Bộ giải mã 
LDPC 
Bộ mã hóa 
truyền thống
Bộ giải mã 
truyền thống
IQ
Bộ đệm
Khung hình chính
IDCT
Khung hình WZ 
đã giải mã
f
2n+1
f2n
DCT
Tạo thông tin 
phụ trợ
Khung hình 
chính đã giải mã
Bộ đệm
Mô hình hóa nhiễu 
tương quan
Kênh phản hồi
Hình 2. Kiến trúc bộ mã hóa DVC miền biến đổi 
Hình 2 mô tả kiến trúc bộ mã hóa DVC miền biến đổi. 
A. Quá trình mã hóa 
Chia tách khung hình: Các khung hình của chuỗi video 
được chia thành các khung hình WZ (WZF) và khung hình 
chính (KF) xen kẽ nhau. Các khung hình lẻ là các khung hình 
chính còn các khung hình chẵn là các khung hình WZ. 
DCT: Để khai thác dư thừa không gian, các khung hình WZ 
sẽ được biến đổi DCT 4 x 4 để tạo ra các ma trận hệ số tương 
ứng. 
Lượng tử hóa: Để loại bỏ dư thừa không gian và tận dụng 
các đặc điểm của thị giác người, các ma trận hệ số DCT được 
đưa qua bộ lượng tử hóa đồng nhất với các hệ số lượng tử tùy 
theo chất lượng mong muốn. Các ký tự sau lượng tử hóa được 
chia thành các mặt phẳng bit, sau đó được mã hóa độc lập sử 
dụng bộ mã hóa kiểm tra chẵn lẻ mật độ thấp (LDPC). Các bit 
chẵn lẻ sẽ được lưu lại trong bộ đệm và được gửi (tùy theo yêu 
cầu của bộ giải mã) tới bộ giải mã trong khi các bit hệ thống bị 
loại bỏ. 
B. Quá trình giải mã 
Các khung hình chính được giải mã bởi bộ giải mã truyền 
thống. Các khung hình WZ được giải mã như sau. 
 Bộ đệm: Bộ đệm lưu giữ các khung hình chính trước và sau 
sau khi đã được giải mã. Các khung hình chính này được sử 
dụng để hỗ trợ cho việc tạo thông tin phụ trợ. 
Tạo thông tin phụ trợ: Thông tin phụ trợ được coi như một 
phiên bản nhiễu của thông tin gốc. Nó được tạo ra dựa trên các 
thông tin đã giải mã từ bộ đệm gửi tới. Trong kiến trúc 
DISCOVER, SI được tạo ra sử dụng kỹ thuật nội suy thời gian 
bù chuyển động (MCTI). Kiến trúc MCTI có thể tóm tắt như 
sau: 
1) Bộ lọc thông thấp: Khởi đầu, các khung hình chính được 
đưa qua bộ lọc thông thấp để cải thiện độ tin cậy của các vector 
chuyển động. 
2) Ước lượng chuyển động trước: Bước này thực hiện ước 
lượng một vector chuyển động cho mỗi khối trong khung hình 
chính sau với tham chiếu tới khung hình chính trước. 
3) Ước lượng chuyển động song hướng: Sử dụng các phép 
chiếu của vector chuyển động, đối với mỗi khối trong khung 
hình SI sẽ lựa chọn vector chuyển động nào đi qua khối đó và 
gần với tâm khối nhất và coi đó là vector chuyển động của 
khối. Vector chuyển động được lựa chọn sẽ được chia thành 
hai vector chuyển động trước và sau với giả định chuyển động 
không đổi. 
4) Làm mịn không gian: Tại bước này, bộ lọc trung vị được 
thực hiện trên hai trường vector chuyển động để loại bỏ các 
vector chuyển động ở biên. 
5) Bù chuyển động song hướng: Thực hiện lấy trung bình 
hai khối đã bù chuyển động trong khung hình chính trước và 
sau để tạo ra thông tin phụ trợ. 
 DCT: Thông tin phụ trược được biến đổi DCT khối 4 x 4 
để nhận được các hệ số DCT nguyên. 
Mô hình hóa nhiễu tương quan: Phương pháp mã hóa video 
WZ thực hiện mã hóa sự sai khác giữa thông tin gốc tại bộ mã 
hóa và thông tin phụ trợ được tạo ra tại phía giải mã. Do đó, cả 
bộ mã hóa và bộ giải mã cần phải biết về tương quan thống kê 
giữa thông tin gốc và thông tin phụ trợ. Vì thế khối này thực 
hiện mô hình hóa nhiễu tương quan giữa khung hình WZ gốc 
và khung hình thông tin phụ trợ tương ứng. Thông tin đầu ra sẽ 
được gửi tới bộ giải mã LDPC. 
Bộ giải mã LDPC: Bộ giải mã LDPC thực hiện sửa các sai 
lỗi trong thông tin phụ trợ sử dụng các bit chẵn lẻ từ phía mã 
hóa gửi tới. Thông thường, đại lượng tin cậy dựa trên tỉ số xác 
suất tiên nghiệm được sử dụng làm tiêu chí phát hiện sai để xác 
định xác suất sai lỗi của mặt phẳng bit. Các mặt phẳng bit quan 
trọng sẽ có ngưỡng xác suất sai lỗi thấp hơn so với các mặt 
phẳng bit ít quan trọng. Nếu chưa đạt được xác suất lỗi cho 
phép, bộ giải mã sẽ gửi yêu cầu đến bộ mã hóa qua kênh phản 
hồi để gửi thêm các bit chẵn lẻ. 
Giải lượng tử và biến đổi ngược IDCT: Sau khi giải mã 
LDPC, thông tin được tái tạo bằng cách giải lượng tử và biến 
đổi DCT ngược. Toàn bộ khung hình được khôi phục lại ở 
miền pixel. 
III. MÔ HÌNH NHIỄU TƢƠNG QUAN TRONG MÃ HÓA 
VIDEO PHÂN TÁN 
Để tận dụng tốt nhất thông tin phụ trợ có được, bộ giải mã 
cần phải có hiểu biết tin cậy về mô hình mô tả nhiễu tương 
quan giữa khung hình WZ gốc và khung hình thông tin phụ trợ 
tương ứng. Nhiễu tương quan (W )Z SI có thể được coi là 
kênh ảo với mẫu lỗi được đặc trưng bởi phân bố thống kê nào 
đó bởi vì SI có thể được coi như phiên bản „nhiễu‟ của thông 
tin gốc. Trong kiến trúc codec miền biến đổi, sự sai khác này 
chính là sự sai khác giữa các dải DCT tương ứng của khung 
hình WZ và SI. Nếu mô hình mô tả chính xác (W )Z SI , 
hiệu suất mã hóa sẽ tăng lên, ngược lại, sự tổn thất về hiệu 
suất mã hóa sẽ xảy ra. Mục đích của phần này là giới thiệu 
ngắn gọn về mô hình nhiễu tương quan được sử dụng trong 
SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 4
Nguyễn Thị Hương Thảo, Vũ Văn San 
các nghiên cứu mã hóa video phân tán và đề xuất phương 
pháp mới nhằm cải tiến mô hình nhiễu tương quan. 
A. Các nghiên cứu về mô hình nhiễu tương quan 
Nếu gọi WZ là thông tin gốc và SI là thông tin phụ trợ 
thì sự sai khác giữa WZ và SI được biểu thị là 
N=WZ SI gọi là nhiễu tương quan. Nhiễu tương quan có 
thể được mô hình hóa bằng cách sử dụng phân bố Laplacian 
[5,6] hoặc phân bố Gaussian. Tuy nhiên, phân bố Laplacian 
được sử dụng rộng rãi hơn vì có sự cân bằng tốt giữa độ chính 
xác mô hình và độ phức tạp. Sử dụng phân bố Laplacian, mối 
tương quan giữa WZ và SI được mô tả như sau: 
(W )(W )
2
Z SIp Z SI e 
 (1) 
Ở đó, (.)p là hàm mật độ xác suất và là tham số phân 
bố Laplacian được xác định bởi công thức: 
2
2

 (2) 
ở đó 
2 là phương sai của sự sai khác giữa WZ và SI . 
 có thể thay đổi theo thời gian và không gian. Có rất nhiều 
các nghiên cứu khác nhau nhằm ước lượng giá trị này [7, 8, 
9, 10]. 
Tùy thuộc vào nơi thực hiện, ước lượng nhiễu tương quan 
có thể phân loại thành ba nhóm: ước lượng nhiễu tương quan 
tại phía mã hóa (ECNE), ước lượng nhiễu tương quan tại phía 
giải mã (DCNE) và ước lượng nhiễu tương quan hai phía 
(HCNE) nghĩa là nhiễu tương quan được ước lượng tại cả hai 
phía mã hóa và giải mã. 
Ước lượng nhiễu tương quan tại phía mã hóa 
Thực hiện ước lượng nhiễu tương quan tại phía mã hóa cho 
phép điều khiển tốc độ tại bộ mã hóa. Các tham số nhiễu 
tương quan có thể tính được dựa vào khung hình gốc và bản 
sao của thông tin phụ trợ. Tuy nhiên, do ước lượng chuyển 
động để tạo thông tin phụ trợ được thực hiện tại phía mã hóa 
nên độ phức tạp bộ mã hóa sẽ tăng. Mặt khác, các tham số 
nhiễu tương quan được tính toán tại bộ mã hóa phải được gửi 
tới bộ giải mã để hỗ trợ quá trình giải mã. Trong [11,12], 
nhiễu tương quan được tính trong miền tần số tại bộ mã hóa. 
Module tìm kiếm chuyển động được sử dụng để tìm ra thông 
tin phụ trợ tốt nhất và tương quan giữa khối hiện thời và thông 
tin phụ trợ này được tính toán. Thông tin chỉ báo về thông tin 
phụ trợ và số lượng các bit ít quan trọng nhất (các bit này 
được rút ra từ thông tin phụ trợ) được gửi tới bộ giải mã để 
giải mã thành công cho khối hiện thời. Brites và Pereira [5] đề 
xuất các phương pháp ước lượng nhiễu tương quan tại phía mã 
hóa trong cả hai miền pixel và miền biến đổi. Mỗi khối của 
thông tin phụ trợ được tạo ra bằng cách lấy trung bình của các 
khối tham chiếu trước và sau được bù chuyển động. Vì vậy, sự 
tương đồng giữa các khối này được sử dụng để ước lượng 
nhiễu tương quan giữa dữ liệu gốc và thông tin phụ trợ. Trong 
miền pixel, có ba mức được đề xuất là mức khung hình, mức 
khối và mức pixel. Đối với miền biến đổi, dải DCT và hệ số là 
hai mức đề xuất. Các giá trị được tính toán cho mỗi mức ở 
cả hai miền. Năm 2008, Martinez và các cộng sự [13] đề xuất 
kiến trúc mã hóa video Wyner-Ziv miền pixel ở đó nhiễu 
tương quan được tính bằng cách sử dụng ước lượng thông tin 
phụ trợ nhanh và khung hình WZ hiện tại. Từ khung hình sai 
khác này, một số tham số thống kê tin cậy được trích xuất để 
ước lượng chất lượng của thông tin phụ trợ tại phía giải mã, từ 
đó ước lượng số lượng bit cần thiết để sửa các lỗi trong thông 
tin phụ trợ. Năm 2010, Sheng và các cộng sự trong [14] đề 
xuất một phương pháp ước lượng nhiễu tương quan tại phía 
mã hóa dựa trên phân bố Laplacian. Để tránh làm tăng độ 
phức tạp bộ mã hóa và sử dụng kênh phản hồi, giá trị của 
phân bố Laplacian được tính là sai số bình phương trung bình 
(MSE) giữa khung hình WZ hiện thời và khung hình tham 
chiếu. 
Ước lượng nhiễu tương quan tại bộ giải mã 
Để giữa cho bộ mã hóa có độ phức tạp thấp thì quá trình 
ước lượng và bù chuyển động không nên thực hiện tại bộ mã 
hóa. Vì vậy, trong hầu hết các hệ thống mã hóa video Wyner-
Ziv, các module ước lượng nhiễu tương quan thường tồn tại 
bên phía giải mã. Nhiều thuật toán ước lượng nhiễu [5,10,15] 
đã được đề xuất sử dụng phân bố Laplacian cho các hệ số 
DCT. Các giá trị khác nhau trong công thức (1) được ước 
lượng cho các mức khác nhau là mức khung hình, mức dải và 
mức hệ số. Khác với thuật toán trong [5], các tác giả trong [10] 
ước lượng nhiễu miền biến đổi bằng cách chuyển đổi các ước 
lượng nhiễu trong miền pixel. Các tham số nhiễu miền pixel 
được ước lượng sử dụng thông tin sẵn có từ khung hình 
Wyner-Ziv được giải mã trước đó cũng như các dải hệ số đã 
được giải mã trước. Một cách ước lượng nhiễu tương quan 
miền biến đổi cũng được đề xuất bởi Huan và Forchhammer 
trong [15] bằng cách sử dụng tương quan chéo dải. Dựa trên 
các quan sát và phân bố thống kê của nhiễu tương đối với các 
chuỗi có chuyển động khác nhau và với các dải hệ số DC, AC 
khác nhau, mô hình nhiễu tương quan thích ứng được đề xuất 
trong [16,17]. Bằng cách sử dụng thông tin hỗ trợ từ phía mã 
hóa gửi tới, mô hình nhiễu tương quan trong [16] được xây 
dựng. Sau đó, bộ giải mã lựa chọn thích ứng phân bố nhiễu 
tương quan Laplacian hoặc Gaussian cho các hệ số DC dựa 
trên nội dung chuỗi video. Một cách tiếp cận khác là sử dụng 
mô hình nhiễu tương quan hỗn hợp [17]. Hai phân bố khác 
nhau được sử dụng cho các hệ số AC và DC tùy thuộc vào sai 
số khác nhau của các hệ số DC và AC trong khung hình thông 
tin phụ trợ và đặc tính phân bố của nhiễu tương quan ở mức 
lượng tử khác nhau. Huynh Van Luong và các cộng sự đã đề 
xuất các mô hình nhiễu trong [18,19]. Trong [18], kỹ thuật học 
nhiễu được đề xuất để tận dụng các dư thừa của các khung 
hình được giải mã trước đó. Để tạo ra ước lượng nhiễu tương 
quan chính xác hơn, kỹ thuật bù chuyển động cho dư thừa 
được đề xuất trong [19] sử dụng thông tin từ các khung hình 
được giải mã trước đó và tương quan giữa khung hình trước 
và khung hình thông tin phụ trợ được ước lượng hiện thời. 
Ước lượng nhiễu tương quan tại hai phía 
Một cách tiếp cận khác là thực hiện ước lượng nhiễu tương 
quan tại cả phía mã hóa và giải mã [20,21]. Ước lượng nhiễu 
tương quan trong [20] là cách tiếp cận đối xứng ở đó cả bộ mã 
hóa và giải mã sử dụng cùng một mô hình tương quan. Vì vậy, 
cách tiếp cận này chỉ khai thác thông tin giải mã sẵn có ở cả 
hai phía mã hóa và giải mã. Vì vậy, mặc dù tránh được sự ước 
SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 5
MÔ HÌNH NHIỄU TƯƠNG QUAN CHO HỆ THỐNG MÃ HÓA VIDEO PHÂN TÁN 
lượng không giống nhau ở hai phía nhưng độ phức tạp bộ mã 
hóa trong trường hợp này lại tăng vì quá trình ước lượng và bù 
chuyển động để tạo ra thông tin phụ trợ cần phải thực hiện tại 
phía mã hóa. Mặt khác, hiệu năng méo – tốc độ (RD) có thể bị 
giảm đi vì chỉ tận dụng được thông tin đã giải mã. Để khắc 
phục nhược điểm này, mô hình hóa nhiễu tương quan bất đối 
xứng được đề xuất trong [21] trong đó bộ mã hóa sẽ sử dụng 
giải pháp tạo thông tin phụ trợ độ phức tạp thấp và bộ giải mã 
sử dụng giải pháp tạo thông tin phụ trợ độ phức tạp cao hơn. 
Tuy nhiên, cách tiếp cận này có thể dẫn đến các kết quả khác 
nhau tại bộ mã hóa và giải mã. Vì vậy cần phải thực hiện một 
số các kỹ thuật phụ thêm để loại bỏ sự ước lượng sai của mô 
hình tương quan. 
Với các phân tích ở trên, có thể thấy có rất nhiều cách tiếp 
cận đối với mô hình nhiễu tương quan. 
Bài báo này tập trung vào điều chỉnh mô hình Laplacian 
hay Gaussian tùy thuộc vào nội dung của chuỗi video. Mô 
hình nhiễu tương quan sẽ được thực hiện tại bộ giải mã - giải 
pháp thực tế nhất cho các kiến trúc mã hóa video phân tán. 
B. Mô hình nhiễu tương quan đề xuất 
Khi thử với rất nhiều khung hình của các chuỗi video khác 
nhau, kết quả cho thấy phân bố Laplacian này không hoàn 
toàn phù hợp. Cụ thể là, với các hệ số AC thì nhiễu tương 
quan tuân theo phân bố Laplace khá chính xác nhưng với hệ 
số DC, khi chuỗi chuyển động phức tạp thì nhiễu này tuân 
theo phân bố Laplace nhưng khi chuỗi chuyển động chậm thì 
lại phù hợp với phân bố Gaussian hơn. Vì vậy, để cải thiện 
tính chính xác của mô hình nhiễu tương quan trực tuyến, đề tài 
này đề xuất một thuật toán xây dựng mô hình nhiễu tương 
quan thích ứng cho hệ thống mã hóa video miền biến đổi. 
Thuật toán đề xuất sử dụng hai loại phân bố Laplacian và 
Gaussian cho hệ số DC tùy thuộc vào nội dung chuỗi video. 
Bước 1: Trước tiên tính khung hình dư thừa giữa khung hình 
WZ và khung hình SI tương ứng bằng cách xấp xỉ hiệu giữa 
các phiên bản bù chuyển động của các khung hình chính trước 
và sau và sử dụng công thức dưới đây: 
 ( ) 
 ( ) ( )
 (3) 
ở đó ( ) ( ) là 
các khung hình chính trước và sau được bù chuyển động 
tương ứng và ( ) là vị trí pixel trong khung hình dư thừa . 
( ) và ( ) mô tả vector chuyển động của các 
khung hình và tương ứng. 
Bước 2: Biến đổi DCT cho khung hình bằng cách áp dụng 
biến đổi cosine rời rạc cho khung hình để nhận được 
các hệ số DCT của khung hình . 
 ( ) [ ( )] (4) 
Bước 3: 
Đối với mỗi hệ số của biến đổi DCT sẽ áp dụng các mô 
hình nhiễu khác nhau tùy thuộc vào giá trị của chúng như biểu 
thức (5) dưới đây: 
 ( ) 
{
 √
 √
| |
√
 √
| |
√
 √
 (5) 
đó f(n) là hàm phân bố xác suất của nhiễu tương quan. µ và 
 là trung bình và phương sai của nhiễu tương quan tương 
ứng. Giá trị ngưỡng thực nghiệm được chọn là 0.02. 
IV. ĐIỀU KIỆN THỬ NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ 
A. Điều kiện thử nghiệm 
Để đánh giá hiệu năng của giải pháp đề xuất so với các 
phương pháp khác, ba chuỗi video sau được sử dụng là Aikyo, 
Foreman và Carphone với các đặc điểm được mô tả trong 
Bảng I. Cấu trúc GOP được sử dụng trong hệ thống là 
“KWKW” ở đó K là khung hình chính và W là khung hình 
WZ tương ứng. Khung hình chính được mã hóa theo chế độ 
intramode của phần mềm HM. Các thông số của chuỗi được 
mô tả trong Bảng I. 
Bảng I. ĐIỀU KIỆN THỬ NGHIỆM 
Chuỗi 
Video thử 
nghiệm 
Độ phân 
giải không 
gian 
Độ phân 
giải thời 
gian 
Số lượng 
khung 
hình 
Aikyo 
176 x 144 
50 Hz 150 
Foreman 60 Hz 150 
Carphone 50 Hz 150 
Hình 3. PSNR của chuỗi Aikyo 
B. Phân tích kết quả 
 Để đánh giá kết quả của thuật toán, tham số PSNR (tỷ số tín 
hiệu/nhiễu đỉnh trung bình) của khung hình WZ giải mã được 
sử dụng khi áp dụng hai phương pháp: mô hình Laplacian 
thuần túy và mô hình nhiễu tương quan thích ứng. 
26.8
27
27.2
27.4
27.6
27.8
28
28.2
28.4
28.6
28.8
1 5 9
1
3
1
7
2
1
2
5
2
9
3
3
3
7
4
1
4
5
4
9
5
3
5
7
6
1
6
5
6
9
7
3
7
7
8
1
8
5
8
9
9
3
9
7
1
0
1
1
0
5
1
0
9
1
1
3
1
1
7
1
2
1
1
2
5
1
2
9
1
3
3
1
3
7
1
4
1
1
4
5
1
4
9
P
S
N
R
 (
d
B
) 
Frame 
Mô hình lai ghép
Mô hình Laplace
SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 6
Nguyễn Thị Hương Thảo, Vũ Văn San 
Bảng II. PSNR CỦA CÁC KHUNG HÌNH WZ GIẢI MÃ 
(dB) 
Chuỗi 
video 
Mô hình 
Laplacian 
Mô hình 
đề xuất 
Aikyo 28.0 27.8 
Foreman 28.8 29.5 
Carphone 29.2 29.4 
 Kết quả của các chuỗi được trình bày trong Bảng II. Bảng 
II mô tả sự so sánh PSNR trung bình của các khung hình WZ 
giải mã trong hai trường hợp: sử dụng mô hình Laplacian để 
mô hình hóa nhiễu tương quan và khi sử dụng mô hình lai ghép 
đề xuất. Minh họa hình ảnh của chuỗi Aikyo được trình bày 
trong Hình 3. 
Các kết quả cho thấy phương pháp đề xuất cho mức độ cải 
thiện trung bình lên tới 0.7 dB cho chuỗi Foreman và 0.2 dB 
cho chuỗi Carphone tuy nhiên lại giảm 0.2 dB đối với chuỗi 
Aikyo. Điều này cho thấy kết quả đạt được khá tốt với chuỗi có 
nhiều chuyển động nhưng lại chưa hiệu quả đối với chuỗi ít 
chuyển động. 
V. KẾT LUẬN 
Bài báo này giới thiệu mô hình nhiễu tương quan cho mã 
hóa video Wyner-Ziv miền biến đổi. Bằng cách sử dụng thông 
tin phụ được gửi từ bộ mã hóa, thuộc tính thống kê của nhiễu 
tương quan và đặc tính chuyển động của chuỗi video, thuật 
toán đề xuất có thể được xây dựng dựa trên phân bố Laplacian 
hoặc Gaussian. 
Các kết quả thực nghiệm so sánh phương pháp đề xuất với 
các phương pháp sử dụng phân bố Laplacian thông thường cho 
thấy phương pháp đề xuất có thể cải thiện đáng kể chất lượng 
của khung hình giải mã với độ phức tạp tăng lên không đáng 
kể. Trong các nghiên cứu tiếp theo sẽ tập trung áp dụng các kỹ 
thuật trí tuệ nhân tạo vào xây dựng mô hình nhiễu tương quan 
cho kiến trúc DVC nhằm cải thiện hơn nữa hiệu năng tổng thể 
của hệ thống. 
TÀI LIỆU THAM KHẢO 
[1] D. Slepian and J. Wolf, Noiseless Coding of Correlated 
Information Sources, IEEE Transactions on Information Theory, 
vol. 19, no. 4, pp.471-480, July 1973. 
[2] A. Wyner and J. Ziv, The Rate-Distortion Function for Source 
Coding with Side Information at the Decoder, IEEE 
Transactions on Information Theory, vol. 22, no. 1, pp.1-10, 
January 1976. 
[3] X. Artigas, J. Ascenso, M. Dalai, S. Klomp, D. Kubasov, and M. 
Ouaret, “The DISCOVER codec: Architecture, techniques and 
evaluation” in Proc. Picture Coding Symp., Lisbon, Portugal, 
Oct. 2007, pp. 1–5. 
[4] R. Puri and K. Ramchandran, PRISM: A new robust video 
coding architecture based on distributed compression 
principles, 40th Allerton Conf. Communication, Control and 
Computing,, Allerton, IL, USA, 2002. 
[5] 18. Catarina Brites, Fernando Pereira, Correlation noise 
modeling for efficient pixel and transform domain Wyner-Ziv 
video coding, IEEE Transactions on Circuits and Systems for 
Video Technology, Volume: 18, Issue: 9, Sept. 2008. 
[6] B. Girod, A. Aaron, S. Rane, and D. Rebollo-Monedero, 
“Distributed Video Coding,” Proceedings of the IEEE, vol. 93, 
no. 1, pp. 71-83, January 2005. 
[7] Catarina Brites, Joao Ascenso, Fernando Pereira, Studying 
temporal correlation noise modeling for pixel based Wyner-Ziv 
video coding, Image Processing, 2006 IEEE International 
Conference on, ICIP 2006. 
[8] Catarina Brites, Fernando Pereira, Correlation noise modeling 
for multiview transform domain Wyner-Ziv video coding, Image 
Processing (ICIP), 2014 IEEE International Conference on. 
[9] Xiem Hoang Van, Joao Ascenso, Fernando Pereira, Adaptive 
scalable video coding: a HEVC based framework combining the 
predictive and distributed paradigms, IEEE Transactions on 
Circuits and Systems for Video Technology, Volume: 27, Issue: 
8, Aug. 2017. 
[10] Jürgen Slowack, Jozef Škorupa, Stefaan Mys, Nikos 
Deligiannis, Peter Lambert, Adrian Munteanu, and Rik Van de 
Walle (2011). Correlation Noise Estimation in Distributed 
Video Coding. Effective Video Coding for Multimedia 
Applications, pp. 133‐ 156, Intech Publishing, 2011, ISBN 
978‐ 953‐ 307‐ 177‐ 0. 
[11] S. Minali and G. Calvagno, “A distributed video coder based on 
the H.264/AVC standard,” in EUSIPCO, Poznan, Poland, Sep. 
2007. 
[12] Minali, J. Wang, and K. Ramchandran, “Achieving H.264-like 
compression efficiency with distributed video coding,” in SPIE 
VCIP, San Jose, CA, USA, Jan. 2007 
[13] J. L. Martínez, G. Fernández-Escribano, H. Kalva, W. A. R. J. 
Weerakkody, W. A. C. Fernando, and A. Garrido, “Feedback 
free DVC architecture using machine learning,” in Proc. IEEE 
ICIP, Oct. 2008, pp. 1140–1143. 
[14] T. Sheng, X. Zhu, G. Hua, H. Guo, J. Zhou, and C. W. Chen, 
“Feedback free rate-allocation scheme for transform domain 
Wyner–Ziv video coding,” Multimedia Syst., vol. 16, no. 2, pp. 
127–137, 2010. 
[15] X. Huang and S. Forchhammer, “Cross-band noise model 
refinement for transform domain Wyner-Ziv video coding,” 
Signal Process., Image Commun., vol. 27, no. 1, pp. 16–30, 
2012. 
[16] Hao Qin, Bin Song, Yue Zhao, and Haihua Liu, Adaptive 
Correlation Noise Model for DC Coefficients in Wyner-Ziv 
Video Coding, ETRI Journal, Volume 34, Number 2, April 2012 
[17] Hu Xiaofei, Zhu Xiuchang, “A Wyner-Ziv video coding method 
utilizing mixture correlation noise model”, Journal of 
electronics (China), Vol.29, No.3/4, pp. 197-203, July 2012. 
[18] Huynh Van Luong, Lars Lau Raket, Xin Huang, and Soren 
Forchhammer, Side information and noise learning for 
distributed video coding using optical flow and clustering, IEEE 
Transactions on Image Processing ( Volume: 21, Issue: 12, Dec. 
2012 ) 
[19] Huynh Van Luong, Lars Lau Raket, Xin Huang, and Soren 
Forchhammer, Re-estimation of motion and reconstruction for 
distributed video coding, IEEE Transactions on Image 
Processing ( Volume: 23, Issue 7, July. 2014 ). 
[20] Xiem Hoang Van, Joao Ascenso, Fernando Pereira, Adaptive 
scalable video coding: a HEVC based framework combining the 
predictive and distributed paradigms, IEEE Transactions on 
SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 7
MÔ HÌNH NHIỄU TƯƠNG QUAN CHO HỆ THỐNG MÃ HÓA VIDEO PHÂN TÁN 
Circuits and Systems for Video Technology, Volume: 27, Issue: 
8, Aug. 2017. 
[21] X. HoangVan et al., “HEVC backward compatible scalability: A 
low encoding complexity distributed video coding based 
approach,” Signal Process.: Image Commun., vol. 33, no. 4, pp. 
51-70, Apr. 2015. 
Abstract: Distributed video coding is a new paradigm which is 
suitable for uplink applications such as wireless sensor 
networks, video surveillance systems. Previous research 
results have shown that despite of independent encoding and 
joint decoding, distributed video coding can achieve 
equivalent performance to predictive video coding. However, 
the Rate - Distortion(RD) performance of these distributed 
video encoding systems depends greatly on correlation noise 
modeling between the original information and corresponding 
side information at the decoder. In previous works, most use 
Laplacian distribution to model correlation noise and don‟t 
take into account statistical property of the transform domain 
correlation noise and the motion characteristic of the frame. 
This paper proposes a new method in which models for the 
DC coefficients are adaptively adjusted depending on the 
motion characteristics of sequence. The experimental results 
show that the performance of the proposed method has been 
improved compared to the previous Laplacian model. 
Keyword: DVC, Wyner-Ziv Coding, correlation noise 
model 
Nguyễn Thị Hƣơng Thảo, 
Nhận bằng tốt nghiệp đại học và 
thạc sỹ Học viện Công nghệ Bưu 
chính Viễn thông vào các năm 
2003 và 2010. Hiện giảng dạy và 
làm Nghiên cứu sinh tại Khoa Kỹ 
thuật Điện tử 1 - Học viện Công 
nghệ Bưu chính Viễn thông. Lĩnh 
vực nghiên cứu: Xử lý tín hiệu 
Video, Xử lý Ảnh, Lý thuyết thông 
tin. 
Vũ Văn San, Nhận học vị Tiến 
sỹ năm 2000 tại Viện Điện tử 
Viễn thông, Hàn quốc. Hiện TS. 
Vũ Văn San công tác tại Học viện 
Công nghệ Bưu chính Viễn thông. 
Lĩnh vực nghiên cứu: Truyền dẫn 
và xử lý tín hiệu số. 
SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 8

File đính kèm:

  • pdfmo_hinh_nhieu_tuong_quan_cho_he_thong_ma_hoa_video_phan_tan.pdf