Mô hình nhiễu tương quan cho hệ thống mã hóa video phân tán
Mã hóa video phân tán (DVC) là sơ đồ mã hóa video
mới phù hợp cho các ứng dụng đường lên như hệ thống giám sát
video không dây, mạng cảm biến không dây. Các kết quả nghiên cứu
trước đã chỉ ra rằng mặc dù thực hiện mã hóa độc lập và giải mã kết
hợp, hiệu năng của hệ thống mã hóa video phân tán có thể đạt mức
tương đương so với các hệ thống mã hóa video dự đoán hiện nay.
Tuy nhiên, hiệu năng méo – tốc độ (RD) của các hệ thống mã hóa
video phân tán này phụ thuộc rất lớn vào việc mô hình hóa nhiễu
tương quan giữa thông tin gốc ở phía mã hóa và thông tin phụ trợ
tương ứng ở phía giải mã. Trong các nghiên cứu trước, hầu hết đều
sử dụng mô hình Laplacian để mô hình hóa nhiễu tương quan mà
không tính đến đặc tính thống kê và đặc tính chuyển động của chuỗi.
Bài báo này đề xuất phương pháp mô hình hóa nhiễu tương quan mới
thay đổi thích ứng cho các hệ số DC dựa vào đặc tính của chuỗi. Các
kết quả thực nghiệm cho thấy hiệu năng của phương pháp đề xuất đã
được cải thiện hơn so với mô hình Laplacian trước đây
Tóm tắt nội dung tài liệu: Mô hình nhiễu tương quan cho hệ thống mã hóa video phân tán
Nguyễn Thị Hương Thảo, Vũ Văn San Tác giả liên hệ: Nguyễn Thị Hương Thảo Email: thaontth@ptit.edu.vn Đến tòa soạn: 10/2018, chỉnh sửa: 12/2018, chấp nhận đăng: 12/2018. MÔ HÌNH NHIỄU TƢƠNG QUAN CHO HỆ THỐNG MÃ HÓA VIDEO PHÂN TÁN Nguyễn Thị Hƣơng Thảo, Vũ Văn San Học viện Công nghệ Bưu chính Viễn thông Tóm tắt: Mã hóa video phân tán (DVC) là sơ đồ mã hóa video mới phù hợp cho các ứng dụng đường lên như hệ thống giám sát video không dây, mạng cảm biến không dây. Các kết quả nghiên cứu trước đã chỉ ra rằng mặc dù thực hiện mã hóa độc lập và giải mã kết hợp, hiệu năng của hệ thống mã hóa video phân tán có thể đạt mức tương đương so với các hệ thống mã hóa video dự đoán hiện nay. Tuy nhiên, hiệu năng méo – tốc độ (RD) của các hệ thống mã hóa video phân tán này phụ thuộc rất lớn vào việc mô hình hóa nhiễu tương quan giữa thông tin gốc ở phía mã hóa và thông tin phụ trợ tương ứng ở phía giải mã. Trong các nghiên cứu trước, hầu hết đều sử dụng mô hình Laplacian để mô hình hóa nhiễu tương quan mà không tính đến đặc tính thống kê và đặc tính chuyển động của chuỗi. Bài báo này đề xuất phương pháp mô hình hóa nhiễu tương quan mới thay đổi thích ứng cho các hệ số DC dựa vào đặc tính của chuỗi. Các kết quả thực nghiệm cho thấy hiệu năng của phương pháp đề xuất đã được cải thiện hơn so với mô hình Laplacian trước đây. Từ khóa: Video phân tán, nhiễu tương quan. I. GIỚI THIỆU Trong các hệ thống truyền thông và đa phương tiện hiện nay, các kỹ thuật nén video số đóng một vai trò vô cùng quan trọng vì sự hạn chế của độ rộng băng tần. Ngoài các kỹ thuật mã hóa video truyền thống sử dụng mã hóa dự đoán và biến đổi cosine rời rạc còn có một kỹ thuật mã hóa video khác được gọi là mã hóa video phân tán. Điểm khác biệt chính giữa hai phương pháp này là nơi thực hiện khai thác tương quan thời gian, điều đó dẫn đến sự khác nhau về độ phức tạp của bộ mã hóa và bộ giải mã. Kiến trúc mã hóa video dự đoán hướng đến các ứng dụng video mà ở đó video được mã hóa một lần và được giải mã nhiều lần, ví dụ truyền hình quảng bá. Vì vậy, bộ mã hóa có độ phức tạp cao hơn từ 5 đến 10 lần so với bộ giải mã. Tuy nhiên kiến trúc này lại không phù hợp với các ứng dụng mới ví dụ như mạng giám sát video không dây, mạng cảm biến không dây vì các ứng dụng này có rất nhiều bộ mã hóa trong khi chỉ có một vài bộ giải mã. Giải pháp cho tình huống này là sử dụng mã hóa video phân tán. DVC thực hiện khai thác tương quan thời gian, một phần hoặc toàn phần tại phía giải mã, do đó làm giảm độ phức tạp cho bộ mã hóa. Nói cách khác, DVC thực hiện mã hóa độc lập và giải mã kết hợp. Điều này giúp dịch chuyển bớt độ phức tạp từ phía mã hóa sang phía giải mã trong khi hiệu suất nén vẫn giữ tương đương so với kiến trúc mã hóa video dự đoán truyền thống. Định lý Slepian-Wolf [1] và định lý Wyner-Ziv [2] từ lý thuyết thông tin đã phát biểu rằng đối với nén không tổn thất và nén có tổn thất, có thể mã hóa độc lập và giải mã kết hợp cho các nguồn có tương quan với nhau mà vẫn giữ được tốc độ tương đương với trường hợp mã hóa và giải mã kết hợp như trong mã hóa video truyền thống. Dựa trên các kết quả lý thuyết của các định lý Slepian-Wolf và Wyner-Ziv, các kiến trúc DVC thực tế đã được đề xuất trong [3,4] bởi nhóm nghiên cứu nhóm của giáo sư Bernd Girod tại Đại học Stanford hay còn gọi là kiến trúc Stanford mà sau này được cải tiến thành codec DISCOVER [3] và nhóm của giáo sư Kannan Ramchandran tại Berkeley (Đại học California) còn được biết đến là kiến trúc PRISM [4]. Hình 1 mô tả phương pháp nén video phân tán với thông tin phụ trợ được tạo ra tại phía phát.Trong kiến trúc Stanford, chuỗi video được chia thành các khung hình chính (KF) và các khung hình Wyner-Ziv (WZF). Tại phía mã hóa, các KF sẽ được mã hóa kỹ thuật mã hóa video truyền thống như H.264/AVC Intra hoặc HEVC Intra. Các WZF được biến đổi cosine rời rạc (DCT) và lượng tử hóa, sau đó áp dụng mã hóa kênh để tạo ra các bit kiểm tra. Tuy nhiên, chỉ các bit kiểm tra này được gửi tới bên thu tùy theo yêu cầu còn các bit hệ thống bị loại bỏ nhằm hạn chế số lượng bit cần gửi đi. Tại phía giải mã, các KF đã mã hóa sẽ được giải mã. Các khung hình này sẽ được sử dụng như các khung hình tham chiếu để tạo ra khung hình thông tin phụ trợ (SI), một phiên bản „nhiễu‟ của khung hình WZ gốc. Bộ giải mã kênh sẽ sử dụng các bit kiểm tra được gửi tới để „sửa sai‟ cho các SI để thu được các khung hình WZ ban đầu. Như vậy, để số lượng bit kiểm tra phải gửi tới phía thu càng ít thì ngoài việc tạo ra SI có chất lượng tốt, điều quan trọng là phải dự đoán đúng mô hình nhiễu tương quan giữa khung hình WZ gốc và SI được tạo ra tại phía giải mã. Tuy nhiên, đây là một công việc rất phức tạp vì thông tin phụ trợ chỉ có tại bộ giải mã và chất lượng SI thay đổi theo chuỗi và thay đổi trong bản thân mỗi khung hình. Nói cách khác, nhiễu tương quan không chỉ dừng theo thời gian mà còn dừng theo không gian. Khi chuỗi chuyển động nhanh, rất khó để dự đoán khung hình WZ và sai lỗi trong SI tăng lên đáng kể. Hình 1. Phương pháp nén video phân tán với thông tin phụ trợ phía giải mã Trong hầu hết các nghiên cứu về DVC đều lựa chọn mô hình Laplacian để mô tả nhiễu tương quan. Tuy nhiên qua quan sát thực nghiệm cho thấy không phải lúc nào mô hình Laplacian cũng chính xác. Vì vậy bài báo này nghiên cứu một mô hình lai ghép kết hợp mô hình Laplacian và mô hình Gaussian để mô tả nhiễu tương quan. Việc lựa chọn mô hình nào tùy thuộc vào nội dung của khung hình tương ứng. SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 3 MÔ HÌNH NHIỄU TƯƠNG QUAN CHO HỆ THỐNG MÃ HÓA VIDEO PHÂN TÁN Phần tiếp theo của bài báo được tổ chức như sau. Phần II giới thiệu về kiến trúc DVC được sử dụng trong bài báo. Mô hình nhiễu tương quan được đề xuất trong Phần III. Các kết quả và thảo luận được giới thiệu trong phần IV và phần V là kết luận. II. KIẾN TRÚC MÃ HÓA VIDEO WYNER-ZIV MIỀN BIẾN ĐỔI DCT Q Bộ mã hóa miền biến đổi Bộ giải mã miền biến đổi Bộ mã hóa LDPC Khung hình WZ Bộ giải mã LDPC Bộ mã hóa truyền thống Bộ giải mã truyền thống IQ Bộ đệm Khung hình chính IDCT Khung hình WZ đã giải mã f 2n+1 f2n DCT Tạo thông tin phụ trợ Khung hình chính đã giải mã Bộ đệm Mô hình hóa nhiễu tương quan Kênh phản hồi Hình 2. Kiến trúc bộ mã hóa DVC miền biến đổi Hình 2 mô tả kiến trúc bộ mã hóa DVC miền biến đổi. A. Quá trình mã hóa Chia tách khung hình: Các khung hình của chuỗi video được chia thành các khung hình WZ (WZF) và khung hình chính (KF) xen kẽ nhau. Các khung hình lẻ là các khung hình chính còn các khung hình chẵn là các khung hình WZ. DCT: Để khai thác dư thừa không gian, các khung hình WZ sẽ được biến đổi DCT 4 x 4 để tạo ra các ma trận hệ số tương ứng. Lượng tử hóa: Để loại bỏ dư thừa không gian và tận dụng các đặc điểm của thị giác người, các ma trận hệ số DCT được đưa qua bộ lượng tử hóa đồng nhất với các hệ số lượng tử tùy theo chất lượng mong muốn. Các ký tự sau lượng tử hóa được chia thành các mặt phẳng bit, sau đó được mã hóa độc lập sử dụng bộ mã hóa kiểm tra chẵn lẻ mật độ thấp (LDPC). Các bit chẵn lẻ sẽ được lưu lại trong bộ đệm và được gửi (tùy theo yêu cầu của bộ giải mã) tới bộ giải mã trong khi các bit hệ thống bị loại bỏ. B. Quá trình giải mã Các khung hình chính được giải mã bởi bộ giải mã truyền thống. Các khung hình WZ được giải mã như sau. Bộ đệm: Bộ đệm lưu giữ các khung hình chính trước và sau sau khi đã được giải mã. Các khung hình chính này được sử dụng để hỗ trợ cho việc tạo thông tin phụ trợ. Tạo thông tin phụ trợ: Thông tin phụ trợ được coi như một phiên bản nhiễu của thông tin gốc. Nó được tạo ra dựa trên các thông tin đã giải mã từ bộ đệm gửi tới. Trong kiến trúc DISCOVER, SI được tạo ra sử dụng kỹ thuật nội suy thời gian bù chuyển động (MCTI). Kiến trúc MCTI có thể tóm tắt như sau: 1) Bộ lọc thông thấp: Khởi đầu, các khung hình chính được đưa qua bộ lọc thông thấp để cải thiện độ tin cậy của các vector chuyển động. 2) Ước lượng chuyển động trước: Bước này thực hiện ước lượng một vector chuyển động cho mỗi khối trong khung hình chính sau với tham chiếu tới khung hình chính trước. 3) Ước lượng chuyển động song hướng: Sử dụng các phép chiếu của vector chuyển động, đối với mỗi khối trong khung hình SI sẽ lựa chọn vector chuyển động nào đi qua khối đó và gần với tâm khối nhất và coi đó là vector chuyển động của khối. Vector chuyển động được lựa chọn sẽ được chia thành hai vector chuyển động trước và sau với giả định chuyển động không đổi. 4) Làm mịn không gian: Tại bước này, bộ lọc trung vị được thực hiện trên hai trường vector chuyển động để loại bỏ các vector chuyển động ở biên. 5) Bù chuyển động song hướng: Thực hiện lấy trung bình hai khối đã bù chuyển động trong khung hình chính trước và sau để tạo ra thông tin phụ trợ. DCT: Thông tin phụ trược được biến đổi DCT khối 4 x 4 để nhận được các hệ số DCT nguyên. Mô hình hóa nhiễu tương quan: Phương pháp mã hóa video WZ thực hiện mã hóa sự sai khác giữa thông tin gốc tại bộ mã hóa và thông tin phụ trợ được tạo ra tại phía giải mã. Do đó, cả bộ mã hóa và bộ giải mã cần phải biết về tương quan thống kê giữa thông tin gốc và thông tin phụ trợ. Vì thế khối này thực hiện mô hình hóa nhiễu tương quan giữa khung hình WZ gốc và khung hình thông tin phụ trợ tương ứng. Thông tin đầu ra sẽ được gửi tới bộ giải mã LDPC. Bộ giải mã LDPC: Bộ giải mã LDPC thực hiện sửa các sai lỗi trong thông tin phụ trợ sử dụng các bit chẵn lẻ từ phía mã hóa gửi tới. Thông thường, đại lượng tin cậy dựa trên tỉ số xác suất tiên nghiệm được sử dụng làm tiêu chí phát hiện sai để xác định xác suất sai lỗi của mặt phẳng bit. Các mặt phẳng bit quan trọng sẽ có ngưỡng xác suất sai lỗi thấp hơn so với các mặt phẳng bit ít quan trọng. Nếu chưa đạt được xác suất lỗi cho phép, bộ giải mã sẽ gửi yêu cầu đến bộ mã hóa qua kênh phản hồi để gửi thêm các bit chẵn lẻ. Giải lượng tử và biến đổi ngược IDCT: Sau khi giải mã LDPC, thông tin được tái tạo bằng cách giải lượng tử và biến đổi DCT ngược. Toàn bộ khung hình được khôi phục lại ở miền pixel. III. MÔ HÌNH NHIỄU TƢƠNG QUAN TRONG MÃ HÓA VIDEO PHÂN TÁN Để tận dụng tốt nhất thông tin phụ trợ có được, bộ giải mã cần phải có hiểu biết tin cậy về mô hình mô tả nhiễu tương quan giữa khung hình WZ gốc và khung hình thông tin phụ trợ tương ứng. Nhiễu tương quan (W )Z SI có thể được coi là kênh ảo với mẫu lỗi được đặc trưng bởi phân bố thống kê nào đó bởi vì SI có thể được coi như phiên bản „nhiễu‟ của thông tin gốc. Trong kiến trúc codec miền biến đổi, sự sai khác này chính là sự sai khác giữa các dải DCT tương ứng của khung hình WZ và SI. Nếu mô hình mô tả chính xác (W )Z SI , hiệu suất mã hóa sẽ tăng lên, ngược lại, sự tổn thất về hiệu suất mã hóa sẽ xảy ra. Mục đích của phần này là giới thiệu ngắn gọn về mô hình nhiễu tương quan được sử dụng trong SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 4 Nguyễn Thị Hương Thảo, Vũ Văn San các nghiên cứu mã hóa video phân tán và đề xuất phương pháp mới nhằm cải tiến mô hình nhiễu tương quan. A. Các nghiên cứu về mô hình nhiễu tương quan Nếu gọi WZ là thông tin gốc và SI là thông tin phụ trợ thì sự sai khác giữa WZ và SI được biểu thị là N=WZ SI gọi là nhiễu tương quan. Nhiễu tương quan có thể được mô hình hóa bằng cách sử dụng phân bố Laplacian [5,6] hoặc phân bố Gaussian. Tuy nhiên, phân bố Laplacian được sử dụng rộng rãi hơn vì có sự cân bằng tốt giữa độ chính xác mô hình và độ phức tạp. Sử dụng phân bố Laplacian, mối tương quan giữa WZ và SI được mô tả như sau: (W )(W ) 2 Z SIp Z SI e (1) Ở đó, (.)p là hàm mật độ xác suất và là tham số phân bố Laplacian được xác định bởi công thức: 2 2 (2) ở đó 2 là phương sai của sự sai khác giữa WZ và SI . có thể thay đổi theo thời gian và không gian. Có rất nhiều các nghiên cứu khác nhau nhằm ước lượng giá trị này [7, 8, 9, 10]. Tùy thuộc vào nơi thực hiện, ước lượng nhiễu tương quan có thể phân loại thành ba nhóm: ước lượng nhiễu tương quan tại phía mã hóa (ECNE), ước lượng nhiễu tương quan tại phía giải mã (DCNE) và ước lượng nhiễu tương quan hai phía (HCNE) nghĩa là nhiễu tương quan được ước lượng tại cả hai phía mã hóa và giải mã. Ước lượng nhiễu tương quan tại phía mã hóa Thực hiện ước lượng nhiễu tương quan tại phía mã hóa cho phép điều khiển tốc độ tại bộ mã hóa. Các tham số nhiễu tương quan có thể tính được dựa vào khung hình gốc và bản sao của thông tin phụ trợ. Tuy nhiên, do ước lượng chuyển động để tạo thông tin phụ trợ được thực hiện tại phía mã hóa nên độ phức tạp bộ mã hóa sẽ tăng. Mặt khác, các tham số nhiễu tương quan được tính toán tại bộ mã hóa phải được gửi tới bộ giải mã để hỗ trợ quá trình giải mã. Trong [11,12], nhiễu tương quan được tính trong miền tần số tại bộ mã hóa. Module tìm kiếm chuyển động được sử dụng để tìm ra thông tin phụ trợ tốt nhất và tương quan giữa khối hiện thời và thông tin phụ trợ này được tính toán. Thông tin chỉ báo về thông tin phụ trợ và số lượng các bit ít quan trọng nhất (các bit này được rút ra từ thông tin phụ trợ) được gửi tới bộ giải mã để giải mã thành công cho khối hiện thời. Brites và Pereira [5] đề xuất các phương pháp ước lượng nhiễu tương quan tại phía mã hóa trong cả hai miền pixel và miền biến đổi. Mỗi khối của thông tin phụ trợ được tạo ra bằng cách lấy trung bình của các khối tham chiếu trước và sau được bù chuyển động. Vì vậy, sự tương đồng giữa các khối này được sử dụng để ước lượng nhiễu tương quan giữa dữ liệu gốc và thông tin phụ trợ. Trong miền pixel, có ba mức được đề xuất là mức khung hình, mức khối và mức pixel. Đối với miền biến đổi, dải DCT và hệ số là hai mức đề xuất. Các giá trị được tính toán cho mỗi mức ở cả hai miền. Năm 2008, Martinez và các cộng sự [13] đề xuất kiến trúc mã hóa video Wyner-Ziv miền pixel ở đó nhiễu tương quan được tính bằng cách sử dụng ước lượng thông tin phụ trợ nhanh và khung hình WZ hiện tại. Từ khung hình sai khác này, một số tham số thống kê tin cậy được trích xuất để ước lượng chất lượng của thông tin phụ trợ tại phía giải mã, từ đó ước lượng số lượng bit cần thiết để sửa các lỗi trong thông tin phụ trợ. Năm 2010, Sheng và các cộng sự trong [14] đề xuất một phương pháp ước lượng nhiễu tương quan tại phía mã hóa dựa trên phân bố Laplacian. Để tránh làm tăng độ phức tạp bộ mã hóa và sử dụng kênh phản hồi, giá trị của phân bố Laplacian được tính là sai số bình phương trung bình (MSE) giữa khung hình WZ hiện thời và khung hình tham chiếu. Ước lượng nhiễu tương quan tại bộ giải mã Để giữa cho bộ mã hóa có độ phức tạp thấp thì quá trình ước lượng và bù chuyển động không nên thực hiện tại bộ mã hóa. Vì vậy, trong hầu hết các hệ thống mã hóa video Wyner- Ziv, các module ước lượng nhiễu tương quan thường tồn tại bên phía giải mã. Nhiều thuật toán ước lượng nhiễu [5,10,15] đã được đề xuất sử dụng phân bố Laplacian cho các hệ số DCT. Các giá trị khác nhau trong công thức (1) được ước lượng cho các mức khác nhau là mức khung hình, mức dải và mức hệ số. Khác với thuật toán trong [5], các tác giả trong [10] ước lượng nhiễu miền biến đổi bằng cách chuyển đổi các ước lượng nhiễu trong miền pixel. Các tham số nhiễu miền pixel được ước lượng sử dụng thông tin sẵn có từ khung hình Wyner-Ziv được giải mã trước đó cũng như các dải hệ số đã được giải mã trước. Một cách ước lượng nhiễu tương quan miền biến đổi cũng được đề xuất bởi Huan và Forchhammer trong [15] bằng cách sử dụng tương quan chéo dải. Dựa trên các quan sát và phân bố thống kê của nhiễu tương đối với các chuỗi có chuyển động khác nhau và với các dải hệ số DC, AC khác nhau, mô hình nhiễu tương quan thích ứng được đề xuất trong [16,17]. Bằng cách sử dụng thông tin hỗ trợ từ phía mã hóa gửi tới, mô hình nhiễu tương quan trong [16] được xây dựng. Sau đó, bộ giải mã lựa chọn thích ứng phân bố nhiễu tương quan Laplacian hoặc Gaussian cho các hệ số DC dựa trên nội dung chuỗi video. Một cách tiếp cận khác là sử dụng mô hình nhiễu tương quan hỗn hợp [17]. Hai phân bố khác nhau được sử dụng cho các hệ số AC và DC tùy thuộc vào sai số khác nhau của các hệ số DC và AC trong khung hình thông tin phụ trợ và đặc tính phân bố của nhiễu tương quan ở mức lượng tử khác nhau. Huynh Van Luong và các cộng sự đã đề xuất các mô hình nhiễu trong [18,19]. Trong [18], kỹ thuật học nhiễu được đề xuất để tận dụng các dư thừa của các khung hình được giải mã trước đó. Để tạo ra ước lượng nhiễu tương quan chính xác hơn, kỹ thuật bù chuyển động cho dư thừa được đề xuất trong [19] sử dụng thông tin từ các khung hình được giải mã trước đó và tương quan giữa khung hình trước và khung hình thông tin phụ trợ được ước lượng hiện thời. Ước lượng nhiễu tương quan tại hai phía Một cách tiếp cận khác là thực hiện ước lượng nhiễu tương quan tại cả phía mã hóa và giải mã [20,21]. Ước lượng nhiễu tương quan trong [20] là cách tiếp cận đối xứng ở đó cả bộ mã hóa và giải mã sử dụng cùng một mô hình tương quan. Vì vậy, cách tiếp cận này chỉ khai thác thông tin giải mã sẵn có ở cả hai phía mã hóa và giải mã. Vì vậy, mặc dù tránh được sự ước SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 5 MÔ HÌNH NHIỄU TƯƠNG QUAN CHO HỆ THỐNG MÃ HÓA VIDEO PHÂN TÁN lượng không giống nhau ở hai phía nhưng độ phức tạp bộ mã hóa trong trường hợp này lại tăng vì quá trình ước lượng và bù chuyển động để tạo ra thông tin phụ trợ cần phải thực hiện tại phía mã hóa. Mặt khác, hiệu năng méo – tốc độ (RD) có thể bị giảm đi vì chỉ tận dụng được thông tin đã giải mã. Để khắc phục nhược điểm này, mô hình hóa nhiễu tương quan bất đối xứng được đề xuất trong [21] trong đó bộ mã hóa sẽ sử dụng giải pháp tạo thông tin phụ trợ độ phức tạp thấp và bộ giải mã sử dụng giải pháp tạo thông tin phụ trợ độ phức tạp cao hơn. Tuy nhiên, cách tiếp cận này có thể dẫn đến các kết quả khác nhau tại bộ mã hóa và giải mã. Vì vậy cần phải thực hiện một số các kỹ thuật phụ thêm để loại bỏ sự ước lượng sai của mô hình tương quan. Với các phân tích ở trên, có thể thấy có rất nhiều cách tiếp cận đối với mô hình nhiễu tương quan. Bài báo này tập trung vào điều chỉnh mô hình Laplacian hay Gaussian tùy thuộc vào nội dung của chuỗi video. Mô hình nhiễu tương quan sẽ được thực hiện tại bộ giải mã - giải pháp thực tế nhất cho các kiến trúc mã hóa video phân tán. B. Mô hình nhiễu tương quan đề xuất Khi thử với rất nhiều khung hình của các chuỗi video khác nhau, kết quả cho thấy phân bố Laplacian này không hoàn toàn phù hợp. Cụ thể là, với các hệ số AC thì nhiễu tương quan tuân theo phân bố Laplace khá chính xác nhưng với hệ số DC, khi chuỗi chuyển động phức tạp thì nhiễu này tuân theo phân bố Laplace nhưng khi chuỗi chuyển động chậm thì lại phù hợp với phân bố Gaussian hơn. Vì vậy, để cải thiện tính chính xác của mô hình nhiễu tương quan trực tuyến, đề tài này đề xuất một thuật toán xây dựng mô hình nhiễu tương quan thích ứng cho hệ thống mã hóa video miền biến đổi. Thuật toán đề xuất sử dụng hai loại phân bố Laplacian và Gaussian cho hệ số DC tùy thuộc vào nội dung chuỗi video. Bước 1: Trước tiên tính khung hình dư thừa giữa khung hình WZ và khung hình SI tương ứng bằng cách xấp xỉ hiệu giữa các phiên bản bù chuyển động của các khung hình chính trước và sau và sử dụng công thức dưới đây: ( ) ( ) ( ) (3) ở đó ( ) ( ) là các khung hình chính trước và sau được bù chuyển động tương ứng và ( ) là vị trí pixel trong khung hình dư thừa . ( ) và ( ) mô tả vector chuyển động của các khung hình và tương ứng. Bước 2: Biến đổi DCT cho khung hình bằng cách áp dụng biến đổi cosine rời rạc cho khung hình để nhận được các hệ số DCT của khung hình . ( ) [ ( )] (4) Bước 3: Đối với mỗi hệ số của biến đổi DCT sẽ áp dụng các mô hình nhiễu khác nhau tùy thuộc vào giá trị của chúng như biểu thức (5) dưới đây: ( ) { √ √ | | √ √ | | √ √ (5) đó f(n) là hàm phân bố xác suất của nhiễu tương quan. µ và là trung bình và phương sai của nhiễu tương quan tương ứng. Giá trị ngưỡng thực nghiệm được chọn là 0.02. IV. ĐIỀU KIỆN THỬ NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ A. Điều kiện thử nghiệm Để đánh giá hiệu năng của giải pháp đề xuất so với các phương pháp khác, ba chuỗi video sau được sử dụng là Aikyo, Foreman và Carphone với các đặc điểm được mô tả trong Bảng I. Cấu trúc GOP được sử dụng trong hệ thống là “KWKW” ở đó K là khung hình chính và W là khung hình WZ tương ứng. Khung hình chính được mã hóa theo chế độ intramode của phần mềm HM. Các thông số của chuỗi được mô tả trong Bảng I. Bảng I. ĐIỀU KIỆN THỬ NGHIỆM Chuỗi Video thử nghiệm Độ phân giải không gian Độ phân giải thời gian Số lượng khung hình Aikyo 176 x 144 50 Hz 150 Foreman 60 Hz 150 Carphone 50 Hz 150 Hình 3. PSNR của chuỗi Aikyo B. Phân tích kết quả Để đánh giá kết quả của thuật toán, tham số PSNR (tỷ số tín hiệu/nhiễu đỉnh trung bình) của khung hình WZ giải mã được sử dụng khi áp dụng hai phương pháp: mô hình Laplacian thuần túy và mô hình nhiễu tương quan thích ứng. 26.8 27 27.2 27.4 27.6 27.8 28 28.2 28.4 28.6 28.8 1 5 9 1 3 1 7 2 1 2 5 2 9 3 3 3 7 4 1 4 5 4 9 5 3 5 7 6 1 6 5 6 9 7 3 7 7 8 1 8 5 8 9 9 3 9 7 1 0 1 1 0 5 1 0 9 1 1 3 1 1 7 1 2 1 1 2 5 1 2 9 1 3 3 1 3 7 1 4 1 1 4 5 1 4 9 P S N R ( d B ) Frame Mô hình lai ghép Mô hình Laplace SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 6 Nguyễn Thị Hương Thảo, Vũ Văn San Bảng II. PSNR CỦA CÁC KHUNG HÌNH WZ GIẢI MÃ (dB) Chuỗi video Mô hình Laplacian Mô hình đề xuất Aikyo 28.0 27.8 Foreman 28.8 29.5 Carphone 29.2 29.4 Kết quả của các chuỗi được trình bày trong Bảng II. Bảng II mô tả sự so sánh PSNR trung bình của các khung hình WZ giải mã trong hai trường hợp: sử dụng mô hình Laplacian để mô hình hóa nhiễu tương quan và khi sử dụng mô hình lai ghép đề xuất. Minh họa hình ảnh của chuỗi Aikyo được trình bày trong Hình 3. Các kết quả cho thấy phương pháp đề xuất cho mức độ cải thiện trung bình lên tới 0.7 dB cho chuỗi Foreman và 0.2 dB cho chuỗi Carphone tuy nhiên lại giảm 0.2 dB đối với chuỗi Aikyo. Điều này cho thấy kết quả đạt được khá tốt với chuỗi có nhiều chuyển động nhưng lại chưa hiệu quả đối với chuỗi ít chuyển động. V. KẾT LUẬN Bài báo này giới thiệu mô hình nhiễu tương quan cho mã hóa video Wyner-Ziv miền biến đổi. Bằng cách sử dụng thông tin phụ được gửi từ bộ mã hóa, thuộc tính thống kê của nhiễu tương quan và đặc tính chuyển động của chuỗi video, thuật toán đề xuất có thể được xây dựng dựa trên phân bố Laplacian hoặc Gaussian. Các kết quả thực nghiệm so sánh phương pháp đề xuất với các phương pháp sử dụng phân bố Laplacian thông thường cho thấy phương pháp đề xuất có thể cải thiện đáng kể chất lượng của khung hình giải mã với độ phức tạp tăng lên không đáng kể. Trong các nghiên cứu tiếp theo sẽ tập trung áp dụng các kỹ thuật trí tuệ nhân tạo vào xây dựng mô hình nhiễu tương quan cho kiến trúc DVC nhằm cải thiện hơn nữa hiệu năng tổng thể của hệ thống. TÀI LIỆU THAM KHẢO [1] D. Slepian and J. Wolf, Noiseless Coding of Correlated Information Sources, IEEE Transactions on Information Theory, vol. 19, no. 4, pp.471-480, July 1973. [2] A. Wyner and J. Ziv, The Rate-Distortion Function for Source Coding with Side Information at the Decoder, IEEE Transactions on Information Theory, vol. 22, no. 1, pp.1-10, January 1976. [3] X. Artigas, J. Ascenso, M. Dalai, S. Klomp, D. Kubasov, and M. Ouaret, “The DISCOVER codec: Architecture, techniques and evaluation” in Proc. Picture Coding Symp., Lisbon, Portugal, Oct. 2007, pp. 1–5. [4] R. Puri and K. Ramchandran, PRISM: A new robust video coding architecture based on distributed compression principles, 40th Allerton Conf. Communication, Control and Computing,, Allerton, IL, USA, 2002. [5] 18. Catarina Brites, Fernando Pereira, Correlation noise modeling for efficient pixel and transform domain Wyner-Ziv video coding, IEEE Transactions on Circuits and Systems for Video Technology, Volume: 18, Issue: 9, Sept. 2008. [6] B. Girod, A. Aaron, S. Rane, and D. Rebollo-Monedero, “Distributed Video Coding,” Proceedings of the IEEE, vol. 93, no. 1, pp. 71-83, January 2005. [7] Catarina Brites, Joao Ascenso, Fernando Pereira, Studying temporal correlation noise modeling for pixel based Wyner-Ziv video coding, Image Processing, 2006 IEEE International Conference on, ICIP 2006. [8] Catarina Brites, Fernando Pereira, Correlation noise modeling for multiview transform domain Wyner-Ziv video coding, Image Processing (ICIP), 2014 IEEE International Conference on. [9] Xiem Hoang Van, Joao Ascenso, Fernando Pereira, Adaptive scalable video coding: a HEVC based framework combining the predictive and distributed paradigms, IEEE Transactions on Circuits and Systems for Video Technology, Volume: 27, Issue: 8, Aug. 2017. [10] Jürgen Slowack, Jozef Škorupa, Stefaan Mys, Nikos Deligiannis, Peter Lambert, Adrian Munteanu, and Rik Van de Walle (2011). Correlation Noise Estimation in Distributed Video Coding. Effective Video Coding for Multimedia Applications, pp. 133‐ 156, Intech Publishing, 2011, ISBN 978‐ 953‐ 307‐ 177‐ 0. [11] S. Minali and G. Calvagno, “A distributed video coder based on the H.264/AVC standard,” in EUSIPCO, Poznan, Poland, Sep. 2007. [12] Minali, J. Wang, and K. Ramchandran, “Achieving H.264-like compression efficiency with distributed video coding,” in SPIE VCIP, San Jose, CA, USA, Jan. 2007 [13] J. L. Martínez, G. Fernández-Escribano, H. Kalva, W. A. R. J. Weerakkody, W. A. C. Fernando, and A. Garrido, “Feedback free DVC architecture using machine learning,” in Proc. IEEE ICIP, Oct. 2008, pp. 1140–1143. [14] T. Sheng, X. Zhu, G. Hua, H. Guo, J. Zhou, and C. W. Chen, “Feedback free rate-allocation scheme for transform domain Wyner–Ziv video coding,” Multimedia Syst., vol. 16, no. 2, pp. 127–137, 2010. [15] X. Huang and S. Forchhammer, “Cross-band noise model refinement for transform domain Wyner-Ziv video coding,” Signal Process., Image Commun., vol. 27, no. 1, pp. 16–30, 2012. [16] Hao Qin, Bin Song, Yue Zhao, and Haihua Liu, Adaptive Correlation Noise Model for DC Coefficients in Wyner-Ziv Video Coding, ETRI Journal, Volume 34, Number 2, April 2012 [17] Hu Xiaofei, Zhu Xiuchang, “A Wyner-Ziv video coding method utilizing mixture correlation noise model”, Journal of electronics (China), Vol.29, No.3/4, pp. 197-203, July 2012. [18] Huynh Van Luong, Lars Lau Raket, Xin Huang, and Soren Forchhammer, Side information and noise learning for distributed video coding using optical flow and clustering, IEEE Transactions on Image Processing ( Volume: 21, Issue: 12, Dec. 2012 ) [19] Huynh Van Luong, Lars Lau Raket, Xin Huang, and Soren Forchhammer, Re-estimation of motion and reconstruction for distributed video coding, IEEE Transactions on Image Processing ( Volume: 23, Issue 7, July. 2014 ). [20] Xiem Hoang Van, Joao Ascenso, Fernando Pereira, Adaptive scalable video coding: a HEVC based framework combining the predictive and distributed paradigms, IEEE Transactions on SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 7 MÔ HÌNH NHIỄU TƯƠNG QUAN CHO HỆ THỐNG MÃ HÓA VIDEO PHÂN TÁN Circuits and Systems for Video Technology, Volume: 27, Issue: 8, Aug. 2017. [21] X. HoangVan et al., “HEVC backward compatible scalability: A low encoding complexity distributed video coding based approach,” Signal Process.: Image Commun., vol. 33, no. 4, pp. 51-70, Apr. 2015. Abstract: Distributed video coding is a new paradigm which is suitable for uplink applications such as wireless sensor networks, video surveillance systems. Previous research results have shown that despite of independent encoding and joint decoding, distributed video coding can achieve equivalent performance to predictive video coding. However, the Rate - Distortion(RD) performance of these distributed video encoding systems depends greatly on correlation noise modeling between the original information and corresponding side information at the decoder. In previous works, most use Laplacian distribution to model correlation noise and don‟t take into account statistical property of the transform domain correlation noise and the motion characteristic of the frame. This paper proposes a new method in which models for the DC coefficients are adaptively adjusted depending on the motion characteristics of sequence. The experimental results show that the performance of the proposed method has been improved compared to the previous Laplacian model. Keyword: DVC, Wyner-Ziv Coding, correlation noise model Nguyễn Thị Hƣơng Thảo, Nhận bằng tốt nghiệp đại học và thạc sỹ Học viện Công nghệ Bưu chính Viễn thông vào các năm 2003 và 2010. Hiện giảng dạy và làm Nghiên cứu sinh tại Khoa Kỹ thuật Điện tử 1 - Học viện Công nghệ Bưu chính Viễn thông. Lĩnh vực nghiên cứu: Xử lý tín hiệu Video, Xử lý Ảnh, Lý thuyết thông tin. Vũ Văn San, Nhận học vị Tiến sỹ năm 2000 tại Viện Điện tử Viễn thông, Hàn quốc. Hiện TS. Vũ Văn San công tác tại Học viện Công nghệ Bưu chính Viễn thông. Lĩnh vực nghiên cứu: Truyền dẫn và xử lý tín hiệu số. SỐ 4 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 8
File đính kèm:
- mo_hinh_nhieu_tuong_quan_cho_he_thong_ma_hoa_video_phan_tan.pdf