2025年【图像编解码】图像编解码技术简介

科技前沿 • 2025-01-23 20:05 • 阅读 46

大家好，我是讯享网，很高兴认识大家。

相关概念：
图像采集与ISP
色彩空间，从RGB到YUV。视频工程师发现，眼睛对于亮和暗的分辨要比对颜色的分辨更精细一些，也就是说，人眼对色度的敏感程度要低于对亮度的敏感程度

将数字视频转换为YUV，用4：2：0采样方式获得1/2的压缩率。

所谓编码算法，即寻找规律，构建模型。谁能找到更精准的规律，建立更高效的模型，谁就是厉害的算法。

视频里的冗余信息分类：

种类	描述
空间冗余	静态图像中存在的主要冗余
时间冗余	帧序列中相邻帧包含相同的背景或物体
构造冗余	是不是编码冗余或熵冗余
知识冗余	由于先验常识导致的信息冗余
视觉冗余	由于人视觉系统的不完美，察觉不到某些细微的变化，导致比（应忽略人不可察觉细微）理想编码更多的数据
其他冗余

首先解决空间和时间冗余。

将N维实数变换为相应的系数，并可逆变换。

$\frac{2}{N}c(u)\sum_{i=0}^{N-1}f(i)cos(\frac{(2i+1)u\pi}{2N})$

归一化，
$\sqrt{\frac{2}{N}}c(u)\sum_{i=0}^{N-1}f(i)cos(\frac{(2i+1)u\pi}{2N})$
$f (i)$ 相当于数组的索引，表示第i个元素

$\frac{1}{\sqrt(2)}, u = 0 \\ c(u) = 1, u \not = 0$

8x8 2D DCT
$\frac{c(u)}{2}\frac{c(v)}{2} \sum_{m=0}^7\sum_{n=0}^7f(m,n)cos(\frac{(2m+1)u\pi}{16})cos(\frac{(2n+1)v\pi}{16})$

熵编码需要离散信号的先验概率分布，该分布称为熵模型。

基于神经网络的编解码，将原始图像x转换为隐特征y，对该特征做熵编码。
注意区分y的边缘分布与熵模型，熵模型是参数化的。
神经网络学习获取估计熵模型的能力，即变分自编码器VAE。
Balle 2017的论文称与VAE相似。

简单理解是从连续变量离散化为离散变量。

JPEG 编码流程