第4章 无损数据压缩
数据压缩可分成两种类型,一种叫做无损压缩,另一种叫做有损压缩。
无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。一个很常见的例子是磁盘文件的压缩。根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/2~1/4。一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)压缩算法。
有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比。
本章主要介绍目前用得最多和技术最成熟的无损压缩编码技术,包括包含霍夫曼编码、算术编码、RLE编码和词典编码。对于不打算开发压缩技术和编写压缩程序的读者可不必深究编译码的详细过程。
4.1 香农-范诺与霍夫曼编码
4.1.1香农-范诺编码
香农-范诺编码算法需要用到下面两个基本概念:
1、Entropy(熵)的概念
1)熵是信息量的度量方法,它表示某一事件出现的消息越多,事件发生的可能性就越小,数学上就是概率越小。
2)某个事件的信息量用Ii=-log2Pi表示, 其中pi为第i个事件的概率,0<Pi≤1
2、信源S的熵的定义
按照仙农(Shannon)的理论,信源S的熵定义为
H(S) = η = ∑i Pilog2(1/Pi)
其中Pi是符号Si在S中出现的概率;log2(1/Pi)表示包含在Si中的信息量,也就是编码Si所需要的位数。例如,一幅用256级灰度表示的图像,如果每一个象素点灰度的概率均为Pi=1/256,编码每一个象素点就需要8位。
[例4.1] 有一幅40个象素组成的灰度图像,灰度共有5级,分别用符号A、B、C、D和E表示,40个象素中出现灰度A的象素数有15个,出现灰度B的象素数有7个,出现灰度C的象素数有7个等等,如表4-01所示。如果用3个位表示5个等级的灰度值,也就是每个象素用3位表示,编码这幅图像总共需要120位。
表4-01 符号在图像中出现的数目
| 符 号 |
A |
B |
C |
D |
E |
| 出现的次数 |
15 |
7 |
7 |
6 |
5 |

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/53941.html