2025年uchar code是什么意思(uchar code sz)

uchar code是什么意思(uchar code sz)内容仅用于个人学习 如有侵权请联系删除 nbsp nbsp 简单来说 Unicode 是 字符集 UTF 8 是 编码规则 其中 字符集 为每一个 字符 分配一个唯一的 ID 学名为码位 码点 Code Point 编码规则 将 码位 转换为字节序列的规则 编码 解码 可以理解为 加密 解密 的过程 广义的 Unicode 是一个标准

大家好,我是讯享网,很高兴认识大家。



内容仅用于个人学习,如有侵权请联系删除~

 

 

简单来说:

  • Unicode 是「字符集」
  • UTF-8 是「编码规则」

其中:

  • 字符集:为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point)
  • 编码规则:将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)

广义的 Unicode 是一个标准,定义了一个字符集以及一系列的编码规则,即 Unicode 字符集和 UTF-8、 UTF-16、UTF-32 等等编码……

Unicode 字符集为每一个字符分配一个码位,例如「知」的码位是 30693,记作 U+77E5(30693 的十 六进制为 0x77E5)。

 

UTF-8 顾名思义,是一套以 8 位为一个编码单位的可变长编码。会将一个码位编码为 1 到 4 个字节:

U+ 0000 ~ U+ 007F: 0XXXXXXX

U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX

U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX

U+10000 ~ U+10FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

 

根据上表中的编码规则,之前的「知」字的码位 U+77E5 属于第三行的范围:


讯享网

Unicode编码 a A java_ico

这就是将 U+77E5 按照 UTF-8 编码为字节序列 E79FA5 的过程。反之亦然。

 

举一个例子:It’s 知乎日报

你看到的unicode字符集是这样的编码表:

每一个字符对应一个十六进制数字。

计算机只懂二进制,因此,严格按照unicode的方式(UCS-2),应该这样存储:

这个字符串总共占用了18个字节,但是对比中英文的二进制码,可以发现,英文前9位都是0!浪费啊,浪 费硬盘,浪费流量。

怎么办? UTF。

UTF-8是这样做的:

1. 单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;

2. n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n 个字节的其余空位填充该字符unicode码,高位用0补足。 这样就形成了如下的UTF-8标记位:

于是,”It’s 知乎日报“就变成了:

和上边的方案对比一下,英文短了,每个中文字符却多用了一个字节。但是整个字符串只用了17个字节, 比上边的18个短了一点点。

小讯
上一篇 2025-05-25 09:47
下一篇 2025-06-08 18:41

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/160878.html