<p id="1CGQFAM7">来源 | OSCHINA 社区</p><p id="1CGQFAM8">作者 | 京东云开发者-毛辰飞</p><p id="1CGQFAM9">原文链接:https://my.oschina.net/u//blog/</p><p><strong>背景</strong></p><p id="1CGQFAMA">在 mysql 中设计表的时候,mysql 官方推荐不要使用 uuid 或者不连续不重复的雪花 id (long 形且唯一),而是推荐连续自增的主键 id,官方的推荐是 auto_increment,那么为什么不建议采用 uuid,使用 uuid 究竟有什么坏处?今天我们就来分析这个问题,探讨一下内部的原因。</p><p><strong>数据展示</strong></p><p id="1CGQFAMB">user_auto_key,user_uuid,user_random_key,分别表示自动增长的主键,uuid 作为主键,随机 key 作为主键,其它我们完全保持不变。根据控制变量法,我们只把每个表的主键使用不同的策略生成,而其他的字段完全一样,然后测试一下表的插入速度和查询速度:</p><p id="1CGQFAMC">注:这里的随机 key 其实是指用雪花算法算出来的前后不连续不重复无规律的 id: 一串 18 位长度的 long 值</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1201%2F3e75f357j00rm7rr60028d200ps00ayg00h40079.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1201%2Fd6ecebc5j00rm7rr70016d200ri004og00id0034.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="1CGQFAMF">可以看出在数据量 100W 左右的时候,uuid 的插入效率垫底,并且在后续增加了 130W 的数据,uuid 的时间又直线下降。</p><p id="1CGQFAMG">时间占用量总体可以打出的效率排名为:auto_key>random_key>uuid,uuid 的效率最低,在数据量较大的情况下,效率直线下滑。</p><p><strong>原因分析</strong></p><p id="1CGQFAMH">对比一下 mysql 关于两者索引的使用情况.</p><p id="1CGQFAMI">自增的主键的值是顺序的,所以 Innodb 把每一条记录都存储在一条记录的后面。当达到页面的最大填充因子时候 (innodb 默认的最大填充因子是页大小的 15/16, 会留出 1/16 的空间留作以后的修改):</p><p id="1CGQFAMJ">①下一条记录就会写入新的页中,一旦数据按照这种顺序的方式加载,主键页就会近乎于顺序的记录填满,提升了页面的最大填充率,不会有页的浪费</p><p id="1CGQFAMK">②新插入的行一定会在原有的最大数据行下一行,mysql 定位和寻址很快,不会为计算新行的位置而做出额外的消耗</p><p id="1CGQFAML">③减少了页分裂和碎片的产生</p><p id="1CGQFAMM">因为 uuid 相对顺序的自增 id 来说是毫无规律可言的,新行的值不一定要比之前的主键的值要大,所以 innodb 无法做到总是把新行插入到索引的最后,而是需要为新行寻找新的合适的位置从而来分配新的空间。这个过程需要做很多额外的操作,数据的毫无顺序会导致数据分布散乱,将会导致以下的问题:</p><p id="1CGQFAMN">①:写入的目标页很可能已经刷新到磁盘上并且从缓存上移除,或者还没有被加载到缓存中,innodb 在插入之前不得不先找到并从磁盘读取目标页到内存中,这将导致大量的随机 IO</p><p id="1CGQFAMO">②:因为写入是乱序的,innodb 不得不频繁的做页分裂操作,以便为新的行分配空间,页分裂导致移动大量的数据,一次插入最少需要修改三个页以上</p><p id="1CGQFAMP">③:由于频繁的页分裂,页会变得稀疏并被不规则的填充,最终会导致数据会有碎片</p><p id="1CGQFAMQ">在把随机值(uuid 和雪花 id)载入到聚簇索引 (innodb 默认的索引类型) 以后,有时候会需要做一次 OPTIMEIZE TABLE 来重建表并优化页的填充,这将又需要一定的时间消耗。</p><p id="1CGQFAMR">自增 ID 的缺点:</p><p id="1CGQFAMS">那么使用自增的 id 就完全没有坏处了吗?并不是,自增 id 也会存在以下几点问题:</p><p id="1CGQFAMT">①. 别人一旦爬取你的数据库,就可以根据数据库的自增 id 获取到你的业务增长信息,很容易分析出你的经营情况</p><p id="1CGQFAMU">②. 对于高并发的负载,innodb 在按主键进行插入的时候会造成明显的锁争用,主键的上界会成为争抢的热点,因为所有的插入都发生在这里,并发插入会导致间隙锁竞争</p><p id="1CGQFAMV">③. Auto_Increment 锁机制会造成自增锁的抢夺,有一定的性能损失</p><p id="1CGQFAN7">OSCHINA 2022中国开源开发者问卷启动</p><p id="1CGQFAN8">你的反馈很重要!</p><p id="1CGQFAN9"><strong>点击下方小程序</strong>立即参与</p><p id="1CGQFANJ">开发者必备的Firfox插件</p>
讯享网

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/157945.html