深入理解为什么MySQL全表扫描很慢？-轻识

先简单回顾下InnoDB数据页长什么样

图1 InnoDB数据页结构示意图（图片来自网络）

其中有的部分没有详细讲解，因为暂时还用不到。比如Page Directory页目录。

上面讲了数据页的内部结构，数据库最终所有的数据都是要放到磁盘上去的，那么大量的数据页在磁盘上是怎么存储的呢？其实数据页之间会通过双向链表连接起来。

图2 数据页双向链表连接起来

内存中的双向链表大家都能理解，那么磁盘上的双向链表是怎么搞的呢？

其实，数据页在磁盘上就是一段数据，里面包含的两个指针，一个指向自己上一个数据页的物理地址，一个指向下一个数据页的物理地址。

每个数据页内部的User Records行记录部分会存储一行一行的数据，这些行数据会按照逐渐的大小进行排序存储，每一行数据都有一个指针指向下一行数据的位置，组成单向链表。

图3 数据页在磁盘文件里的物理存储结构

数据页的页目录是个重要的东西，目录的作用就是方便检索。这里的目录，同样有这样的作用。

页目录里有很多个槽位（slots），这个槽位对应一组数据，可以理解为真实数据与页面中第0个字节之间的偏移量。每个槽中，存放着每个组里最大的那条记录所在页面中的地址偏移量。

页目录就存放的是主键与槽位的映射关系，如图：

图4 页目录

所以说，如果你要根据主键查找一条数据，假设你表里没几条数据，那个表就一个数据页，那就直接在数据页里根据主键二分查找。

通过二分查找在目录里迅速定位到逐渐对应的数据在哪个槽位里，然后到那个槽位里去，遍历槽位里的每一行数据，就能找到那个主键对应的数据了。

如果你没办法使用主键查询，只能进到数据页里，逐条数据遍历查找了。

如果数据页里有很多的数据页，该如何查找呢？

假设你没有建立任何索引，只能从第一个数据页开始遍历所有的数据页，从第一个数据页开始，把每个数据也从磁盘加载到buffer pool的缓存页里去。

如果你是根据主键查找，你可以在数据页的页目录里二分查找，如果是根据其他字段查找，就需要在数据页里顺着单链表遍历了。

这个过程，其实就是全表扫描！

你在没有任何所以的时候，查找数据就是一个全表扫描的过程，就是根据双向链表把磁盘上的数据页加载到磁盘的缓存页里去，然后在缓存页内部查找那条数据。

这个过程是非常满的，所以说当数据量大的时候，全表扫描性能非常低，应该尽量避免全表扫描。

有道无术，术可成；有术无道，止于术

欢迎大家关注Java之道公众号

好文章，我在看❤️