MySQL索引
标签:MySQL

MySQL索引

1. 索引的分类

举例,业务场景,用户表,表结构为:

t_user(
uid primary key,
login_name unique,
passwd,
login_time,
age,
…
);

1.1 聚集索引(Clustered Index)

聚集索引决定数据在磁盘上的物理排序,一个表只能有一个聚集索引,一般用主键来约束

比如上面的 uid

1.2 非聚集索引(non-clustered index)

它并不决定数据在磁盘上的的物理排序,索引上只包含被建立索引的数据,以及一个行定位符 row-locator,这个行定位符,可以理解为一个聚集索引物理排序的指针,通过这个指针,可以找到行数据。

举例,查找年轻MM的业务需求:

select uid from t_user where age > 18 and age < 26;

age上建立的索引,就是非聚集索引。

1.3 联合索引

多个字段上建立的索引,能够加锁复合查询条件的检索

举例,登录业务需求:

select uid, login_time from t_user where login_name=? and passwd=?

可以建立(login_name, passwd)的联合索引。

联合索引能够满足最左侧查询需求,例如(a, b, c)三列的联合索引,能够加速a | (a, b) | (a, b, c) 三组查询需求。相当于创建了(a)单列索引,(a,b)组合索引以及(a,b,c)组合索引,a ab abc为三种标准写法,像其他的如 ba acb bac bca cab cba这六种数据库会自动优化成ababc索引查询。

这也就是为何不建立(passwd, login_name)这样联合索引的原因,业务上几乎没有passwd的单条件查询需求,而有很多login_name的单条件查询需求。

select uid, login_time from t_user where passwd =? and login_name=?

能否命中(login_name, passwd)这个联合索引?

回答:可以,最左侧查询需求,并不是指SQL语句的写法必须满足索引的顺序

1.4 覆盖索引

被查询的列,数据能从索引中获得,而不用通过定位符row-locator再到row上获取,即被查询的列要被所建的索引覆盖,以提高查询速度。

举例,登录业务需求:

select uid, login_time from t_user where login_name=? and passwd=?

可以建立(login_name, passwd, login_time)联合索引,由于login_time已经建立在索引中了,被查询的uidlogin_time就不用去row上获取数据了,从而加速查询。

2. 一些问题

1、索引是用来做什么的?

索引是用来提高查询速度的

2、hash索引比tree索引要快,为什么要设计成树型

对于Hash索引,增删改查的平均时间复杂度为 O(1)

对于Tree索引,增删改查的平均时间复杂度为 O(logn)

可以看到hash索引的无论读还是写,效率都比Tree索引高,为什么还要设计成Tree呢?

索引设计成Tree型,和SQL需求相关

对于单条记录的查询,Hash索引确实比Tree索引快,比如:

select * from t where name = "liuyao";

如果业务需求都是单挑索引的话,可以考虑使用哈希索引

但是对于排序查询的SQL需求:

对于Hash索引,将会退化成O(n)的,但是树型索引,依然能够保持为O(logn)

此外,Innodb不支持hash索引

3、索引为什么使用B+树

对于普通的二叉搜索树,当数据量大的时候,树的高度会比较高,查询会很慢,而且每个节点只有一个记录,可能导致一次查询会有很多次IO。

对于B树:

B树满足局部性原理,什么是局部性原理:

B树为什么适合做索引?

对于B+树:

相对于B树,仍然是m叉搜索,但做了一些改进:

上面的这些改进使得B+树比B树有更多优势:

参考文章:

  1. 数据库索引到底是什么,是怎样工作的?
  2. 数据库索引,到底是什么做的?
  3. 一分钟了解索引技巧
  4. MySQL的or/in/union与索引优化 | 架构师之路
  • 6 min read

CONTRIBUTORS


  • 6 min read