TiDB故障处理之让人迷惑的Region is Unavailable
背景
最近某集群扩容了一批物理机,其中 TiKV 节点有6台机器12个实例,同时调整了 label 设置增加了一层机柜级容灾。因为前期做了比较充分的准备工作,到了变更窗口只等着执行
scale-out
就行,操作过程也很顺利,很快就把所有节点都扩进去了,检查完各实例的运行状态,确保region已经开始正常调度,就放心去睡觉了(半夜变更,结束时凌晨1点左右)。
第二天一大早还在上班路上,业务方反馈数据库有部分SQL报错
Region is Unavailable
,怀疑新扩容的 TiKV 节点出了问题,火速赶到公司开始排查。
此时内心os,打工人1024不加班的小小心愿要破灭了。。