知识星球产品事故@2017 No.3

2017 年 4 月 12 日中午,小密圈服务器出现故障。故障发生时间 11 时 32 分,11 时 46 分陆续恢复,到 11 时 56 分全部恢复正常。

故障原因是工程师批量更新用户头像,导致用户表被锁,获取用户相关信息的接口被阻塞,进一步导致雪崩。

这次事故导致的问题有:

1. 正常业务请求无法正常响应;
2. 部分用户打开小密圈出现「帐号在其他设备登录」。

故障已在当天修复,您的帐号不会有任何风险,给您带来不便敬请谅解。

小密圈工程师团队在事故后的改进措施是:

1. 更新部署时,不管业务多简单,避开高峰期;
2. 对可能导致锁表的操作,进行速率控制;
3. 进一步优化库表结构;
4. 接入高防机房,防止可能发生的拒绝服务攻击(事故时最初误以为是被攻击)。

发表评论

电子邮件地址不会被公开。 必填项已用*标注