知识星球产品事故@2018 No.1

2018 年,知识星球的第一次产品事故就这么突然地来了,虽然只有短暂的两分多钟,但我们客服同事们还是收到不少热心用户的反馈,谢谢你们!

事故情况总结如下:

* 时间:2018 年 1 月 5 日 11:22, 14:06 – 14:07, 14:48 – 14:54

* 原因:业务数据库负荷过载

* 详细:知识星球工程师在研发某功能时,需要对一张数据库新表进行 DDL 和批量 DML 操作。但执行过程中未关注数据库负载,未能及时发现数据库过载问题。前两次过载程度较轻,未造成大范围的影响。14:48 开始的一次 DDL 操作导致数据库严重过载,致使业务服务不可用。

* 过程:

* 14:50 —— 工程师发现终端无法加载数据;

* 14:52 —— 工程师终止了不恰当的数据库操作,服务恢复;

* 15:05 —— 工程师改用一台独立的数据库服务器,不再影响业务数据库。

发表评论

电子邮件地址不会被公开。 必填项已用*标注