知识星球产品事故@2018 No.2

事故时间:2018-03-01 13:15 – 16:05
原因:遭受分布式拒绝服务攻击(DDoS)

过程:
– 13:17 —— 工程师收到云服务商的DDoS攻击报警。同时云服务自动进行了基础清洗,但攻击流量很快超过了清洗阈值,部分业务不可用。
– 13:27 —— 工程师将被攻击的业务接入云服务商的DDoS高防服务进行流量清洗,被攻击业务恢复正常。工程师陆续将其他业务也接入DDoS高防服务。
– 16:05 —— 全部业务恢复正常。但部分地区的用户会因为高防服务带来的网络延迟而出现访问速度较慢的现象。
– 03-02 14:20 —— 业务访问速度恢复正常。

注:分布式拒绝服务攻击(英语:Distributed Denial of Service attack,缩写:DDoS),是用网络上多台设备,向目标发送大量请求,使目标主机或网络瘫痪的攻击方式。

知识星球产品事故@2018 No.1

2018 年,知识星球的第一次产品事故就这么突然地来了,虽然只有短暂的两分多钟,但我们客服同事们还是收到不少热心用户的反馈,谢谢你们!

事故情况总结如下:

* 时间:2018 年 1 月 5 日 11:22, 14:06 – 14:07, 14:48 – 14:54

* 原因:业务数据库负荷过载

* 详细:知识星球工程师在研发某功能时,需要对一张数据库新表进行 DDL 和批量 DML 操作。但执行过程中未关注数据库负载,未能及时发现数据库过载问题。前两次过载程度较轻,未造成大范围的影响。14:48 开始的一次 DDL 操作导致数据库严重过载,致使业务服务不可用。

继续阅读知识星球产品事故@2018 No.1

知识星球产品事故@2017 No.4

时间:2017-11-05 16:35 ~ 16:50

原因:UCloud Load Balancer(后简称ULB)服务故障

过程:

1. 16:37 —— 知识星球工程师收到内部监控报警,发现API服务异常。交互现象是各终端(APP、Web、小程序)无法刷新时间线(星球列表、动态列表、主题列表等)。

2. 16:50 —— 知识星球工程师确认是ULB服务故障,手动配置跳过了ULB,知识星球服务恢复。并反馈给UCloud团队。

3. 17:45 —— UCloud工程师确认ULB故障修复后,知识星球工程师重新接入ULB。

4. 2017-11-07 18:12 —— 收到UCloud工程师发来的故障报告。如下:

继续阅读知识星球产品事故@2017 No.4

知识星球产品事故@2017 No.2

由于小密圈程序存在 Bug,导致了:

1. 用户可以短时间内超额提现——用户提走了不属于他的钱;
2. 部分费用(会员费)漏记入收款用户的钱包——用户没有收到他应得的钱。

本次事故影响到了 17 位用户,目前已经修正这 17 位用户的账户金额(有些增加,有些减少,但每一笔都有详细记录,可以回溯),少数几位用户的余额会出现负数(因为已经预支了还不属于他的钱)。

对此造成的困扰,我们感到非常抱歉,所幸这个问题不会造成用户的经济损失,我们后续会更加严谨。 继续阅读知识星球产品事故@2017 No.2