# 线上事故处理流程
# 及时汇报
任何情况下我的直属领导都应该快速了解问题评估风险,便于应对各种未知情况、协调各种资源,有助于更快更好的解决问题。
# 快速恢复,及时止损
解决问题分临时、短期、长期的方案,短期和长期方案需要一定时间成本和开发资源,我们要做的是在现有可利用资源的基础上争取时间,减少损失。稳定后再进行优化迭代,迭代后必须全面回归。PS:我们需要深刻意识:任何事情都是团队的事情,不是一个人能承担的。
# 快速解决问题的参考步骤
- 抛出问题
- 定位问题
- 评估问题:事故责任人评估线上问题难易级别,个人是否有能力修复,或者如果没有能力评估难易级别,都需要及时反馈,这种时候一定不能英雄主义
- 讨论方案:很明确且无复杂逻辑的问题无需讨论方案,第一时间迅速处理;线上问题代码较复杂或业务关联较多,定位问题后,与同事们一起讨论解决方案后再动手处理
- 上线回归
# 及时复盘
- 回顾问题
- 分析原因
- 思考不足
- 制定对应的改进计划