# 线上事故处理流程

# 及时汇报

任何情况下我的直属领导都应该快速了解问题评估风险,便于应对各种未知情况、协调各种资源,有助于更快更好的解决问题。

# 快速恢复,及时止损

解决问题分临时、短期、长期的方案,短期和长期方案需要一定时间成本和开发资源,我们要做的是在现有可利用资源的基础上争取时间,减少损失。稳定后再进行优化迭代,迭代后必须全面回归。PS:我们需要深刻意识:任何事情都是团队的事情,不是一个人能承担的。

# 快速解决问题的参考步骤

  1. 抛出问题
  2. 定位问题
  3. 评估问题:事故责任人评估线上问题难易级别,个人是否有能力修复,或者如果没有能力评估难易级别,都需要及时反馈,这种时候一定不能英雄主义
  4. 讨论方案:很明确且无复杂逻辑的问题无需讨论方案,第一时间迅速处理;线上问题代码较复杂或业务关联较多,定位问题后,与同事们一起讨论解决方案后再动手处理
  5. 上线回归

# 及时复盘

  1. 回顾问题
  2. 分析原因
  3. 思考不足
  4. 制定对应的改进计划