1. 💀 Post-Mortem Report
1.1 ℹ️ Meta Información
- Incidente: [Título del incidente]
- Fecha: [YYYY-MM-DD]
- Estado: [Draft / Review / Final]
- Autores: [Nombres]
- Severidad: [SEV-1 / SEV-2 / SEV-3]
1.2 📝 Resumen Ejecutivo
[Resumen de 1 párrafo: qué pasó, impacto, y cómo se resolvió. Para lectura de ejecutivos.]
1.3 📊 Impacto
- Duración: [Tiempo total de caída/degradación]
- Usuarios afectados: [% o número absoluto]
- Pérdida estimada: [Si aplica]
- SLA Breached: [Sí/No]
1.4 🕒 Cronología (Timeline)
Todas las horas en UTC
- [HH:MM] - Inicio del incidente (alerta disparada o reporte de usuario).
- [HH:MM] - Ingeniero on-call recibe alerta.
- [HH:MM] - Se identifica la causa raíz preliminar.
- [HH:MM] - Se aplica fix temporal (mitigación).
- [HH:MM] - Servicio restaurado.
- [HH:MM] - Se aplica fix permanente.
1.5 🔍 Causa Raíz (5 Porqués)
- ¿Por qué falló el sistema? [Respuesta]
- ¿Por qué ocurrió eso? [Respuesta]
- ¿Por qué...? [Respuesta]
- ¿Por qué...? [Respuesta]
- ¿Por qué...? [Causa raíz fundamental: proceso, falta de test, etc.]
1.6 🛠️ Resolución y Recuperación
[Qué se hizo para mitigar y resolver. Qué funcionó y qué no.]
1.7 🎓 Lecciones Aprendidas
Lo que salió bien:
- [ ] Alertas funcionaron rápido.
- [ ] Rollback fue exitoso.
Lo que salió mal:
- [ ] Logs insuficientes para debuggear rápido.
- [ ] Nadie tenía acceso a la DB de producción.
Donde tuvimos suerte:
- [ ] Ocurrió en horario de bajo tráfico.
1.8 ✅ Acciones (Action Items)
| Tarea | Tipo | Dueño | Prioridad | Ticket |
|---|---|---|---|---|
| Agregar alerta de latencia | Preventivo | @dev | Alta | JIRA-101 |
| Mejorar documentación de runbook | Proceso | @sre | Media | JIRA-102 |
| Fix bug de race condition | Reparación | @backend | Crítica | JIRA-103 |