1. Skip to content

1. 💀 Post-Mortem Report

1.1 ℹ️ Meta Información

Incidente: [Título del incidente]
Fecha: [YYYY-MM-DD]
Estado: [Draft / Review / Final]
Autores: [Nombres]
Severidad: [SEV-1 / SEV-2 / SEV-3]

1.2 📝 Resumen Ejecutivo

[Resumen de 1 párrafo: qué pasó, impacto, y cómo se resolvió. Para lectura de ejecutivos.]

1.3 📊 Impacto

Duración: [Tiempo total de caída/degradación]
Usuarios afectados: [% o número absoluto]
Pérdida estimada: [Si aplica]
SLA Breached: [Sí/No]

1.4 🕒 Cronología (Timeline)

Todas las horas en UTC

[HH:MM] - Inicio del incidente (alerta disparada o reporte de usuario).
[HH:MM] - Ingeniero on-call recibe alerta.
[HH:MM] - Se identifica la causa raíz preliminar.
[HH:MM] - Se aplica fix temporal (mitigación).
[HH:MM] - Servicio restaurado.
[HH:MM] - Se aplica fix permanente.

1.5 🔍 Causa Raíz (5 Porqués)

¿Por qué falló el sistema? [Respuesta]
¿Por qué ocurrió eso? [Respuesta]
¿Por qué...? [Respuesta]
¿Por qué...? [Respuesta]
¿Por qué...? [Causa raíz fundamental: proceso, falta de test, etc.]

1.6 🛠️ Resolución y Recuperación

[Qué se hizo para mitigar y resolver. Qué funcionó y qué no.]

1.7 🎓 Lecciones Aprendidas

Lo que salió bien:

[ ] Alertas funcionaron rápido.
[ ] Rollback fue exitoso.

Lo que salió mal:

[ ] Logs insuficientes para debuggear rápido.
[ ] Nadie tenía acceso a la DB de producción.

Donde tuvimos suerte:

[ ] Ocurrió en horario de bajo tráfico.

1.8 ✅ Acciones (Action Items)

Tarea	Tipo	Dueño	Prioridad	Ticket
Agregar alerta de latencia	Preventivo	@dev	Alta	JIRA-101
Mejorar documentación de runbook	Proceso	@sre	Media	JIRA-102
Fix bug de race condition	Reparación	@backend	Crítica	JIRA-103

➡️ Ver Ejemplo