1. Infraestructura y Arquitectura Cloud
Patrones, servicios y estrategias para construir sistemas escalables, resilientes y cost-effective en la nube.
1.1 ☁️ Cloud Computing
Qué: Infraestructura y servicios on-demand vía internet.
Por qué: Escalabilidad, pago por uso, global deployment, menor gestión operativa.
Quién: DevOps, Platform Engineers, Cloud Architects.
Esfuerzo: OpEx vs CapEx, facturación mensual variable.
Nota: OpEx (Gastos Operativos) son costos recurrentes como la factura mensual de AWS. CapEx (Gastos de Capital) son inversiones iniciales grandes como comprar servidores físicos. Cloud mueve el gasto de CapEx a OpEx.
Conceptos Relacionados: Para entender las estrategias de Escalabilidad Vertical vs Horizontal que son fundamentales en decisiones de infraestructura cloud, ver Escalabilidad en Arquitectura.
1.2 🌍 Proveedores Cloud
| Proveedor | Qué | Cuándo | Fortalezas |
|---|---|---|---|
| AWS | Líder del mercado, mayor catálogo | Default para mayoría de casos | Madurez, features, ecosistema |
| Azure | Cloud de Microsoft | Empresas Microsoft-centric | Integración .NET, AD, Office 365 |
| GCP | Cloud de Google | ML/AI, analytics, Kubernetes | BigQuery, ML APIs, Kubernetes nativo |
| DigitalOcean | Developer-friendly, simple | Startups, apps pequeñas | Simplicidad, precios claros |
| Hetzner | Europeo, económico | Apps en Europa, cost-conscious | Precio/performance ratio |
1.3 🏗️ Modelos de Servicio
| Modelo | Qué | Gestiona Provider | Gestiona Cliente | Use Case |
|---|---|---|---|---|
| IaaS (Infrastructure) | VMs, networking, storage | Hardware, virtualización | OS, runtime, apps | Control total, lift-and-shift |
| PaaS (Platform) | Runtime, escalado | Infra + OS + runtime | Solo código | Apps web, APIs |
| SaaS (Software) | Aplicación completa | Todo | Solo usar | Gmail, Salesforce, Slack |
| FaaS (Functions) | Funciones serverless | Todo menos función | Solo código de función | Event-driven, APIs ligeras |
| CaaS (Containers) | Orquestación contenedores | Infra + Kubernetes | Contenedores, manifests | Microservicios |
1.4 🚀 Serverless
Qué: Ejecutar código sin gestionar servidores.
Por qué: Cero gestión infra, escalado automático, pago por uso real.
| Servicio | Qué | Cuándo | Pricing |
|---|---|---|---|
| AWS Lambda | Funciones event-driven | APIs, jobs, ETL | Por invocación + GB-segundo |
| Google Cloud Functions | Funciones GCP | Similar Lambda | Por invocación |
| Azure Functions | Funciones Azure | Ecosistema Microsoft | Por ejecución |
| Cloudflare Workers | Edge compute global | Latencia ultra-baja | Por request |
| Vercel | Deploy frontend + serverless | Next.js, frontend | Por función + bandwidth |
Limitaciones:
- Cold starts (500ms)
- Timeout (típico 15min)
- Stateless
- Vendor lock-in
1.5 🐳 Contenedores
| Tecnología | Qué | Cuándo |
|---|---|---|
| Docker | Empaquetar apps con deps | Todo desarrollo moderno |
| Kubernetes | Orquestar contenedores | Prod con >5 servicios |
| ECS | Contenedores AWS-native | Ya en AWS, menos complejidad que K8s |
| Cloud Run | Contenedores serverless GCP | Simplicity + containers |
| Nomad | Orquestador simple | Alternativa K8s más liviana |
1.6 🗄️ Storage
| Tipo | Servicio | Cuándo | Características |
|---|---|---|---|
| Object | S3, GCS, Azure Blob | Archivos, backups, assets | Infinito, económico, durable |
| Block | EBS, Persistent Disk | Discos para VMs/containers | High IOPS, attached a instancia |
| File | EFS, Filestore | Shared filesystem | NFS, múltiples instancias |
| Archive | Glacier, Coldline | Archivos long-term | Ultra-barato, retrieval lento |
1.7 🌐 Networking
| Concepto | Qué | Servicios |
|---|---|---|
| VPC | Virtual Private Cloud | Aislar recursos, subnets públicas/privadas |
| Load Balancer | Distribuir tráfico | ALB, NLB, Cloud Load Balancing |
| CDN | Content Delivery Network | CloudFront, Cloud CDN, Cloudflare |
| DNS | Domain Name System | Route 53, Cloud DNS |
| API Gateway | Entry point APIs | AWS API Gateway, Apigee |
| Service Mesh | Inter-service communication | Istio, Linkerd |
1.8 🔐 Identity & Access
| Concepto | Qué | Servicios |
|---|---|---|
| IAM | Gestión permisos | AWS IAM, GCP IAM |
| SSO | Single Sign-On | AWS SSO, Azure AD |
| Secrets | Gestión credenciales | Secrets Manager, Secret Manager GCP |
| KMS | Key Management | AWS KMS, Cloud KMS |
1.9 📊 Managed Services
1.9.1 Databases
| Tipo | AWS | GCP | Azure |
|---|---|---|---|
| SQL | RDS (PostgreSQL, MySQL) | Cloud SQL | Azure SQL Database |
| NoSQL | DynamoDB | Firestore | Cosmos DB |
| Cache | ElastiCache (Redis) | Memorystore | Azure Cache for Redis |
| Analytics | Redshift | BigQuery | Synapse Analytics |
| Graph | Neptune | - | Cosmos DB (Gremlin) |
1.9.2 Messaging
| Tipo | AWS | GCP | Azure |
|---|---|---|---|
| Queue | SQS | Pub/Sub | Service Bus |
| Streaming | Kinesis | Pub/Sub | Event Hubs |
| Event Bus | EventBridge | Eventarc | Event Grid |
1.10 🌍 Multi-Cloud & Hybrid
Qué: Usar múltiples proveedores o combinar on-prem + cloud.
Por qué: Evitar vendor lock-in, redundancia, mejores precios.
| Estrategia | Qué | Cuándo | Trade-offs |
|---|---|---|---|
| Multi-Cloud | AWS + GCP + Azure | Redundancia, pricing | ✅ Resiliencia; ❌ Complejidad operativa |
| Hybrid | On-prem + cloud | Compliance, legacy | ✅ Gradual migration; ❌ Gestión dual |
| Cloud-Agnostic | Herramientas neutrales | Flexibilidad futura | ✅ Portabilidad; ❌ No usar features específicas |
Herramientas: Terraform, Pulumi, Crossplane
1.11 📍 Edge Computing
Qué: Procesamiento cerca del usuario (edge locations).
Por qué: Baja latencia, menos bandwidth.
| Servicio | Qué | Caso de Uso |
|---|---|---|
| Cloudflare Workers | JS en edge global | APIs ultra-rápidas |
| AWS Lambda@Edge | Lambda en CloudFront | Personalización responses |
| Fastly Compute@Edge | WebAssembly en edge | Custom logic en CDN |
1.12 💰 Cost Optimization
| Técnica | Qué | Cómo | Ahorro |
|---|---|---|---|
| Right-sizing | Ajustar tamaño instancias | Monitorear uso, reducir oversized | 40% |
| Reserved Instances | Compromiso 1-3 años | Comprar RIs para workloads estables | 70% |
| Spot Instances | Capacidad no usada | Workloads fault-tolerant | 90% |
| Auto-scaling | Escalar según demanda | Policies basadas en métricas | 50% |
| S3 Lifecycle | Mover a storage barato | Glacier para archivos viejos | 90% |
| Tagging | Identificar costos | Tags por proyecto/equipo | Visibilidad |
1.13 🏛️ Well-Architected Framework
1.13.1 5 Pilares (AWS)
| Pilar | Qué | Principios Clave |
|---|---|---|
| Operational Excellence | Ejecutar y monitorear | IaC, CI/CD, runbooks |
| Security | Proteger datos y sistemas | Least privilege, encryption, logging |
| Reliability | Recuperarse de fallos | Multi-AZ, backups, chaos engineering |
| Performance | Usar recursos eficientemente | Caching, auto-scaling, CDN |
| Cost Optimization | Evitar gastos innecesarios | Right-sizing, RIs, monitoring |
1.14 🔄 Disaster Recovery
| Estrategia | RTO | RPO | Costo | Descripción |
|---|---|---|---|---|
| Backup & Restore | Horas | Horas | Bajo | Restaurar desde backups |
| Pilot Light | Minutos | Minutos | Medio | Core siempre on, escalar al activar |
| Warm Standby | Segundos | Segundos | Alto | Ambiente reducido siempre activo |
| Multi-Site Active | Instantáneo | Cero | Muy alto | Activo en múltiples regiones |
RTO: Recovery Time Objective (tiempo hasta recuperar)
RPO: Recovery Point Objective (pérdida de datos aceptable)
1.15 🚫 Anti-patrones
| Anti-patrón | Problema | Solución |
|---|---|---|
| Lift-and-shift sin optimizar | No aprovechar cloud | Refactor para cloud-native |
| Sin auto-scaling | Pagar por capacidad ociosa | Implementar auto-scaling |
| Single AZ | Sin redundancia | Multi-AZ deployment |
| Sin tagging | Costos opacos | Tagging strategy |
| Monolito en Lambda | Cold starts enormes | Funciones pequeñas, especializadas |