1. Skip to content

1. Infraestructura y Arquitectura Cloud

Patrones, servicios y estrategias para construir sistemas escalables, resilientes y cost-effective en la nube.


1.1 ☁️ Cloud Computing

Qué: Infraestructura y servicios on-demand vía internet.

Por qué: Escalabilidad, pago por uso, global deployment, menor gestión operativa.

Quién: DevOps, Platform Engineers, Cloud Architects.

Esfuerzo: OpEx vs CapEx, facturación mensual variable.

Nota: OpEx (Gastos Operativos) son costos recurrentes como la factura mensual de AWS. CapEx (Gastos de Capital) son inversiones iniciales grandes como comprar servidores físicos. Cloud mueve el gasto de CapEx a OpEx.

Conceptos Relacionados: Para entender las estrategias de Escalabilidad Vertical vs Horizontal que son fundamentales en decisiones de infraestructura cloud, ver Escalabilidad en Arquitectura.


1.2 🌍 Proveedores Cloud

Proveedor Qué Cuándo Fortalezas
AWS Líder del mercado, mayor catálogo Default para mayoría de casos Madurez, features, ecosistema
Azure Cloud de Microsoft Empresas Microsoft-centric Integración .NET, AD, Office 365
GCP Cloud de Google ML/AI, analytics, Kubernetes BigQuery, ML APIs, Kubernetes nativo
DigitalOcean Developer-friendly, simple Startups, apps pequeñas Simplicidad, precios claros
Hetzner Europeo, económico Apps en Europa, cost-conscious Precio/performance ratio

1.3 🏗️ Modelos de Servicio

Modelo Qué Gestiona Provider Gestiona Cliente Use Case
IaaS (Infrastructure) VMs, networking, storage Hardware, virtualización OS, runtime, apps Control total, lift-and-shift
PaaS (Platform) Runtime, escalado Infra + OS + runtime Solo código Apps web, APIs
SaaS (Software) Aplicación completa Todo Solo usar Gmail, Salesforce, Slack
FaaS (Functions) Funciones serverless Todo menos función Solo código de función Event-driven, APIs ligeras
CaaS (Containers) Orquestación contenedores Infra + Kubernetes Contenedores, manifests Microservicios

1.4 🚀 Serverless

Qué: Ejecutar código sin gestionar servidores.

Por qué: Cero gestión infra, escalado automático, pago por uso real.

Servicio Qué Cuándo Pricing
AWS Lambda Funciones event-driven APIs, jobs, ETL Por invocación + GB-segundo
Google Cloud Functions Funciones GCP Similar Lambda Por invocación
Azure Functions Funciones Azure Ecosistema Microsoft Por ejecución
Cloudflare Workers Edge compute global Latencia ultra-baja Por request
Vercel Deploy frontend + serverless Next.js, frontend Por función + bandwidth

Limitaciones:

  • Cold starts (500ms)
  • Timeout (típico 15min)
  • Stateless
  • Vendor lock-in

1.5 🐳 Contenedores

Tecnología Qué Cuándo
Docker Empaquetar apps con deps Todo desarrollo moderno
Kubernetes Orquestar contenedores Prod con >5 servicios
ECS Contenedores AWS-native Ya en AWS, menos complejidad que K8s
Cloud Run Contenedores serverless GCP Simplicity + containers
Nomad Orquestador simple Alternativa K8s más liviana

1.6 🗄️ Storage

Tipo Servicio Cuándo Características
Object S3, GCS, Azure Blob Archivos, backups, assets Infinito, económico, durable
Block EBS, Persistent Disk Discos para VMs/containers High IOPS, attached a instancia
File EFS, Filestore Shared filesystem NFS, múltiples instancias
Archive Glacier, Coldline Archivos long-term Ultra-barato, retrieval lento

1.7 🌐 Networking

Concepto Qué Servicios
VPC Virtual Private Cloud Aislar recursos, subnets públicas/privadas
Load Balancer Distribuir tráfico ALB, NLB, Cloud Load Balancing
CDN Content Delivery Network CloudFront, Cloud CDN, Cloudflare
DNS Domain Name System Route 53, Cloud DNS
API Gateway Entry point APIs AWS API Gateway, Apigee
Service Mesh Inter-service communication Istio, Linkerd

1.8 🔐 Identity & Access

Concepto Qué Servicios
IAM Gestión permisos AWS IAM, GCP IAM
SSO Single Sign-On AWS SSO, Azure AD
Secrets Gestión credenciales Secrets Manager, Secret Manager GCP
KMS Key Management AWS KMS, Cloud KMS

1.9 📊 Managed Services

1.9.1 Databases

Tipo AWS GCP Azure
SQL RDS (PostgreSQL, MySQL) Cloud SQL Azure SQL Database
NoSQL DynamoDB Firestore Cosmos DB
Cache ElastiCache (Redis) Memorystore Azure Cache for Redis
Analytics Redshift BigQuery Synapse Analytics
Graph Neptune - Cosmos DB (Gremlin)

1.9.2 Messaging

Tipo AWS GCP Azure
Queue SQS Pub/Sub Service Bus
Streaming Kinesis Pub/Sub Event Hubs
Event Bus EventBridge Eventarc Event Grid

1.10 🌍 Multi-Cloud & Hybrid

Qué: Usar múltiples proveedores o combinar on-prem + cloud.

Por qué: Evitar vendor lock-in, redundancia, mejores precios.

Estrategia Qué Cuándo Trade-offs
Multi-Cloud AWS + GCP + Azure Redundancia, pricing ✅ Resiliencia; ❌ Complejidad operativa
Hybrid On-prem + cloud Compliance, legacy ✅ Gradual migration; ❌ Gestión dual
Cloud-Agnostic Herramientas neutrales Flexibilidad futura ✅ Portabilidad; ❌ No usar features específicas

Herramientas: Terraform, Pulumi, Crossplane


1.11 📍 Edge Computing

Qué: Procesamiento cerca del usuario (edge locations).

Por qué: Baja latencia, menos bandwidth.

Servicio Qué Caso de Uso
Cloudflare Workers JS en edge global APIs ultra-rápidas
AWS Lambda@Edge Lambda en CloudFront Personalización responses
Fastly Compute@Edge WebAssembly en edge Custom logic en CDN

1.12 💰 Cost Optimization

Técnica Qué Cómo Ahorro
Right-sizing Ajustar tamaño instancias Monitorear uso, reducir oversized 40%
Reserved Instances Compromiso 1-3 años Comprar RIs para workloads estables 70%
Spot Instances Capacidad no usada Workloads fault-tolerant 90%
Auto-scaling Escalar según demanda Policies basadas en métricas 50%
S3 Lifecycle Mover a storage barato Glacier para archivos viejos 90%
Tagging Identificar costos Tags por proyecto/equipo Visibilidad

1.13 🏛️ Well-Architected Framework

1.13.1 5 Pilares (AWS)

Pilar Qué Principios Clave
Operational Excellence Ejecutar y monitorear IaC, CI/CD, runbooks
Security Proteger datos y sistemas Least privilege, encryption, logging
Reliability Recuperarse de fallos Multi-AZ, backups, chaos engineering
Performance Usar recursos eficientemente Caching, auto-scaling, CDN
Cost Optimization Evitar gastos innecesarios Right-sizing, RIs, monitoring

1.14 🔄 Disaster Recovery

Estrategia RTO RPO Costo Descripción
Backup & Restore Horas Horas Bajo Restaurar desde backups
Pilot Light Minutos Minutos Medio Core siempre on, escalar al activar
Warm Standby Segundos Segundos Alto Ambiente reducido siempre activo
Multi-Site Active Instantáneo Cero Muy alto Activo en múltiples regiones

RTO: Recovery Time Objective (tiempo hasta recuperar)
RPO: Recovery Point Objective (pérdida de datos aceptable)


1.15 🚫 Anti-patrones

Anti-patrón Problema Solución
Lift-and-shift sin optimizar No aprovechar cloud Refactor para cloud-native
Sin auto-scaling Pagar por capacidad ociosa Implementar auto-scaling
Single AZ Sin redundancia Multi-AZ deployment
Sin tagging Costos opacos Tagging strategy
Monolito en Lambda Cold starts enormes Funciones pequeñas, especializadas

1.16 📚 Recursos