1. Infraestructura y Arquitectura Cloud

Patrones, servicios y estrategias para construir sistemas escalables, resilientes y cost-effective en la nube.

1.1 ☁️ Cloud Computing

Qué: Infraestructura y servicios on-demand vía internet.

Por qué: Escalabilidad, pago por uso, global deployment, menor gestión operativa.

Quién: DevOps, Platform Engineers, Cloud Architects.

Esfuerzo: OpEx vs CapEx, facturación mensual variable.

Nota: OpEx (Gastos Operativos) son costos recurrentes como la factura mensual de AWS. CapEx (Gastos de Capital) son inversiones iniciales grandes como comprar servidores físicos. Cloud mueve el gasto de CapEx a OpEx.

Conceptos Relacionados: Para entender las estrategias de Escalabilidad Vertical vs Horizontal que son fundamentales en decisiones de infraestructura cloud, ver Escalabilidad en Arquitectura.

1.2 🌍 Proveedores Cloud

Proveedor	Qué	Cuándo	Fortalezas
AWS	Líder del mercado, mayor catálogo	Default para mayoría de casos	Madurez, features, ecosistema
Azure	Cloud de Microsoft	Empresas Microsoft-centric	Integración .NET, AD, Office 365
GCP	Cloud de Google	ML/AI, analytics, Kubernetes	BigQuery, ML APIs, Kubernetes nativo
DigitalOcean	Developer-friendly, simple	Startups, apps pequeñas	Simplicidad, precios claros
Hetzner	Europeo, económico	Apps en Europa, cost-conscious	Precio/performance ratio

1.3 🏗️ Modelos de Servicio

Modelo	Qué	Gestiona Provider	Gestiona Cliente	Use Case
IaaS (Infrastructure)	VMs, networking, storage	Hardware, virtualización	OS, runtime, apps	Control total, lift-and-shift
PaaS (Platform)	Runtime, escalado	Infra + OS + runtime	Solo código	Apps web, APIs
SaaS (Software)	Aplicación completa	Todo	Solo usar	Gmail, Salesforce, Slack
FaaS (Functions)	Funciones serverless	Todo menos función	Solo código de función	Event-driven, APIs ligeras
CaaS (Containers)	Orquestación contenedores	Infra + Kubernetes	Contenedores, manifests	Microservicios

1.4 🚀 Serverless

Qué: Ejecutar código sin gestionar servidores.

Por qué: Cero gestión infra, escalado automático, pago por uso real.

Servicio	Qué	Cuándo	Pricing
AWS Lambda	Funciones event-driven	APIs, jobs, ETL	Por invocación + GB-segundo
Google Cloud Functions	Funciones GCP	Similar Lambda	Por invocación
Azure Functions	Funciones Azure	Ecosistema Microsoft	Por ejecución
Cloudflare Workers	Edge compute global	Latencia ultra-baja	Por request
Vercel	Deploy frontend + serverless	Next.js, frontend	Por función + bandwidth

Limitaciones:

Cold starts (500ms)
Timeout (típico 15min)
Stateless
Vendor lock-in

1.5 🐳 Contenedores

Tecnología	Qué	Cuándo
Docker	Empaquetar apps con deps	Todo desarrollo moderno
Kubernetes	Orquestar contenedores	Prod con >5 servicios
ECS	Contenedores AWS-native	Ya en AWS, menos complejidad que K8s
Cloud Run	Contenedores serverless GCP	Simplicity + containers
Nomad	Orquestador simple	Alternativa K8s más liviana

1.6 🗄️ Storage

Tipo	Servicio	Cuándo	Características
Object	S3, GCS, Azure Blob	Archivos, backups, assets	Infinito, económico, durable
Block	EBS, Persistent Disk	Discos para VMs/containers	High IOPS, attached a instancia
File	EFS, Filestore	Shared filesystem	NFS, múltiples instancias
Archive	Glacier, Coldline	Archivos long-term	Ultra-barato, retrieval lento

1.7 🌐 Networking

Concepto	Qué	Servicios
VPC	Virtual Private Cloud	Aislar recursos, subnets públicas/privadas
Load Balancer	Distribuir tráfico	ALB, NLB, Cloud Load Balancing
CDN	Content Delivery Network	CloudFront, Cloud CDN, Cloudflare
DNS	Domain Name System	Route 53, Cloud DNS
API Gateway	Entry point APIs	AWS API Gateway, Apigee
Service Mesh	Inter-service communication	Istio, Linkerd

1.8 🔐 Identity & Access

Concepto	Qué	Servicios
IAM	Gestión permisos	AWS IAM, GCP IAM
SSO	Single Sign-On	AWS SSO, Azure AD
Secrets	Gestión credenciales	Secrets Manager, Secret Manager GCP
KMS	Key Management	AWS KMS, Cloud KMS

1.9 📊 Managed Services

1.9.1 Databases

Tipo	AWS	GCP	Azure
SQL	RDS (PostgreSQL, MySQL)	Cloud SQL	Azure SQL Database
NoSQL	DynamoDB	Firestore	Cosmos DB
Cache	ElastiCache (Redis)	Memorystore	Azure Cache for Redis
Analytics	Redshift	BigQuery	Synapse Analytics
Graph	Neptune	-	Cosmos DB (Gremlin)

1.9.2 Messaging

Tipo	AWS	GCP	Azure
Queue	SQS	Pub/Sub	Service Bus
Streaming	Kinesis	Pub/Sub	Event Hubs
Event Bus	EventBridge	Eventarc	Event Grid

1.10 🌍 Multi-Cloud & Hybrid

Qué: Usar múltiples proveedores o combinar on-prem + cloud.

Por qué: Evitar vendor lock-in, redundancia, mejores precios.

Estrategia	Qué	Cuándo	Trade-offs
Multi-Cloud	AWS + GCP + Azure	Redundancia, pricing	✅ Resiliencia; ❌ Complejidad operativa
Hybrid	On-prem + cloud	Compliance, legacy	✅ Gradual migration; ❌ Gestión dual
Cloud-Agnostic	Herramientas neutrales	Flexibilidad futura	✅ Portabilidad; ❌ No usar features específicas

Herramientas: Terraform, Pulumi, Crossplane

1.11 📍 Edge Computing

Qué: Procesamiento cerca del usuario (edge locations).

Por qué: Baja latencia, menos bandwidth.

Servicio	Qué	Caso de Uso
Cloudflare Workers	JS en edge global	APIs ultra-rápidas
AWS Lambda@Edge	Lambda en CloudFront	Personalización responses
Fastly Compute@Edge	WebAssembly en edge	Custom logic en CDN

1.12 💰 Cost Optimization

Técnica	Qué	Cómo	Ahorro
Right-sizing	Ajustar tamaño instancias	Monitorear uso, reducir oversized	40%
Reserved Instances	Compromiso 1-3 años	Comprar RIs para workloads estables	70%
Spot Instances	Capacidad no usada	Workloads fault-tolerant	90%
Auto-scaling	Escalar según demanda	Policies basadas en métricas	50%
S3 Lifecycle	Mover a storage barato	Glacier para archivos viejos	90%
Tagging	Identificar costos	Tags por proyecto/equipo	Visibilidad

1.13 🏛️ Well-Architected Framework

1.13.1 5 Pilares (AWS)

Pilar	Qué	Principios Clave
Operational Excellence	Ejecutar y monitorear	IaC, CI/CD, runbooks
Security	Proteger datos y sistemas	Least privilege, encryption, logging
Reliability	Recuperarse de fallos	Multi-AZ, backups, chaos engineering
Performance	Usar recursos eficientemente	Caching, auto-scaling, CDN
Cost Optimization	Evitar gastos innecesarios	Right-sizing, RIs, monitoring

1.14 🔄 Disaster Recovery

Estrategia	RTO	RPO	Costo	Descripción
Backup & Restore	Horas	Horas	Bajo	Restaurar desde backups
Pilot Light	Minutos	Minutos	Medio	Core siempre on, escalar al activar
Warm Standby	Segundos	Segundos	Alto	Ambiente reducido siempre activo
Multi-Site Active	Instantáneo	Cero	Muy alto	Activo en múltiples regiones

RTO: Recovery Time Objective (tiempo hasta recuperar)
RPO: Recovery Point Objective (pérdida de datos aceptable)

1.15 🚫 Anti-patrones

Anti-patrón	Problema	Solución
Lift-and-shift sin optimizar	No aprovechar cloud	Refactor para cloud-native
Sin auto-scaling	Pagar por capacidad ociosa	Implementar auto-scaling
Single AZ	Sin redundancia	Multi-AZ deployment
Sin tagging	Costos opacos	Tagging strategy
Monolito en Lambda	Cold starts enormes	Funciones pequeñas, especializadas