Setup do zero (EKS, AKS ou GKE)
Quando nunca rodou K8s, ou quer rebuild limpo.
Entrega VPC, sub-redes, IAM, IRSA, ALB Ingress, Karpenter, addons (CoreDNS, kube-proxy, CSI), Helm, Argo CD. Tudo via Terraform reutilizável.
Prazo 3 a 5 semanas.
Especialidade Arthos. EKS, AKS, GKE e on-prem.
Operamos clusters em produção. Fazemos setup do zero, take-over de cluster bagunçado, migração de on-prem para a nuvem, otimização de custo, segurança, GitOps e observabilidade. Cluster confiável, deploy rápido, custo sob controle.
Cluster ruim parece com:
kubectl apply direto em prodResolvemos os 6 num projeto típico de 4 a 8 semanas.
Cada um pode ser projeto fechado ou parte de uma squad dedicada.
Quando nunca rodou K8s, ou quer rebuild limpo.
Entrega VPC, sub-redes, IAM, IRSA, ALB Ingress, Karpenter, addons (CoreDNS, kube-proxy, CSI), Helm, Argo CD. Tudo via Terraform reutilizável.
Prazo 3 a 5 semanas.
Quando herdou cluster, ninguém entende, ninguém quer mexer.
Entrega auditoria (segurança, custo, performance, governança), plano de remediação priorizado, execução incremental sem janela.
Prazo auditoria em 2 semanas. Remediação em 4 a 8 semanas.
Quando você sai do datacenter próprio (ou OpenShift/Rancher on-prem) pra EKS, AKS ou GKE.
Entrega avaliação dos workloads, decisão entre replatform e refactor, plano por ondas, replicação de dados, janela de corte ensaiada.
Prazo 3 a 9 meses, dependendo do porte.
Quando conta do cluster doendo, sem visibilidade por time/produto.
Entrega right-sizing por workload (VPA recommendations), Karpenter consolidando, spot com interruption handler, kubecost por namespace, alertas de gasto.
Meta -30% no custo do cluster em 30 dias, mantido em 90.
Quando auditoria reprovou, ou quer prevenir antes de doer.
Entrega Pod Security Standards, NetworkPolicy default-deny, OPA/Gatekeeper com policies, Falco runtime, image scanning (Trivy) no CI, External Secrets + KMS, IRSA fim-a-fim.
Quando "tá lento" e ninguém sabe onde, ou alerta nunca dispara.
Entrega Prometheus + Grafana + Loki + Tempo (ou Datadog/New Relic), dashboards por serviço, SLO/SLI definidos, alertas com runbook, on-call enxuto.
Quando deploy é manual, diferença silenciosa entre ambientes, promoção no peito.
Entrega Argo CD ou Flux, repositório de manifestos (Helm ou Kustomize), promoção por pull request, sincronização automática, app-of-apps, rollback por git.
Quando HPA "ligado" mas nunca escala, ou node-pool fixo desperdiçando.
Entrega HPA com métrica certa (custom/external metrics), VPA onde faz sentido, Karpenter pra node, KEDA pra event-driven (Kafka, SQS, cron).
Quando microserviços precisam mTLS, traffic shifting (canary), retries, observabilidade fina.
Entrega Istio ou Linkerd instalado e operável, mTLS, traffic policy, telemetria, sem virar caixa-preta.
Quando precisa rodar Postgres, Kafka, Redis, etc. no cluster.
Entrega operators apropriados (CloudNativePG, Strimzi, etc.), storage class certa, backup automático testado, HA real.
Quando você nunca testou um restore. Ou seja, não tem backup de verdade.
Entrega Velero pra cluster, backup de volumes, runbook de DR, ensaio de restore real (não simulado).
Quando cada app tem manifest copiado-colado, sem padrão.
Entrega chart-base (templates compartilhados), library chart, pipeline de release de chart, repositório interno.
Não é PowerPoint. É repositório, dashboard e cluster funcionando.
VPC, EKS, AKS ou GKE, addons, IAM e IRSA, node-pools, Karpenter. Tudo como código, com state remoto e CI próprio do Terraform.
Argo CD ou Flux apontando pro repo de manifests. App-of-apps, sync automático, ambientes separados.
Dashboards por serviço, alertas com runbook, SLO/SLI documentados. On-call não vira plantão de UTI.
NetworkPolicy default-deny, OPA com policies, Falco rodando, image scanning no CI, External Secrets + KMS.
Template CI/CD com as etapas: build, teste, varredura de segurança, deploy em homologação, smoke test, deploy em produção com aprovação e rollback.
Chart-base reutilizável, library chart, repositório interno (ECR ou ChartMuseum).
Kubecost por namespace, recomendações de right-sizing, Karpenter ajustado, alertas de gasto.
Como deploy, rollback, escalar, debugar incidente, restore. Versionados no Git.
Sessões práticas: dia-a-dia, kubectl, debug, troubleshooting, on-call. Sem dependência de fornecedor.
Cobertura ampla. Escolhemos por cenário.
Resultado é número, não promessa. Mostramos no dashboard.
Tempo de commit até produção. Meta típica: menos de 30 minutos. Nível DORA elite.
Percentual de deploys que viram rollback. Meta: menos de 10%.
Tempo médio pra recuperar de um incidente. Meta: menos de 30 minutos, com runbook.
SLO definido por serviço (99.5 / 99.9 / 99.95). Error budget visível.
Kubecost mostra gasto por namespace/deployment. Time vê o que paga.
CPU e memória requisitadas comparadas com o uso real. Karpenter consolidando. Meta: acima de 60% de utilização média.
WhatsApp com a frente que precisa: Setup, Take-over, FinOps, Segurança, Observabilidade ou GitOps + uma frase do contexto. Respondemos com call de 30min ou já com plano de auditoria.