Especialidade Arthos. EKS, AKS, GKE e on-prem.

Kubernetes em produção, sem terror.

Operamos clusters em produção. Fazemos setup do zero, take-over de cluster bagunçado, migração de on-prem para a nuvem, otimização de custo, segurança, GitOps e observabilidade. Cluster confiável, deploy rápido, custo sob controle.

  • A
    Cluster confiável Setup ou take-over com IRSA, ALB Ingress, Karpenter, addons gerenciados, todos os recursos em Terraform.
  • B
    Deploy rápido GitOps com Argo CD ou Flux. Promoção de dev para homologação e produção por pull request. Rollback é git revert. Padrão único.
  • C
    Custo sob controle Karpenter consolidando, spot seguro, right-sizing por workload, kubecost por namespace. Cluster -30% típico.
Sintoma típico

Cluster ruim parece com:

  • Pod morre e ninguém vê (sem alerta)
  • HPA "configurado" mas nunca escala
  • kubectl apply direto em prod
  • IAM aberto, sem IRSA, sem NetworkPolicy
  • Custo do cluster > receita do produto
  • Deploy é "merge + reza"

Resolvemos os 6 num projeto típico de 4 a 8 semanas.

Serviços Kubernetes

Cada um pode ser projeto fechado ou parte de uma squad dedicada.

Setup do zero (EKS, AKS ou GKE)

Quando nunca rodou K8s, ou quer rebuild limpo.

Entrega VPC, sub-redes, IAM, IRSA, ALB Ingress, Karpenter, addons (CoreDNS, kube-proxy, CSI), Helm, Argo CD. Tudo via Terraform reutilizável.

Prazo 3 a 5 semanas.

Take-over de cluster existente

Quando herdou cluster, ninguém entende, ninguém quer mexer.

Entrega auditoria (segurança, custo, performance, governança), plano de remediação priorizado, execução incremental sem janela.

Prazo auditoria em 2 semanas. Remediação em 4 a 8 semanas.

Migração de on-prem para Kubernetes na nuvem

Quando você sai do datacenter próprio (ou OpenShift/Rancher on-prem) pra EKS, AKS ou GKE.

Entrega avaliação dos workloads, decisão entre replatform e refactor, plano por ondas, replicação de dados, janela de corte ensaiada.

Prazo 3 a 9 meses, dependendo do porte.

FinOps no Kubernetes

Quando conta do cluster doendo, sem visibilidade por time/produto.

Entrega right-sizing por workload (VPA recommendations), Karpenter consolidando, spot com interruption handler, kubecost por namespace, alertas de gasto.

Meta -30% no custo do cluster em 30 dias, mantido em 90.

Segurança no cluster

Quando auditoria reprovou, ou quer prevenir antes de doer.

Entrega Pod Security Standards, NetworkPolicy default-deny, OPA/Gatekeeper com policies, Falco runtime, image scanning (Trivy) no CI, External Secrets + KMS, IRSA fim-a-fim.

Observabilidade

Quando "tá lento" e ninguém sabe onde, ou alerta nunca dispara.

Entrega Prometheus + Grafana + Loki + Tempo (ou Datadog/New Relic), dashboards por serviço, SLO/SLI definidos, alertas com runbook, on-call enxuto.

GitOps (Argo CD ou Flux)

Quando deploy é manual, diferença silenciosa entre ambientes, promoção no peito.

Entrega Argo CD ou Flux, repositório de manifestos (Helm ou Kustomize), promoção por pull request, sincronização automática, app-of-apps, rollback por git.

Autoscaling sério

Quando HPA "ligado" mas nunca escala, ou node-pool fixo desperdiçando.

Entrega HPA com métrica certa (custom/external metrics), VPA onde faz sentido, Karpenter pra node, KEDA pra event-driven (Kafka, SQS, cron).

Service mesh

Quando microserviços precisam mTLS, traffic shifting (canary), retries, observabilidade fina.

Entrega Istio ou Linkerd instalado e operável, mTLS, traffic policy, telemetria, sem virar caixa-preta.

Stateful workloads

Quando precisa rodar Postgres, Kafka, Redis, etc. no cluster.

Entrega operators apropriados (CloudNativePG, Strimzi, etc.), storage class certa, backup automático testado, HA real.

Disaster recovery

Quando você nunca testou um restore. Ou seja, não tem backup de verdade.

Entrega Velero pra cluster, backup de volumes, runbook de DR, ensaio de restore real (não simulado).

Helm charts internos

Quando cada app tem manifest copiado-colado, sem padrão.

Entrega chart-base (templates compartilhados), library chart, pipeline de release de chart, repositório interno.

O que você recebe (Kubernetes)

Não é PowerPoint. É repositório, dashboard e cluster funcionando.

Cluster em Terraform

VPC, EKS, AKS ou GKE, addons, IAM e IRSA, node-pools, Karpenter. Tudo como código, com state remoto e CI próprio do Terraform.

GitOps configurado

Argo CD ou Flux apontando pro repo de manifests. App-of-apps, sync automático, ambientes separados.

Observabilidade ligada

Dashboards por serviço, alertas com runbook, SLO/SLI documentados. On-call não vira plantão de UTI.

Segurança baseline

NetworkPolicy default-deny, OPA com policies, Falco rodando, image scanning no CI, External Secrets + KMS.

Pipeline padrão

Template CI/CD com as etapas: build, teste, varredura de segurança, deploy em homologação, smoke test, deploy em produção com aprovação e rollback.

Helm charts

Chart-base reutilizável, library chart, repositório interno (ECR ou ChartMuseum).

Plano de FinOps

Kubecost por namespace, recomendações de right-sizing, Karpenter ajustado, alertas de gasto.

Runbooks

Como deploy, rollback, escalar, debugar incidente, restore. Versionados no Git.

Treino do seu time

Sessões práticas: dia-a-dia, kubectl, debug, troubleshooting, on-call. Sem dependência de fornecedor.

Stack Kubernetes

Cobertura ampla. Escolhemos por cenário.

Distribuições / managed

EKS AKS GKE Rancher / RKE OpenShift k3s

GitOps & deploy

Argo CD Flux Argo Rollouts Helm Kustomize

Autoscaling

HPA VPA Cluster Autoscaler Karpenter KEDA

Observabilidade

Prometheus Grafana Loki Tempo OpenTelemetry Datadog New Relic

Segurança

OPA / Gatekeeper Kyverno Falco Trivy External Secrets cert-manager Pod Security Standards

Rede & mesh

Cilium Calico Istio Linkerd ALB / NGINX Ingress Gateway API

Storage & stateful

EBS / EFS CSI Velero CloudNativePG Strimzi (Kafka) Redis Operator

CI & build

GitHub Actions GitLab CI Jenkins Tekton Buildpacks Kaniko

Métricas que provamos

Resultado é número, não promessa. Mostramos no dashboard.

Lead time pra deploy

Tempo de commit até produção. Meta típica: menos de 30 minutos. Nível DORA elite.

Change failure rate

Percentual de deploys que viram rollback. Meta: menos de 10%.

MTTR

Tempo médio pra recuperar de um incidente. Meta: menos de 30 minutos, com runbook.

Disponibilidade

SLO definido por serviço (99.5 / 99.9 / 99.95). Error budget visível.

Custo por workload

Kubecost mostra gasto por namespace/deployment. Time vê o que paga.

Utilização do cluster

CPU e memória requisitadas comparadas com o uso real. Karpenter consolidando. Meta: acima de 60% de utilização média.

Falar de Kubernetes

WhatsApp com a frente que precisa: Setup, Take-over, FinOps, Segurança, Observabilidade ou GitOps + uma frase do contexto. Respondemos com call de 30min ou já com plano de auditoria.

WhatsApp

(21) 96825-4697

A mensagem já vem com opções. Marque o que precisa.