Case

Monitoramento de Transporte Público

Sobre a Pax Tecnologia

A Pax Tecnologia é parceira AWS Select Tier especializada em SecOps, Cloud Foundation e Monitoramento. Com 20 anos de experiência em projetos complexos, a Pax transforma ambientes caóticos em plataformas enterprise-grade que combinam velocidade, estabilidade e economia.

Transporte Público Alcança 99.9% Uptime com Monitoramento Proativo

Saiba como a Pax Tecnologia utilizou Amazon CloudWatch, EventBridge e Lambda para implementar monitoramento de processos de negócio end-to-end, reduzindo tempo de detecção de problemas de 4 horas para 5 minutos.

Visão Geral

Uma empresa líder no setor de serviços de transporte público com operações críticas 24/7 enfrentava desafio comum: monitoramento focado apenas em infraestrutura (CPU, memória, disco) não detectava problemas reais de negócio. Sistemas podiam estar “saudáveis” em métricas tradicionais enquanto processos críticos falhavam silenciosamente, descobertos apenas quando clientes reclamavam horas ou dias depois.

A Pax implementou monitoramento proativo de processos de negócio com CloudWatch, Lambda e EventBridge obtendo resultados expressivos: MTTD de 4h para 5min, MTTR de 6h para 30min, uptime de 96% para 99.9%.

Oportunidade | O Problema do Monitoramento Tradicional

A empresa operava sistemas críticos de bilhetagem eletrônica processando milhões de transações diárias. O monitoramento existente focava em métricas de infraestrutura: CPU de servidores, uso de memória, espaço em disco, latência de rede. Alertas disparavam quando thresholds eram ultrapassados.”O problema é que você pode ter 100% de CPU disponível, memória sobrando, e ainda assim o processo de fechamento de bilhetagem pode estar travado há 3 horas,” explica o Diretor de Operações. “Descobríamos problemas quando clientes ligavam reclamando de relatórios não gerados ou valores incorretos.”

Processo de Fechamento Travado:

Job crítico de fechamento de bilhetagem executando mas travado em um ponto. Infraestrutura saudável (CPU, memória normais).
Descoberto apenas 8 horas depois quando relatórios não chegaram ao cliente no horário esperado.

Integração com Parceiros Quebrada:

API de parceiro retornando erro 500 silenciosamente.
Sistema retentando indefinidamente sem sucesso.
Métricas de infraestrutura normais.
Transações acumulando em fila sem processar.
Cliente notou ausência de dados 12 horas depois.

Database Deadlock Intermitente:

Queries específicas entrando em deadlock sob condições de carga.
Não detectado por monitoramento de CPU/memória.
Performance degradando lentamente.
Usuários finais reclamando de lentidão mas root cause não identificado por dias.

Batch Jobs Falhando Silenciosamente:

Jobs agendados falhando mas processo pai reportando sucesso.
Logs não monitorados centralmente.
Dados não sendo processados.
Impacto acumulando silenciosamente por semanas.

Solução | Monitoramento de Processos de Negócio

A Pax implementou observabilidade com abordagem focada em validar a execução correta dos processos de negócio, não apenas a saúde da infraestrutura.

Fase 1 – Mapeamento (1 semana):

Identificação de 15 processos críticos: fechamento bilhetagem (deadline 06:00), sincronização parceiros (tempo real), processamento recargas (SLA 30s).
Definição de SLAs e KPIs por processo.

Fase 2 – Instrumentação CloudWatch (2 semanas):

Custom metrics: transações/min, taxa sucesso, latência end-to-end, profundidade filas.
CloudWatch Logs Insights com queries estruturadas.
Alarmes com anomaly detection ML.

Fase 3 – Automated Response (2 semanas):

Event-driven architecture: CloudWatch Alarm → EventBridge → Lambda orchestrator executando remediation automática (aumentar connection pool, reiniciar processo travado, ativar circuit breaker).

Fase 4 – Dashboards (1 semana):

Executivo (uptime, SLA compliance, MTTD/MTTR)
Operações (status real-time, health checks)
Negócios (transações, receita, comparações)

Resultado | Proatividade ao Invés de Reatividade

Detecção e Resolução:

MTTD: 4h → 5min (4800% mais rápido)
MTTR: 6h → 30min (92% redução)

Disponibilidade:

Uptime: 96% → 99.9%
Incidentes: 15-20/mês → 2-3/mês (85% redução)

Satisfação:

NPS: 45 → 72 (60% melhoria)
Chamados suporte: 400/mês → 100/mês (75% redução)

Eficiência:

On-call: 8-12 escalações/semana → 1-2/semana (80% redução)
Root cause: dias → minutos (95% mais rápido)

Arquitetura AWS:

CloudWatch (500+ custom metrics, 5TB/mês logs, 150+ alarms)
Lambda (25 functions remediation, <10s execution)
EventBridge (routing multi-canal)
SNS (alerts por severidade)
Systems Manager (parameter store, runbooks)