Indisponibilidade na API On-Demand

Incident Report for Neoway

Postmortem

PROBLEMA

Indisponibilidade da API OnDemand em decorrência da realização de manutenção emergencial na infraestrutura da solução de coleta de dados em tempo real (streaming).

PERÍODO

  • Data Início: 05/11/2025 - 16:47
  • Data Término: 05/11/2025 - 17:30
  • Total: 43 minutos

IMPACTO

Durante o período mencionado, a API OnDemand apresentou indisponibilidade, retornando o status 500 - Internal Server Error para as requisições recebidas.

CAUSA RAIZ

Durante o processo de monitoramento ativo de nossas soluções, identificamos a necessidade de uma intervenção manual em nosso sistema de coleta de dados para garantir sua continuidade operacional dentro dos requisitos mínimos estabelecidos. Devido à criticidade e possível impacto arquitetural de um incidente na solução, realizamos uma intervenção emergencial para ajuste do tamanho da máquina, estimando possíveis instabilidades nas respostas da API em uma janela de até 10 minutos.

Entretanto, após a primeira intervenção, o sistema não retomou o comportamento esperado, sendo necessárias novas ações até sua completa normalização — o que resultou nos períodos de indisponibilidade mencionados.

As intervenções ocorreram nas máquinas responsáveis pela execução do broker de mensagens do fluxo de dados em tempo real (streaming).

SOLUÇÃO

Após a finalização dos ajustes necessários nas máquinas a API OnDemand voltou a responder normalmente.

AÇÕES FUTURAS

  • Garantir que todas as APIs externas estejam conectadas à página de status (https://status.neoway.com.br\).
  • Revisar os fluxos de comunicação internos e externos, com o objetivo de incluir também comunicados de manutenções emergenciais realizadas que visam antecipar possíveis incidentes.
  • Incluir informações adicionais nos logs de erro da API OnDemand, com o intuito de aumentar a agilidade na identificação da causa raiz em eventuais incidentes e facilitar a correlação entre falhas e componentes impactados.
  • Revisar os parâmetros de alerta e monitoramento relacionados à degradação de performance, uso de recursos e eficiência de custo da solução de coleta de dados em tempo real (streaming) e implementar alertas preditivos que permitam planejar intervenções preventivas durante janelas de manutenção regulares, reduzindo a necessidade de ações emergenciais.
  • Revisar os alertas existentes relacionados a retornos de erro da API, com o objetivo de distinguir claramente erros provenientes de fontes externas daqueles causados por falhas internas que exijam intervenção imediata do time responsável.
Posted Nov 12, 2025 - 09:21 GMT-03:00

Resolved

Indisponibilidade da API OnDemand em decorrência da realização de manutenção emergencial na infraestrutura da solução de coleta de dados em tempo real (streaming). Após a intervenção e aplicação dos ajustes necessários API voltou a responder normalmente.
Posted Nov 05, 2025 - 16:30 GMT-03:00