Instabilidade/Lentidão no Neoway Search e APIs de Search

Incident Report for Neoway

Postmortem

PROBLEMA

Instabilidade na aplicação Neoway Search e nas APIs de pesquisa de dados devido a uma sobrecarga no motor de busca com momentos de paralisação completa. Isso resultou em lentidão e negação de consultas, causando erros nos retornos para os usuários.

PERÍODOS

  • 1 - Início: 25/07/2025 16:28 - Término: 25/07/2025 17:50 (82 minutos) 
  • 2 - Início: 25/07/2025 18:52 - Término: 25/07/2025 19:44 (52 minutos) 
  • 3 - Início: 26/07/2025 15:41 - Término: 26/07/2025 16:30 (49 minutos)

IMPACTO

Consultas realizadas através da aplicação Neoway Search e APIs foram impactadas pela instabilidade nos períodos mencionados.

CAUSA RAIZ

Registramos um aumento significativo e inesperado no volume de consultas originadas de nossos clientes. Apesar das configurações de rate-limit existentes, nosso motor de busca não conseguiu lidar com o volume e a complexidade das requisições recebidas. A sobrecarga resultou em lentidão nos nós de dados (data-node) do cluster, o que provocou um represamento de requisições nos nós clientes (client-nodes). Esse represamento aumentou o consumo de recursos nesses nós, agravando ainda mais a lentidão e, em alguns casos, levando à paralisação completa dos mesmos até seu restabelecimento.

SOLUÇÃO

Inicialmente, paralisamos todas as operações internas que geram carga adicional nos motores de busca, com o objetivo de aliviar o consumo de recursos. Atuamos diretamente nos nós clientes (client-nodes) do cluster para acelerar o processo de restabelecimento e adicionamos novas máquinas ao ambiente, buscando maior isolamento entre os diferentes segmentos de dados. Também ajustamos as configurações de rate-limit para bloquear o volume atípico de consultas recebido. Além disso, entramos em contato com os clientes responsáveis pelo consumo inesperado para compreender o comportamento e investigar as causas.

Após a aplicação dessas ações, conseguimos restabelecer o equilíbrio entre o consumo e os recursos disponíveis, o que resultou na normalização do ambiente. As medidas foram aplicadas de forma incremental, conforme as anteriores se mostravam insuficientes ao longo das horas e períodos de instabilidade deste incidente.

AÇÕES FUTURAS

  • Executar testes de carga no ambiente para validar as configurações de rate-limit após as alterações realizadas;
  • Avaliar as APIs customizadas impactadas e migrar aquelas que possam utilizar a segunda arquitetura de pesquisa disponível, que não depende do motor de busca (Search Engine) como base, sem prejuízo para o produto;
  • Implementar ajustes nos logs e nas configurações de alertas, garantindo maior visibilidade e capacidade de detecção proativa em casos similares no futuro.
Posted Jul 28, 2025 - 18:47 GMT-03:00

Resolved

Após o monitoramento detectamos que os serviços estão normalizados.
Posted Jul 25, 2025 - 21:36 GMT-03:00

Monitoring

As soluções já estão respondendo normalmente. Continuamos monitorando para garantir a completa normalização.
Posted Jul 25, 2025 - 18:37 GMT-03:00

Identified

Nosso time já identificou a causa raiz da sobrecarga e está atuando para normalização completa das soluções.
Posted Jul 25, 2025 - 18:36 GMT-03:00

Investigating

Instabilidade/Lentidão na aplicação Neoway Search e nas APIs de pesquisa de dados devido a uma sobrecarga no motor de busca, estamos monitorando e investigando possíveis causas.
Posted Jul 25, 2025 - 17:00 GMT-03:00
This incident affected: Neoway | API and Neoway | Plataforma.