Instabilidade na aplicação Neoway Search e nas APIs de pesquisa de dados devido a uma sobrecarga no motor de busca com momentos de paralisação completa. Isso resultou em lentidão e negação de consultas, causando erros nos retornos para os usuários.
Consultas realizadas através da aplicação Neoway Search e APIs foram impactadas pela instabilidade nos períodos mencionados.
Registramos um aumento significativo e inesperado no volume de consultas originadas de nossos clientes. Apesar das configurações de rate-limit existentes, nosso motor de busca não conseguiu lidar com o volume e a complexidade das requisições recebidas. A sobrecarga resultou em lentidão nos nós de dados (data-node) do cluster, o que provocou um represamento de requisições nos nós clientes (client-nodes). Esse represamento aumentou o consumo de recursos nesses nós, agravando ainda mais a lentidão e, em alguns casos, levando à paralisação completa dos mesmos até seu restabelecimento.
Inicialmente, paralisamos todas as operações internas que geram carga adicional nos motores de busca, com o objetivo de aliviar o consumo de recursos. Atuamos diretamente nos nós clientes (client-nodes) do cluster para acelerar o processo de restabelecimento e adicionamos novas máquinas ao ambiente, buscando maior isolamento entre os diferentes segmentos de dados. Também ajustamos as configurações de rate-limit para bloquear o volume atípico de consultas recebido. Além disso, entramos em contato com os clientes responsáveis pelo consumo inesperado para compreender o comportamento e investigar as causas.
Após a aplicação dessas ações, conseguimos restabelecer o equilíbrio entre o consumo e os recursos disponíveis, o que resultou na normalização do ambiente. As medidas foram aplicadas de forma incremental, conforme as anteriores se mostravam insuficientes ao longo das horas e períodos de instabilidade deste incidente.