Identificar y remediar un servidor web que falla

Un cliente nuestro se puso en contacto con nosotros recientemente para que le ayudáramos a resolver y reducir potencialmente las interrupciones que estaba experimentando en su sitio web público. El primer paso para ayudar a remediar esta situación fue identificar la causa raíz del fallo.

Indagando en los registros, pudimos identificar que había habido un ataque accidental (tal vez) de denegación de servicio distribuido (DDoS) producido por unos 1200 rastreadores de direcciones IP que sobrecargaron tanto el servidor web como la aplicación, requiriendo un reinicio del servidor. La resolución de este problema singular fue bloquear ese rango de direcciones IP para evitar que esto ocurriera de nuevo. Sin embargo, esto fue sólo una solución parcial, ya que esto podría ocurrir de nuevo desde otro rango.

Aquí es donde empezó a brillar la potencia del software de Opmantek.

En primer lugar, el equipo de ingenieros debe cambiar su mentalidad y pasar de ser reactivo a ser proactivo; identificar la incidencia antes de que se convierta en un problema y tomar medidas automatizadas para evitar una interrupción. Dependiendo de cómo esté configurada su red, de su situación de personal y de sus preferencias personales, puede abordar esta cuestión de diferentes maneras.

Hay varios métodos que se pueden implementar para identificar la causa raíz del impacto del servicio. Desde NMIS, podría ejecutar una comprobación del servicio en el servidor web que busque identificar si la cantidad de conexiones supera un umbral presente. Puede comprobar el número de conexiones abiertas en el servidor web con un comando como

netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n

Un paso más allá y podemos usar una combinación de NMIS y opTrend para monitorear un aumento repentino en la utilización de la CPU/memoria en el servidor y levantar un evento desde allí.

Una vez satisfecha la condición de evento, el siguiente paso es identificar el vector de ataque y remediarlo. En este caso, opEvents podría recuperar y analizar los registros de Apache, identificando el rango de direcciones IP y, a continuación, instruir a opConfig para que reconfigure los cortafuegos y las aplicaciones necesarias para bloquearlos. Nick Day, ingeniero de redes sénior de Opmantek en Asia-PAC, ayudó a otro cliente aprovechando la reparación automatizada; puede descubrir cómo en este blog.

¿No se siente cómodo con este nivel de automatización? Una vez que el evento se identifique correctamente, los ingenieros podrían ser notificados de la situación y, utilizando el Operador Virtual de opConfig, reconfigurar los cortafuegos/aplicaciones para bloquear el ataque DDos y reiniciar cualquier servicio/aplicación/servidor, todo ello sin dar a esos operadores acceso a la línea de comandos o privilegios sudo/root.

Identificar y remediar un servidor web que falla

Recursos relacionados

Recursos que pueden gustarle

Cómo el sistema NMIS de FirstWave podría haber mitigado el apagón de Optus

Formas de gestionar su sistema IoT mediante software de gestión de redes

Aprovechando los Ocho Esenciales de la ACSC: Guía completa para la evaluación de la seguridad de los ocho elementos esenciales

¿Necesita ayuda?