Con la introducción de opCharts v4.2.5 se pueden utilizar datos más ricos y significativos en la toma de decisiones. El refrán dice que quien está prevenido, está armado. Una rápida búsqueda en Google me dice que "el conocimiento previo de posibles peligros o problemas proporciona una ventaja táctica". La razón por la que queremos establecer una línea de base y un umbral para nuestros datos es para poder recibir alertas que nos avisen de problemas en nuestro entorno, de modo que podamos actuar para resolver problemas menores antes de que se conviertan en mayores. Ser proactivo aumenta nuestro tiempo medio entre fallos. Si está interesado en acceder a la herramienta Dynamic Baseline and Thresholding Tool, póngase en contacto con nosotros.

Tipos de métricas

Cuando se analizan los datos de las series temporales, rápidamente se empieza a identificar una tendencia común en lo que se ve, se encontrará que algunas métricas que se están monitoreando serán "estables", es decir, tendrán patrones muy repetidos y cambiarán de manera similar en el tiempo, mientras que otras métricas serán más caóticas, con un patrón discernible difícil de identificar. Tomemos por ejemplo dos métricas, el tiempo de respuesta y el número de rutas (el número de rutas en la tabla de enrutamiento), puedes ver en los gráficos de abajo que el tiempo de respuesta es más caótico con algún patrón pero realmente poca estabilidad en la métrica, mientras que la métrica del número de rutas es sólida, inamovible.

Comparación de las métricas con ellas mismas

Este router albóndiga es un pequeño router de oficina, con poca variación en el enrutamiento, sin embargo un router de distribución WAN sería generalmente estable, pero tendría un poco más de variabilidad. ¿Cómo podría obtener una alarma de cualquiera de estos sin configurar algunos complejos umbrales estáticos?

La respuesta es hacer una línea de base de la métrica tal como es y comparar su valor actual contra la línea de base, este método es muy útil para los valores que son muy diferentes en diferentes dispositivos, pero usted quiere saber cuando la métrica cambia, ejemplo son el número de rutas, el número de usuarios conectados, el número de procesos que se ejecutan en Linux, el tiempo de respuesta en general, pero especialmente el tiempo de respuesta de un servicio.

La herramienta de umbral y línea de base dinámica de opCharts

En general, esto es lo que hace opTrend. El sofisticado modelo estadístico que construye es muy potente y ayuda a detectar estas tendencias con la herramienta de referencia. Hemos ampliado opTrend con algunas funciones adicionales para que pueda obtener rápidamente alertas de las métricas que son importantes para usted.

Lo que es realmente clave aquí es que la herramienta de línea de base detectará los cambios hacia abajo, así como los cambios hacia arriba, por lo que si su tráfico se estaba reduciendo fuera de la línea de base, usted sería alertado.

Establecimiento de una línea de base dinámica

Valor actual

En primer lugar, quiero calcular mi valor actual, podría utilizar el último valor recogido, pero dependiendo de la estabilidad de la métrica esto podría causar falsos positivos, como NMIS siempre ha apoyado, el uso de un período de umbral más grande al calcular el valor actual puede dar lugar a resultados más relevantes.

Para las métricas muy estables, utilizar un periodo de umbral pequeño no es un problema, pero para los valores más salvajes, se aconseja un periodo más largo. Para las alertas de tiempo de respuesta, sería conveniente utilizar un período de umbral de 15 minutos o más. Esto significa que hay un problema sostenido y no sólo un parpadeo de Internet. Sin embargo, con nuestro número de ruta podríamos estar muy contentos de utilizar el último valor y ser advertidos antes.

Línea de base de varios días

Actualmente, la herramienta de línea de base admite dos tipos, el primero es lo que yo llamaría opTrend Lite, que se basa en el trabajo de SEDS y SEDS lite de Igor Trubin, este método calcula el valor medio para una pequeña ventana de tiempo mirando hacia atrás el número de semanas configurado, por lo que si mi línea de base fue de 1 hora durante las últimas 4 semanas y la hora actual es las 16:40 del 1 de junio de 2020, miraría hacia atrás y recogería lo siguiente:

  • Semana 1: de 15:40 a 16:40 el 25 de mayo de 2020
  • Semana 2: de 15:40 a 16:40 el 18 de mayo de 2020
  • Semana 3: de 15:40 a 16:40 el 11 de mayo de 2020
  • Semana 4: de 15:40 a 16:40 el 4 de mayo de 2020

Con la media de cada una de estas ventanas de tiempo calculada, ahora puedo construir mi línea de base y comparar mi valor actual con el valor de esa línea de base.

Línea de base del mismo día

Dependiendo de la estabilidad de la métrica, puede ser preferible utilizar los datos de ese día. Por ejemplo, si tiene un valor ascendente y descendente, podría ser preferible utilizar sólo las últimas 4 a 8 horas del día para su línea de base. Tomemos como ejemplo este tráfico de la interfaz, la tasa de entrada mientras que la tasa de salida es estable con una meseta repentina y luego es estable de nuevo.

asgard-bits-por-segundo - 750

Si se tratara de un patrón semanal, la línea de base de varios días sería una mejor opción, pero si esto ocurre de forma más aleatoria, el uso del mismo día generaría un evento inicial en el aumento, luego el evento se borraría cuando los ~8Mbps se volvieran normales, y luego cuando el valor cayera de nuevo se generaría otra alerta.

Línea de base Delta

La línea de base delta sólo se refiere a la cantidad de cambio en la línea de base, por ejemplo, a partir de una muestra de datos de las últimas 4 horas veríamos que la media de una métrica es 100, entonces tomamos el valor actual, por ejemplo, el pico de 145 abajo, y calculamos el cambio como un porcentaje, que sería un cambio del 45% que resulta en un nivel de evento crítico.

amor-numproc - 750

La configuración de la línea de base delta permite entonces definir el nivel del evento basado en el porcentaje de cambio, para los valores predeterminados, esto resultaría en un Mayor, puede ver la configuración en el ejemplo siguiente, esta tabla es la forma de visualizar la configuración.

  • 10 - Advertencia
  • 20 - Menor
  • 30 - Mayor
  • 40 - Crítico
  • 50 - Fatal

Si el cambio es inferior al 10% el nivel será normal, entre el 10% y el 20% menor, y así hasta más del 50% se considerará fatal.

En la práctica, este pico fue breve y utilizando el periodo de umbral de 15 minutos (la corriente es la media de los últimos 15 minutos) el valor para calcular el cambio sería de 136 y el cambio resultante sería del 36%, por lo que se trata de un evento importante. El período de umbral amortigua los picos para eliminar los cambios breves y permitirle ver los cambios que duran más tiempo.

Instalación de la herramienta de referencia

Copie el archivo en el servidor y haga lo siguiente, la actualización será el mismo proceso.

tar xvf Baseline-X.Y.tgz
cd Baseline/
sudo ./install_baseline.sh

Trabajar con la herramienta de umbralización y línea de base dinámica

La Herramienta de Umbral y Línea de Base Dinámica incluye varias opciones de configuración para que pueda ajustar el algoritmo para que aprenda de forma diferente según la métrica que se utilice. La herramienta viene con varias métricas ya configuradas. Es un requisito del sistema que se complete el modelado de las estadísticas para la métrica que se requiere como línea de base, así es como la API de NMIS extrae la información estadística de la base de datos de rendimiento.

Conclusión

Para más información sobre los pasos de instalación y configuración necesarios para implementar la herramienta de Línea de Base Dinámica y Umbral de opCharts, está todo detallado en nuestra documentación - aquí.