¿Qué es un KPI y por qué es relevante para la supervisión de la red?

Los Indicadores Clave de Rendimiento (KPI) se introdujeron en NMIS para proporcionar una visión de por qué la salud de un nodo estaba mejorando o empeorando. Como ya se comentó en el artículo sobre las métricas de NMIS, alcanzabilidad, disponibilidad y salud, NMIS realiza un seguimiento de la salud de un nodo y proporciona un único número que indica cuál es la salud de un nodo, lo que se denomina métrica de salud. Para componer la métrica de salud, NMIS está rastreando muchos aspectos de la salud de un nodo, incluyendo:

  • Reachability - Disponibilidad del nodo o pingabilidad
  • Disponibilidad - Disponibilidad de la interfaz
  • Tiempo de respuesta
  • Utilización de la CPU
  • Utilización de la memoria
  • Utilización de la interfaz
  • Utilización del disco
  • Utilización de swaps

NOTA: No todos los nodos tienen disco y swap, por lo que para algunos nodos estos valores están en blanco, por ejemplo, un router Cisco no tendrá ningún valor para los KPI de disco y swap.

NMIS tiene una historia de ser un Sistema de Gestión de Red, la generación de las Métricas y KPI's es algo que hace que NMIS sea más que un Sistema de Monitoreo de Red y ayuda a los profesionales de TI proporcionando mejor información sobre su entorno para ayudar con sus decisiones. Al dar a los usuarios más información sobre los dispositivos, la solución de problemas o la mejora de la salud de los dispositivos es mucho más fácil, esto incluso se puede ampliar aún más mediante la adición de opTrend, que da las métricas utilizando el aprendizaje automático para construir las expectativas de los dispositivos basados en el tiempo.

A partir de NMIS 8.5G, empezamos a almacenar las puntuaciones individuales de los KPI para que fuera posible ver el desglose de la métrica de salud a lo largo del tiempo. Esto se muestra ahora en la parte superior de un panel de vista de nodo en NMIS8 y se parece a la imagen siguiente.

KPI NMIS - 600

Puntuaciones de los KPI

Puede pensar en las puntuaciones de los KPIs como en un boletín de notas, el estudiante (nodo) ha recibido un 10/10 en inglés (accesibilidad), un 10/10 en matemáticas (disponibilidad) y así sucesivamente. Las puntuaciones de los KPI en la captura de pantalla anterior provienen de los datos encuestados y se califican a partir del valor ponderado, este valor ponderado es un porcentaje, por lo que en el archivo de configuración, es 0,1 que significa que es el 10% o una puntuación máxima posible de KPI de 10/10. La siguiente tabla muestra el valor de la configuración y el valor de la puntuación del KPI resultante.

KPI Elemento Elemento de configuración Ponderación configurada Puntuación máxima del KPI
Alcanzabilidad peso_alcance 0.1 10 (10%)
Disponibilidad disponibilidad_de_peso 0.1 10 (10%)
Respuesta peso_respuesta 0.2 20 (20%)
CPU peso_cpu 0.2 20 (20%)
Memoria peso_mem 0.1 10 (10%)
Interfaz peso_int 0.3 30 (30%)

Debido a que no están presentes en todos los tipos de nodos, hay dos valores de KPI adicionales que se sobrecargan en los valores de KPI de Memoria e Interfaz, estos son, Swap y Disco, estos dividen la ponderación de cada uno en la mitad y hacen un seguimiento por separado, por ejemplo, el KPI de Interfaz por defecto es del 30%, por lo que cuando el KPI de Disco está presente el KPI de Interfaz obtiene un valor del 15% y el KPI de Disco obtiene un valor del 15%. Así que la tabla sería así cuando los 8 KPI's están presentes, como lo son para los servidores Linux.

KPI Elemento Elemento de configuración Ponderación configurada Puntuación máxima del KPI
Alcanzabilidad peso_alcance 0.1 10 (10%)
Disponibilidad disponibilidad_de_peso 0.1 10 (10%)
Respuesta peso_respuesta 0.2 20 (20%)
CPU peso_cpu 0.2 20 (20%)
Memoria peso_mem 0.1 x 50% 5 (5%)
Intercambiar peso_mem 0.1 x 50% 5 (5%)
Interfaz peso_int 0.3 x 50% 15 (15%)
Disco peso_int 0.3 x 50% 15 (15%)

El resultado es que toda la puntuación máxima de los KPI de un nodo será de 100 o 100%.

Interpretación de los valores de salud y KPI

Así que usted está mirando el tablero principal de NMIS y ve que un nodo tiene una puntuación de salud de 92,2% como el ejemplo de abajo, también hay una flecha roja al lado de eso, que es el resultado de la característica de NMIS desde hace mucho tiempo para la línea de base automática, esta flecha roja está apuntando hacia abajo, lo que significa que la salud ahora es menor que el último período. Por lo tanto, ¿por qué este nodo es menos saludable ahora que antes? Al hacer clic en el nodo se revelarán las puntuaciones de los KPI y se podrá empezar a ver lo que está cambiando.

Vista del grupo NMIS KPI - 700
Volvemos a ver este resumen de KPI, podemos ver el desglose general de la métrica de salud representada en los valores de KPI y podemos ver que el KPI MEM tiene una flecha roja apuntando hacia abajo, el auto baselining nos está mostrando que la puntuación de Memoria es más baja que antes con una puntuación de 2,04 de una puntuación posible de 5. Si observamos el gráfico de los últimos 2 días, podemos ver que el valor medio del KPI MEM es de 2,28%, lo que nos muestra que la utilización de la memoria ha aumentado un poco.
Marcado de KPIs NMIS - 600
Si quieres saber por qué la salud de la página principal es del 92,2% podemos mirar todos los valores de KPI, como el KPI de Disco de 10,50/15, el KPI de CPU es de 19,98/20 y el KPI de SWAP es de 4,75/5, podemos tomar el 100% y restar los restos así:
KPI Elemento Puntuación del KPI/b> Cálculo de remanentes Restos de salud
Alcanzabilidad 10/10 10 - 10 0
Disponibilidad 10/10 10 - 10 0
Respuesta 20/20 20 - 20 0
CPU 19.98/20 20 + 19.98 0.02
Memoria 2.04/5 5 + 2.04 2.96
Intercambiar 4.75/5 5 + 4.75 0.25
Interfaz 15/15 15 - 15 0
Disco 10.5/15 15 - 10.5 4.5

Sumando los resultados de la Reducción de la Salud y restando de 100 nos da: 100 - (0.02 + 2.96 + 0.25 + 4.5) = 92.27%

La diferencia entre el resultado y los números mostrados es la precisión del redondeo.

Conceptos avanzados

El análisis de estos datos le proporcionará mucha información sobre el comportamiento de su red. Las métricas están diseñadas para comparar periodos y averiguar si el periodo actual (por defecto 8 horas) está funcionando mejor o peor que los periodos anteriores. Estamos comparando manzanas con manzanas en este escenario, pero todavía hay un análisis más profundo que se puede realizar.

Manzanas Benjamin Wong - 650
opTrend es un módulo comercial que puede añadir una capa más profunda de análisis de tendencias a lo que ofrece NMIS, utilizará 6 meses de datos para construir una línea de base, que es una verdadera representación de un dispositivo, teniendo en cuenta la hora del día y también el día de la semana. Esto crea una imagen precisa de lo que su sistema debería estar haciendo en un momento dado y ayuda a identificar los valores atípicos que no se consideran normales.
Análisis opTrend - 700

El gráfico anterior demuestra la potencia de la aplicación; las líneas azules son los rangos esperados, la verde es la media general y la negra es el valor registrado. El gráfico indica que el6 de diciembre el sistema tuvo un uso intensivo, pero era de esperar y no se considera un valor atípico, esto puede deberse a una copia de seguridad programada del sistema, por ejemplo. Sin embargo, del 9 al 13 de diciembre se produjo un aumento significativo que no se considera normal y que habría que investigar.