31 de mayo de 2018
Gestión avanzada de eventos con opEvents
Últimamente he recibido algunas preguntas sobre cómo nuestros sistemas gestionan los eventos y las interrupciones importantes. Dependiendo de su entorno de resolución, puede llamar a esto una serie de cosas como gestión jerárquica de eventos, deduplicación de eventos o incluso capear tormentas de eventos. Independientemente de la verborrea, el concepto es el mismo: si un dispositivo se cae, ¿su sistema de gestión de eventos envía múltiples notificaciones sobre los nodos dependientes que también se han caído? opEvents gestiona estos eventos con un método increíblemente sencillo, utilizando la deduplicación de estados y la correlación de eventos.
Deduplicación con estado
opEvents utiliza la deduplicación de estados para asegurar que sólo se ha creado un evento para una instancia de un estado. Por ejemplo, si un nodo se registra como caído, se sondea más tarde y sigue caído, esto no generará dos eventos, sino que se considerará un solo evento. Esto depende de que el estado actual siga registrado como caído y el nodo no se considere en una ventana de flap. Se considera que hay un flap si un nodo sube y baja dentro de una ventana determinada (por defecto 90 segundos), esto ayudará a reducir el total de notificaciones de eventos mientras se asegura que se registran los fallos correctos.
Correlación de eventos
El poder de opEvents está encapsulado en cómo maneja la correlación de eventos. Hay un punto en la gestión de fallos en el que un ingeniero de redes preferiría la información correcta en lugar de toda la información. La Correlación de Eventos utiliza este principio para hacer parte del trabajo pesado por usted y darle la información que es más relevante para un problema. Se puede generar un evento sintético que procesará los eventos correlacionados, basándose en la ubicación o la dependencia, por ejemplo, los agrupa y sólo se activa un evento. Esto ayudará a diagnosticar los fallos, pero también a reducir el número de eventos disparados si una ubicación está fuera de servicio. La combinación de estos dos principios puede ayudar a reducir el tiempo de detección de la causa raíz, a la vez que se mantiene una vigilancia sobre su red. Si puede configurar su gestión de eventos con estos principios, estará obteniendo la mejor información para hacer su trabajo, sin el ruido extra. Una pequeña inversión en este proceso le permitirá ahorrar considerablemente a largo plazo. Como siempre, nuestra Wiki de la Comunidad tiene guías detalladas sobre cómo implementar estos conceptos:
- Correlación de eventos
- Correlación de eventos basada en la ubicación
- Deduplicación y control de tormentas en opEvents
Así como algunos seminarios web increíblemente útiles sobre estos temas:
- Gestión de rendimiento y fallos para MSP y empresas
- Configuración de la escalada de eventos y notificaciones
- Gestión inteligente de fallos y configuraciones
Si tiene preguntas sobre cualquier tema, tiene una solicitud de función o cualquier comentario, no dude en ponerse en contacto con nosotros - ¡Aquí!