Cómo gestionar la capacidad, antes de que se convierta en un problema.

La gestión de la capacidad es la gestión proactiva de cualquier recurso finito medible.

Este blog le ayudará con un esquema sencillo de seguir sobre cómo gestionar adecuadamente la capacidad, de modo que si alguna vez tiene que resolver problemas de capacidad, estará por delante y listo para aplicar la corrección.

La gestión de la capacidad ha sido considerada por muchos como algo difícil de conseguir. Pero todos los logros que merecen la pena requieren disciplina para su ejecución y cumplimiento. Así que, con una cuidadosa consideración, supervisión y planificación, puedes asegurarte de que sea manejable y entregable.

No hay que olvidar que, como parte de cualquier nuevo despliegue o actualización, y en la medida en que el presupuesto lo permita, la demanda adicional debe incorporarse al diseño, con capacidad adicional lista para dar servicio a los nuevos picos de capacidad. La nueva carga máxima se contabiliza y se crean nuevas líneas de base.

Parálisis del análisis

El concepto general es que no se crean informes sólo por crearlos. Puede que la gente los lea una vez y nunca más. Pero al estar automatizados, se seguirán enviando y quedarán sin abrir, filtrar o archivar. Este no es el resultado que usted desea.

El comportamiento que quiere impulsar es que la gente utilice sus informes. Por lo tanto, cree informes que impulsen acciones. Por ejemplo, los informes sobre el estado de los nodos pueden proporcionar listas de comprobación para impulsar la resolución diaria de problemas, marcar las revisiones de mantenimiento, aplicar el mantenimiento o la reparación de los dispositivos. Utilice los informes de eventos diarios para ayudar al equipo de ingeniería a entender cuál es el ruido de fondo normal y la estática en su red o para impulsar una limpieza. Y, por supuesto, informes semanales o mensuales. Por ejemplo, un informe de la WAN/interfaz para respaldar el ancho de banda y la inversión en equipos puede que sólo necesite producirse mensualmente, pero un recurso de consumo de capacidad de crecimiento más rápido debería producirse semanalmente.

Detección de problemas de capacidad mediante la gestión de umbrales.

El problema con los problemas de capacidad es que pueden presentarse de muchas maneras diferentes, con el resultado de que algo no está funcionando como era, o debería ser. Al igual que lo que hablé en mi blog sobre la congestión del ancho de banda, un usuario informará de que "alguna aplicación" no funciona como lo hacía ayer, una alarma de umbral de capacidad se ha disparado. Si quieres aprender sobre el análisis de la causa raíz, echa un vistazo al vídeo de Marks aquí -> MARKS WEBINAR.

Uso de los productos Opmantek para gestionar la capacidad

Añade tus dispositivos a NMIS (y de paso, asegúrate de tener una convención de nombres a seguir, tener todo el SNMP hecho y tu red documentada)

IP, Nombre y Cadena de Comunidad
Asignar funciones a los dispositivos (utilizar el núcleo, la distribución y el acceso incorporados)

Preparar la visibilidad

Establezca informes periódicos con la ayuda de opReports
1. Si gestiona una red, seleccione los informes de red
2. Si gestiona servidores, utilice el informe de capacidad
3. Si gestionas servidores y redes haz los pasos a + b
4. Establezca la programación - Haga que le envíen un correo electrónico una vez a la semana a tiempo para su sesión de planificación y revisión del rendimiento.
Configurar cuadros de mando de capacidad, utilizar las vistas de TopN en opCharts
1. Añade TopN y mapas de red a tu vista (buena práctica)
2. Cree gráficos para sus recursos más importantes

Alarma y notificaciones sencillas

Habilitar notificaciones para problemas de capacidad de recursos críticos - Comience con Crítico y Fatal sólo de esta lista Normal/Advertencia/Menor/Mayor/Crítico/Fatal.

Añade más adelante, a medida que vayas adquiriendo conocimientos.

Configure la notificación por correo electrónico a los equipos adecuados en función del rol (Core, Distribution Access) o del tipo de dispositivo (Server, Router, Switch) para que se envíen los eventos de umbral.

Tendencias - para la planificación predictiva de la capacidad

Activar opTrend para encontrar anomalías en el uso (eventos) y recursos que tienen una tendencia continua fuera de lo normal (cartelera)
1. Notificar sobre eventos críticos del umbral de opTrend.
2. Revise la cartelera opTrend Top of The Pops en sus reuniones periódicas de revisión de capacidad.

Pasos sencillos a la hora de gestionar los problemas de capacidad como incidentes.

Aunque no es lo ideal, los problemas/incidentes que se ven en el servicio de asistencia técnica podrían tener su origen en un cambio que tuvo lugar en la red o en el entorno. En el mundo real, incluso la mejor implementación de la gestión de cambios o una interrupción pueden causar un problema de capacidad en algún lugar y activar una alarma.

Pregunte. ¿Qué ha cambiado? ¿Ha cambiado algo en el entorno?

Normalmente, el incumplimiento del umbral de capacidad es un indicador de:

¿Un nuevo servicio añadido?
¿Una nueva demanda?
¿Un cambio de red?
¿Algún otro cambio?
Un activo finito que alcanza una capacidad predeterminada

Enfoques de la línea de base para la supervisión y el apoyo:

Examine todos sus recursos y revise y clasifique sus tipos de recursos, por ejemplo, conexiones a Internet, enlaces a sitios, etc. Para cada categoría concluya algunos niveles de uso de referencia como porcentajes (Fatal, Crítico, Mayor, etc.) que serán su línea de base inicial. Es fundamental conocer su línea de base, ya que todas las alarmas de umbral se activarán en los niveles que usted establezca y sus notificaciones de alarmas de umbral deben ser sólo para las alarmas más graves. Usted no quiere "dar la voz de alarma".

Considere la posibilidad de agrupar sus recursos, por ejemplo Núcleo, Aplicación, DMZ, Borde, Sucursal, Enlaces de Internet, WAN general, etc.

Y dentro de cada grupo, considere los siguientes recursos que desea supervisar:

Utilización de la CPU, la memoria y el ancho de banda

Empiece por utilizar umbrales generales para cada uno de ellos, basados en los picos de demanda que haya observado.

Estos son sus avisos proactivos que enviarán una alarma a su plataforma de gestión. Es posible que desee establecer algunas reglas de escalamiento para el recurso, por ejemplo:

85% - 95% → Mayor → Notificación de alarma (horario laboral) → al equipo de capacidad.

>95%+ → Crítico → Notificación de alarmas (24×7) → helpdesk/NOC

Utilizando el análisis de tendencias proporcionado por opTrendse puede identificar un uso muy anómalo (es bajo cuando normalmente debería ser alto a esa hora del día) o mirar proactivamente los recursos que tienen una tendencia al alza o a la baja frente a sus niveles normales. De este modo, podemos empezar a revisar el recurso con antelación para realizar las modificaciones oportunas (actualización, reducción, descarga de trabajo, etc.). A medida que la red sigue creciendo y soportando nuevos servicios, la línea de base cambiará con el tiempo (línea de base deslizante), por lo que los problemas de capacidad pueden "aparecer", ya que los umbrales de alarma pueden no ser superados todo el tiempo para enviar una alerta. Es importante observar la "tasa de cambio" de la línea de base a lo largo del tiempo para determinar las necesidades de capacidad (por ejemplo, un cambio del 10% en un período de una semana). Al planificar el aumento de la capacidad, asegúrese de tener en cuenta el tiempo de adquisición y aprovisionamiento.

He mencionado la línea de base deslizante y el seguimiento de la tasa de cambio de la línea de base para que los problemas de capacidad no se "arrastren"