Como la punta de un iceberg, una alerta de TI es la parte que usted ve. Lo que hay debajo de la superficie puede ser algo mucho más grande. Los buenos equipos de operaciones necesitan saber cómo reaccionar.

Las alertas de TI a menudo se dividen en tres categorías principales: advertencias de capacidad, problemas de rendimiento y fallas de disponibilidad. La clave es ver cómo genera la alerta una herramienta que forma parte de un sistema de TI más grande; usted debe poder seguir el flujo desde la alerta hasta los efectos y finalmente hasta la resolución en la causa raíz.

La clave cuando se trata de problemas de capacidad es la tendencia. Si ve una tasa de crecimiento promedio con pocos picos, es probable que sea un comportamiento normal. La solución correcta sería agregar capacidad. Sin embargo, investigue los picos, porque una vez que comience a abordar estos problemas ampliando la capacidad, es casi imposible detenerlos. Necesita investigar. Las reacciones bruscas pueden arreglar las cosas por ahora, pero no resolverán lo que sea que haya causado ese repentino problema de capacidad.

Digamos que el equipo de operaciones se entera de que un servidor o sistema clave se está quedando sin espacio. Con cargas de trabajo virtualizadas, es bastante simple aumentar el espacio. Esa es una solución rápida. Sin embargo, la mayoría de los sistemas no se quedan sin espacio sin mostrar una curva de utilización del espacio constante que debería poder verse en desarrollo durante semanas o meses. Los sistemas que de repente ven un aumento en el uso del espacio y activan alertas deben revisarse.

La tendencia de nuevo será clave aquí. Las estadísticas de rendimiento de un momento en el tiempo no siempre pueden resolver lo que está sucediendo, pero pueden ayudarlo a identificar posibles lugares para comenzar . Y, cuando se combinan con datos históricos, las estadísticas de rendimiento pueden revelar la fuente de su problema. Estos datos dirigirán su atención y lo acercarán a una solución, incluso si no le muestran la causa raíz.

3. Preguntas sobre disponibilidad

Si bien el hardware y otros sistemas pueden fallar abruptamente, es raro que lo hagan. Un gran desafío cuando algo falla es determinar por qué. Esa información se puede perder cuando el personal de TI trabaja rápidamente para restaurar los servicios porque esos reinicios y restauraciones a veces pierden los datos sobre por qué algo falló. Es fundamental capturar todos los datos que pueda antes de comenzar la restauración. Esto puede ser algo tan simple como tomar una foto de un código de error o una pantalla de volcado. Si bien todos los errores deben capturarse en archivos de registro, en realidad, eso no siempre sucede.

Si bien un cambio en un sistema de TI a menudo desencadena un problema de disponibilidad, la falta de cambio también puede tener un efecto. Es fácil para un área de TI ocupada descuidar algunos sistemas, especialmente los que no están orientados al cliente. Los sistemas establecidos para manejar el sistema de nombres de dominio, los protocolos de configuración de host dinámicos, los servicios de administración de claves, etc., realizan sus funciones sin cuidado diario y son fáciles de olvidar. Si no se reinician, parchan o mantienen, estos servicios críticos pueden sucumbir a pérdidas de memoria y fallar. La pérdida de un servidor de administración de claves de Microsoft o algo similar tendrá efectos de amplio alcance en todos los productos de Microsoft en su entorno. Ese tipo de problema puede ser increíblemente difícil de localizar, por lo que debe ser bueno para comprender el flujo de sus aplicaciones.