Gestionar Aprenda a aplicar las mejores prácticas y optimizar sus operaciones.

Apagón de TI de British Airways: ¿Qué salió mal con su centro de datos?

La aerolínea ha culpado a un "error humano" por la interrupción de su centro de datos durante las vacaciones bancarias, pero el Uptime Institute sugiere que puede haber sucedido más que eso.

La explicación ofrecida por British Airways (BA) sobre la causa de la crisis de su centro de datos durante las pasadas vacaciones bancarias es insuficiente, dicen los expertos, quienes ven mal que la aerolínea califique el incidente como un "error humano".

En declaraciones a nuestra publicación hermana en Londres, Computer Weekly, el presidente del Uptime Institute, Lee Kirby, dijo que la frase es utilizada con demasiada frecuencia por las empresas para ocultar una multitud de fallas de diseño y capacitación de centros de datos, causadas por años de subinversión en sus granjas de servidores.

"Hemos recopilado datos de incidentes y llevado a cabo análisis de causa raíz durante más de 20 años y tenemos la mayor base de datos de incidentes para dibujar tendencias a nivel de industria", dijo.

"Una cosa que hemos notado es que el 'error humano' es una etiqueta general que describe los resultados de deficientes decisiones de gestión".

Más de dos décadas han pasado desde que el Instituto Uptime publicó su sistema de clasificación de topología de estándares de niveles (Tier Standards Topology), la cual da a los operadores un control sobre cómo construir redundancia en sus centros de datos, pero parece que el mensaje todavía no está llegando a algunos, dijo Kirby.

"Desde un punto de vista de alto nivel, lo que me preocupa es que todavía tenemos importantes interrupciones en los centros de datos cuando solucionamos este problema hace 20 o más años con la introducción de los estándares de nivel", dijo.

"Si ustedes tuvieran un centro de datos Tier 3 con rutas de distribución y equipos redundantes, no se encontrarían con estos problemas".

Willie Walsh, CEO de la compañía matriz de BA, IAG, confirmó esta semana que el apagón de las vacaciones bancarias de mayo fue causada por un ingeniero desconectando la fuente de alimentación de uno de sus centros de datos, y posteriormente reinstalarla incorrectamente.

Daños mayores a los servidores

Se entiende que esto llevó a una oleada de energía, que causó daños mayores a los servidores que la línea aérea utiliza para ejecutar su línea de registro, manejo de equipaje y sistemas de contacto con el cliente, lo que resultó en vuelos varados en los aeropuertos Heathrow y Gatwick, por casi dos días.

Si el sistema está diseñado adecuadamente, un incidente de esta naturaleza no debería causar un incidente tan grave como el que BA sufrió, pero eso depende en gran medida de cuándo se construyó el sitio en cuestión, informó Chris Brown, CTO del Uptime Institute, a Computer Weekly.

"Cuando se construyeron, algunas de las normas aceptadas por la industria pueden haber sido un único sistema UPS y una sola distribución, porque la mayor parte del equipo en uso en ese momento era un solo puerto, por ejemplo", dijo.

"Las decisiones de la gerencia sobre el presupuesto, el costo y el gasto no han permitido que estas instalaciones se mejoren con el tiempo para mantenerse al día con la demanda y la criticidad de estos sistemas".

En la industria aérea en particular, los operadores de vuelo están bajo una creciente presión para reducir costos frente a la creciente competencia de los transportistas de presupuesto, dijo Kirby, y mantener disponibles sus propiedades de TI puede ser la primera cosa a sufrir.

"Reducir la redundancia de las construcciones es uno de los primeros temas a observar y cuando lo hacen, se ponen en riesgo. Cuando ocurre algo como esto, lo primero que buscan es un técnico o un subcontratista a quien culpar, cuando en realidad se trata de decisiones iniciales de gestión al no apuntalar la infraestructura y no ejecutar programas de entrenamiento para que todo funcion 24/7 ", dijo .

Las fuerzas del mercado también han conspirado para cambiar la forma en que las compañías aéreas utilizan y dependen de sus activos de TI, lo que trae consigo sus propias presiones y problemas, dijo Brown.

"Muchos de los sistemas que las aerolíneas usan han existido desde finales de los setenta y no fueron diseñados realmente para sistemas de cliente, sino que eran para uso interno", dijo.

"A lo largo de los años, los sistemas se han actualizado y modificado, pero no holísticamente, porque reescribir todos los sistemas desde el suelo hasta el uso de múltiples centros de datos y una gran cantidad de redundancia de los activos de TI genera el incurrir en una gran cantidad de costos”, agregó.  “Muchos de los grandes transportistas están siendo presionados por el modelo de aerolínea más económica para reducir sus costos en los vuelos de menor distancia para mantener a los clientes, y lo mismo se aplica a los centros de datos".

Revisión completa

Por esta razón, Kirby y Brown están instando a que BA lleve a cabo una revisión exhaustiva de cómo sus datacenters son diseñados y gestionados, para evitar una repetición de tales problemas en el futuro.

"Lo que necesitan hacer es retroceder y obtener una visión holística de toda la situación", dijo Brown. "¿Cuál es el estado de sus sistemas de TI y las instalaciones que los albergan, y cuál es el estado y la condición de su personal de operaciones, del equipo y del programa? Entonces necesitarán crear un plan para abordar eso. No se abordará en un corto período de tiempo –se necesitará tiempo, dinero e inversión."

Computer Weekly planteó los puntos compartidos por Kirby y Brown con BA, y se le dijo que la compañía está en el proceso de llevar a cabo una revisión exhaustiva.

"No fue un problema de TI –fue un problema de energía eléctrica", dijo un portavoz de BA. "Sabemos lo que pasó, y estamos investigando por qué sucedió."

Investigue más sobre Gestión del centro de datos

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close