En qué consiste el almacenamiento auto-recuperable

George Crump

¿Se ha preguntado alguna vez cuál es la principal causa de fallos en las unidades de disco? La respuesta es: ninguna.

Así es. Ninguna. Los fabricantes de discos afirman que casi el 70% de los discos que les devuelven los fabricantes de matrices no presentan ningún problema. ¿Por qué? Porque el calor y las vibraciones pueden causar errores intermitentes en las matrices de almacenamiento, y la única solución que tienen los fabricantes de matrices para explicar esos errores intermitentes es achacarlos a un fallo de los discos.

Como administrador de almacenamiento ¿en qué le afecta a usted? Los discos están aún en garantía, así que ¿por qué preocuparse? He aquí tres razones por las cuales debería hacerlo:

1. Un fallo en una unidad de disco implica un costo en tiempo: embalar la unidad, organizar la recogida con el fabricante, comprar discos de repuesto en caliente para sustituir a los que se acaban de estropear, instalarlos, etiquetarlos, y demás. Si hay algo que un profesional de almacenamiento ocupado no necesita, es más papeleo.

2. También se sufre una degradación en el rendimiento y una penalización en tiempo al tener que efectuar una reconstrucción del RAID (de hasta diez horas en los discos más profundos). Durante la reconstrucción del RAID, se corre el riesgo de sufrir un segundo fallo en otra unidad (probablemente un falso fallo) y, como consecuencia, llegar a sufrir una pérdida total de datos y una recuperación desde el spool de cintas (un fallo del sistema en el que hay que recuperar todos los datos desde unidades de cinta).

3. Aunque nadie admitirá haberlo hecho, se corre el riesgo de retirar físicamente el disco equivocado (lo cual puede llevar también a una pérdida total de datos y a otro suceso de spool de cinta).

El papel fundamental en cualquier sistema de almacenamiento -- la lectura y escritura de datos -- se lleva a cabo mediante unidades de disco. Cualquier interrupción en esta tarea básica provoca una reacción que se extiende a todos los aspectos de la gestión del almacenamiento al disminuir el rendimiento, necesitar la intervención humana y aumentar el riesgo de interrupción del servicio o de pérdida de datos.

Un sistema de almacenamiento que pudiera resolver de forma automática los fallos erróneos de las unidades de disco ahorraría tiempo y dinero a todo el mundo, y eliminaría la introducción de riesgos innecesarios en el entorno de almacenamiento. ¿Qué hay que hacer para que un sistema sea auto-recuperable?

Modificar las carcasas de los discos

La mejor manera de recuperar una unidad de disco consiste, en primer lugar, en evitar las condiciones que provocan los fallos. Antes de abordar cualquier problema de software, parece lógico modificar la ubicación física en la que están ubicados para asegurarse de que se están eliminando las posibles causas de los fallos. Los sistemas actuales pueden alojar 12 o más unidades de disco (todas encendidas) en un chasis 3U prefabricado. Esto genera calor y vibraciones. Reducir el calor y las vibraciones son dos de los principales pasos que un proveedor puede dar para mejorar la fiabilidad de las unidades.

La excesiva vibración de los discos está causada por la forma en que se ensamblan las matrices externas. Los discos se agrupan muy ajustados en una sola bahía, después se montan en bandejas deslizantes para facilitar su acceso y su sustitución. Esto supone que todas las unidades están montadas, todos los discos están girando y todos los cabezales están buscando en la misma dirección. Todo este conjunto genera un exceso de vibraciones armónicas que provocan los suficientes errores de lectura y/o escritura como para suponer que existe un fallo en los discos. Por lo general estos discos “defectuosos” acaban funcionando correctamente cuando son devueltos al fabricante.

La vibración puede provocar fallos en la unidad que vibra demasiado. Y también puede hacer que las unidades vecinas salten durante los procesos de lectura o escritura, de ahí que el controlador externo las califique como defectuosas. Este segundo problema tiene una importancia esencial, ya que puede causar un doble fallo en el disco, primero provocando un fallo en una unidad de una ranura adyacente y luego fallando él mismo. Un doble fallo de los discos en un sistema RAID 5 requiere que los datos se restauren a partir de otra fuente, como las cintas. Llegados a este punto ya no es posible la reconstrucción.

Los fabricantes de discos pueden reducir al mínimo las vibraciones ensamblando rígidamente los componentes de manera que se reduzca el movimiento de los discos al girar, también diseñando individualmente bahías o cajas de modo que tengan la misma rigidez en todo el conjunto. A menudo, en los sistemas de sustitución en caliente, las bahías de las unidades tienen más holgura en la parte frontal que en el fondo, lo cual amplifica las vibraciones en las unidades de la parte delantera.

La única manera en que los fabricantes pueden reducir significativamente la vibración de las unidades es rediseñar la forma en que se agrupan los bastidores de los discos. Hay dos maneras de hacer esto. En primer lugar, los discos deben tener un sentido de giro opuesto (es decir, deben estar instalados de delante hacia atrás/ debe instalarse la parte delantera contra la parte trasera), alternándolos a lo largo de todo el bastidor de la matriz. De esta manera, las vibraciones se amortiguan de un modo natural y se reduce o elimina la vibración por torsión en la carcasa. Hay dos empresas que montan sus unidades con los sentidos de giro opuestos: Xiotech y Copan Systems.

El segundo paso consiste en fabricar un bastidor mejor para los discos y un sistema de bandejas deslizantes que proporcione una mayor rigidez de modo que las unidades de disco no puedan vibrar. La combinación de estas dos técnicas puede reducir la vibración de una manera significativa.

Reducir la acumulación de calor

El segundo método para prevenir fallos en los discos es reducir la acumulación de calor. Los fabricantes pueden lograrlo aumentando y mejorando el flujo de aire en la carcasa de las unidades. Cuando se ve lo apretados que están montados los discos dentro de las cajas, uno se pregunta cómo es posible que haya un flujo de aire por la superficie de los discos. Una solcción sería dejar de montar todas las unidades una junto a otra en la parte delantera de la bahía de discos. Escalonando su colocación hacia el fondo de la bahía se lograría aumentar el espacio entre los discos, mejorando el flujo de aire y reduciendo las vibraciones.

Aunque se puede reducir significativamente la cantidad de fallos mediante el rediseño de la distribución del hardware en la matriz, existen otros fallos en los discos que se pueden abordar haciendo más inteligente al sistema de la matriz de modo que tenga la capacidad de recuperarse por sí mismo.

El paso más sencillo para crear una matriz auto-recuperable es reiniciar la alimentación de la unidad (algo similar a reiniciar un equipo de sobremesa), lo cual suele solucionar el problema. En el caso de un sistema de discos auto-recuperables, el primer intento para recuperar una unidad que muestra signos de fallo consiste en reiniciar o apagar y encender automáticamente la unidad de manera que tenga poco o nulo impacto en las operaciones ordinarias. La clave es realizar todo el proceso dentro de los límites de tiempo de espera de la aplicación, utilizando la caché para gestionar los Input/Output durante la recuperación. Una vez que la unidad vuelve a estar operativa, se comprueba para ver si funciona con normalidad. Todo esto se puede realizar sin necesidad de intervención del usuario.

Muchas veces basta reiniciar o apagar y encender para que se solucione el problema. Aunque la mayoría de los sistemas de matrices y controladoras no pueden hacer esto, compañías como Xiotech están liderando esta iniciativa.

Proceso de reconstrucción

Si reiniciar o apagar y encender la unidad no soluciona el problema, un sistema de auto-recuperación debería tener la capacidad de pasar por un proceso de reconstrucción total. Esto incluye recalibrar los cabezales, realizar un formateo de bajo nivel y volver a escribir las servo-pistas (pistas de control). En la mayoría de los casos, los pasos de apagar y encender la unidad y ejecutar el proceso de reconstrucción harán que la unidad vuelva a estar operativa, ahorrando un tiempo y unos costos significativos al administrador de almacenamiento.  

Una caja de discos que disminuya el calor y las vibraciones, combinada con la capacidad de reconstrucción de los discos, debería eliminar la mayor parte de los fallos. Pero los errores en los discos pueden seguir produciéndose incluso en entornos cuyas condiciones sean las idóneas para los discos. Si a pesar de ello un disco falla, el siguiente paso lógico es aplicar la técnica de fail smart. Los tres aspectos del "failing smart"  incluyen:

1. Recuperar los datos a un nivel granular, como perder sólo un área en vez de todo el disco cuando falla el cabezal. Esto reduce la cantidad de datos que hay que copiar o reconstruir para disminuir el tiempo que lleva la recuperación.

2. Situar la inteligencia encargada de administrar los discos y el RAID dentro de la carcasa de las unidades. Las reconstrucciones exigen un trabajo intensivo a los procesadores; poner la maquinaria para administrar la reconstrucción al nivel de la carcasa de los discos hace que se distribuya la carga del proceso de reconstrucción del RAID y permite que las Input/Output destinadas a otras aplicaciones funcionen sin verse afectadas. Además se garantiza así que no se acumulen retrasos innecesarios en otros procesos productivos.

3. Mejorar la tecnología de sustitución en el sitio. Tener unos discos inactivos permanentemente enchufados supone un despeDRicio de capacidad y de energía. Con la tecnología actual, no es necesario tener discos de repuesto en caliente. La capacidad que no se utiliza debería distribuirse entre todas las unidades disponibles de la matriz, permitiendo aprovechar al máximo esa capacidad (es decir, utilizar todas las unidades para administrar la carga de trabajo, no sólo aquellas unidades que no son de repuesto), reduciendo además el consumo de energía.

Los entornos actuales de TI requieren una base de almacenamiento muy fiable en la que se evite la mayor parte de los fallos… y si no se pueden evitar, resolverlos en el sitio. Una matriz auto-recuperable que elimine hasta el 70% de los fallos en los discos y que pueda cubrir las deficiencias restantes aumentaría la productividad del administrador del sistema y reduciría al mínimo la vulnerabilidad general de los datos.

 

Sobre el autor: George Crump, es el fundador de Storage Switzerland, una empresa de análisis orientada a los mercados de virtualización y almacenamiento. Ofrece consultoría estratégica y análisis a usuarios de almacenamiento, proveedores e integradores. Veterano en el negocio con más de 25 años de experiencia, Crump ha ocupado distintos puestos de dirección ejecutiva y de ingeniería en varios fabricantes e integradores de la industria de TI. Antes de fundar Storage Switzerland, Crump fue director de tecnología (CTO) de uno de los integradores más importantes de E.U..

Vea el próximo ítem en esta guía esencial: Copia de seguridad y recuperación de SAN o vea la guía completa Almacenamiento empresarial: de los fundamentos a los detalles

Unirse a la conversación Comenta

Compartir
Comentas

    Resultados

    Contribuye a la conversacion

    Todos los campos son obligatorios. Los comentarios aparecerán en la parte inferior del artículo