Reconstrucciones más rápidas de las unidades de disco: aspectos clave

Puede que una RAID no sea la mejor opción para unidades de gran capacidad. Quizá sea el momento de replantearse sus estrategias de reconstrucción.

Se ha hablado mucho sobre cómo reducir los tiempos de reconstrucción de las unidades de disco de gran capacidad en los entornos de almacenamiento actuales. En la actualidad, las soluciones tecnológicas que posibilitan procesos de reconstrucción rápidos están muy extendidas, pero son muchos los usuarios que siguen sin pensar en términos de RAID de haDRware y tiempos de reconstrucción de las unidades individuales. Y aquí es donde podemos introducir un nuevo punto de vista en el debate: quizá la mejor forma de acortar los tiempos de reconstrucción sea no tener que llevar a cabo esa reconstrucción en un primer momento.

Aproximadamente el 50% de las unidades SATA averiadas y devueltas a sus fabricantes reciben un diagnóstico ""sin errores"" y vuelven a entrar en servicio como unidades de repuesto que suelen funcionar como si fueran nuevas. Esto se debe a que las unidades SATA fueron diseñadas, en un primer momento, para oDRenadores portátiles y de sobremesa de poca capacidad, en vez de para matrices corporativas de alto rendimiento y, por tanto, en ocasiones, experimentan ralentizaciones de rendimiento que hacen que, en el diagnóstico, parezca que el disco no responde. Por esta razón, varios fabricantes han introducido una solución tecnológica que se encarga de detectar estos casos y de determinar si el disco está fallando realmente o si sólo está experimentando una ralentización intermitente. Es importante entender esta tecnología, porque reduce el riesgo de que se produzca una péDRida de datos en el caso hipotético de que una segunda unidad fallase durante la reconstrucción.

Antes de decidir qué estrategia o fabricante responde mejor a sus problemas de reconstrucción RAID, echemos la vista atrás. El término RAID, o matriz redundante de discos independientes (y económicos), se acuñó a finales de la década de los 80 para describir un método que servía para proteger las unidades de disco de una matriz. A pesar de los intentos de estandarización del ahora desaparecido consejo asesor RAID Advisory BoaDR, la mayoría de fabricantes desarrollaron sistemas de protección que encajaban en la definición básica de RAID pero variaban mucho, unos de otros, en cuanto a su implementación. Sea cual sea la estrategia que se adopte, los tiempos de reconstrucción de la RAID en la placa base serán más largos cuanto mayor sea el tamaño de la unidad de disco. Esto se debe a que hay más datos que copiar o reconstruir debido a la paridad. En caso de que falle una sola unidad de disco en la mayoría de modos RAID, los datos se quedarán desprotegidos hasta que finalice la reconstrucción de la RAID y dichas reconstrucciones consumen un porcentaje considerable de la potencia de procesamiento.

Sin embargo, existen formas de que los datos permanezcan protegidos en caso de que falle un solo disco. Los usuarios pueden implementar una RAID 6 de doble paridad, que permite que los datos sigan disponibles en caso de que fallen dos unidades en un solo grupo RAID, o ir un paso más allá e implementar una tecnología de replicación remota no sólo para protegerse ante una avería en una unidad, sino también para mantener los datos disponibles en caso de que falle todo el sitio. Pero hay ciertos costos asociados a cada una de las capas de protección que se añadan y éstos deben ser sopesados en relación al valor de los datos que van a proteger. La sobrecarga necesaria para asignar un porcentaje de la capacidad a la protección de datos es, en algunos casos, tres o cuatro veces superior a la cantidad de datos almacenados.

Con la llegada de las unidades de disco Serial ATA (SATA) de 1 TB y gran capacidad, el problema se agrava. La velocidad de giro de las unidades SATA es menos de la mitad que la de las unidades de canal de fibra (FC), pero las primeras almacenan hasta 1 TB (el doble de capacidad que las unidades de FC). Sin embargo, la densidad de la unidad no compensa el hecho de que su velocidad de rotación sea más lenta. La latencia media de una unidad de disco de 7 200 rpm es más del doble que la de una unidad de 15 000 rpm. Con unidades SATA de 1 TB, las reconstrucciones podrían alargarse varios días dependiendo de lo ocupado que estuviera el sistema y resultar tan pesadas que su impacto en la empresa fuera inaceptable. Las ventajas económicas que presenta el almacenamiento de datos en unidades de gran capacidad son considerables: el precio por MB es muy inferior al de las unidades de FC de alto rendimiento y, gracias a esta ventaja, el uso de las unidades SATA se ha extendido mucho en sistemas de archivo y arquitecturas de almacenamiento ampliables, mientras que las unidades de FC de mayor rendimiento han seguido siendo la opción más utilizada en los niveles de almacenamiento superiores.

Nuevos sistemas de protección de datos:

Los fabricantes de sistemas de almacenamiento están empezando a comprender que no todo se basa en la protección de los discos, sino en la protección de la información. Por eso, sus planes de protección de datos están empezando a evolucionar en consecuencia. Hay algunos enfoques novedosos en el mercado que pretenden solucionar los problemas causados por unidades lentas y de gran tamaño. Algunas tecnologías reducen el número total de reconstrucciones que lleva a cabo un sistema. Otras tecnologías han pasado a adoptar planes de protección de datos basados en la información, gracias a los cuales, en vez que realizar réplicas exactas del disco, se llevan a cabo réplicas exactas de la información (archivos, bloques u objetos). Y algunas de ellas incluso hacen un poco de las dos cosas. Así que, ¿cómo afecta todo esto a los tiempos de reconstrucción? Si pensamos en reconstruir la información en vez de en reconstruir un solo disco, se puede utilizar la potencia de la arquitectura del sistema, aprovechando la oportunidad de paralelismo masivo que ofrecen las arquitecturas multidisco.

Actualmente, hay varias tecnologías en el mercado que reducen el número total de fallos en la unidad y, por tanto, el número de reconstrucciones necesarias. En algunos casos, los fabricantes ponen las unidades que no responden fuera de línea para hacer un diagnóstico de posibles problemas y las devuelven al servicio en caso de no encontrar ninguno. Éste es un enfoque muy bueno, puesto que elimina la necesidad de llevar a cabo una reconstrucción completa. Cuando una unidad se pone fuera de línea, el sistema hace un registro de todos los datos que hubieran ido a esa unidad mientras se estaba intentando recuperar. Una vez recuperada, sólo es necesario reconstruir los datos del registro, no el disco entero.

Algunos fabricantes realizan el acceso sobre dos espacios, que reduce el número total de reconstrucciones necesarias y acelera el tiempo de reconstrucción aprovechando las arquitecturas de almacenamiento grid (en rejilla). Uno de los espacios se pone en marcha cuando una unidad no responde inmediatamente a una solicitud de acceso. El sistema responde realizando una minirreconstrucción de la paridad de los datos solicitados y devolviendo los datos de reconstrucción a la vez que retira del servicio, temporalmente, a la unidad que no responde. Después, esta unidad se somete a un breve diagnóstico y se vuelve a poner en funcionamiento, eliminando, por tanto, la necesidad de llevar a cabo una reconstrucción. Cualquier dato que se haya escrito mientras la unidad estaba fuera de línea se habrá escrito en otro espacio disponible del sistema.

Esto también acelera las reconstrucciones al poner en funcionamiento su arquitectura grid. La mayoría de arquitecturas basadas en grids tienen nodos de almacenamiento o de capacidad, y nodos de procesador de forma separada. Por lo general, todos los nodos de procesador pueden acceder a todos los nodos de almacenamiento. Al escribirse los datos, éstos se dividen en varios fragmentos, que se distribuyen, a su vez, por todos los nodos de almacenamiento que haya en el sistema. Usando, por defecto, nueve fragmentos de datos y tres fragmentos de paridad (el número exacto de fragmentos de paridad puede configurarlo el usuario), cada uno de los 12 nodos de almacenamiento recibiría un fragmento. Si hay cuatro nodos de almacenamiento (la configuración mínima), cada uno recibe tres fragmentos. Si se produce un fallo en la unidad, se reconstruyen sus datos, como sucedería en una RAID de haDRware convencional. Pero, a diferencia de la RAID convencional, los datos no se reconstruyen en una sola unidad, sino que se redistribuyen entre los distintos nodos de almacenamiento aprovechando toda la capacidad de almacenamiento que haya disponible.  Si falla todo un nodo de almacenamiento, los datos de esas unidades se reconstruyen en los nodos de almacenamiento restantes. Hemos visto este tipo de tecnología implementada tanto para datos protegidos con paridad como para datos duplicados. Al proteger los datos en vez de las unidades de disco, y gracias a la potencia de la arquitectura grid, la reconstrucción se lleva cabo en sólo una fracción del tiempo que hubiera llevado en una unidad convencional. Lo que se está reconstruyendo es la información y no la estructura exacta de la unidad.

Otros fabricantes buscan aprovechar sus arquitecturas para acelerar los tiempos de reconstrucción y reducir el riesgo de que se pieDRan los datos en caso de que fallen varias unidades. Cuando se escribe un archivo, los datos y la paridad se distribuyen entre las unidades de disco disponibles en el clúster. Si una unidad falla, los datos necesarios para llevar a cabo una reconstrucción se reparten entre los distintos nodos del clúster, de forma que se aprovechan todas las unidades que lo conforman.

Cambiar la estrategia de protección de datos de un enfoque basado en haDRware a un enfoque basado en software ofrece nuevas posibilidades. Con un plan de protección basado en haDRware, la elección suele estar entre proteger todos los datos o ninguno. Pero con un plan basado en la información se abre la puerta a la posibilidad de un sistema de protección de datos más detallado y basado en directrices.

En conclusión, las distintas características del almacenamiento son necesarias para tipos de datos diferentes. Los planes basados en RAID de haDRware siguen siendo una buena solución para las unidades más rápidas de poca capacidad y, por eso, no es probable que desaparezcan en un futuro próximo. Pero no debería sorprendernos que, con el tiempo, los planes de protección de datos basados en información se hicieran más habituales en productos de almacenamiento de nivel 1, puesto que los fabricantes continúan simplificando la gestión y construyendo sistemas centrados en la información.

Hay muchos fabricantes que ofrecen planes de protección de datos basados en información o tecnologías que permiten una rápida reconstrucción. Aunque la situación económica es complicada, el número de fabricantes que ofrece soluciones tecnológicas que aceleran o reducen la necesidad de llevar a cabo reconstrucciones parece estar en aumento. Cuando esté considerando adquirir una tecnología que utilice unidades de disco de gran capacidad, recueDRe preguntarle a su proveedor qué medidas se han tomado para reducir el riesgo de que se pieDRan los datos durante las reconstrucciones.

Investigue más sobre Almacenamiento empresarial

Close