Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

Qué es el almacenamiento direccionado por contenido (CAS)?

El sistema CAS se utiliza para almacenar contenido a largo plazo por motivos legales y para archivar grandes cantidades de datos inalterables. Sin embargo, algunos fabricantes se están dirigiendo también al mercado general de almacenamiento de grandes volúmenes de información.

EMC acaparó el mercado de almacenamiento direccionado por contenido (o CAS, por sus siglas en inglés) con la presentación de su línea de productos Centera en 2002. Sin embargo, desde entonces, se han desarrollado otras soluciones en este ámbito. Algunas empresas utilizar el término “almacenamiento direccionable por contenido” y otras prefieren utilizar “almacenamiento con conciencia del contenido”.

No importa qué término se utilice, lo cierto es que la tecnología CAS sigue siendo muy útil a la hora de hacer frente a dos problemas: uno, el almacenamiento de contenido a largo plazo por razones regulatorias y/o legales y, dos, el archivo de cantidades masivas de documentos, imágenes u otra información, que raramente sufre cambios (si es que alguna vez lo hace).  

Una de las razones de que el CAS sea tan eficaz es que utiliza un algoritmo hash para asignar un único identificador, o huella digital, a cada objeto almacenado. Este proceso, junto con el uso de unas buenas prácticas de almacenamiento, garantizan que todo lo que entre en el sistema salga del mismo sin sufrir ninguna alteración. Si un dato cambia, recibe un nuevo identificador único, es decir, una nueva dirección de contenido. La localización física del objeto almacenado no es relevante.

“El CAS no es necesariamente un tipo de almacenamiento, como los sistemas SAN o NAS. Es un mecanismo que permite realizar una serie de operaciones de forma mucho más eficaz de lo que sería posible mediante técnicas tradicionales como los sistemas de archivos”, comenta Paul Carpentier, Director de Tecnología de Caringo (proveedor de software para el almacenamiento de contenidos). Carpentier desarrolló una tecnología CAS para la empresa de software belga FilePool BV, antes de que ésta fuera adquirida por EMC en 2001, y su software de almacenamiento de datos fue el precursor de Centera.

Un caso ideal para utilizar el sistema CAS es un archivo de correos electrónicos. Por ejemplo, la Universidad de Carolina del Este eligió un sistema CAS en vez de los tradicionales discos de matrices de almacenamiento después de que los análisis realizados demostraran que, con el sistema de respaldo que tenían, su departamento de TI (tecnología de la información) hubiera tenido que dedicar 60 horas de trabajo para recuperar los mensajes enviados durante un año por cada uno de sus empleados. Y lo que es aún peor, el proceso de respaldo que utilizaban anteriormente no garantizaba una recuperación total de los datos, ya que era posible que se hubieran borrado algunos correos electrónicos antes de llevarse a cabo la copia de seguridad.

“En caso de litigio legal, no hubiéramos tenido prueba alguna de que no hubiera entrado alguien en el sistema y borrado alguno de los archivos”, comenta Brent Zimmer, Subdirector de servicios de TI  en la Universidad de Greenville (en Carolina del Norte, EE.UU.). Además, “las multas a las que nos exponíamos por incumplir la normativa hubieran superado el costo de las soluciones que barajábamos”, añade Zimmer. Ahora, con Centera funcionando en el Enterprise Vault de Symantec (en el modo Governance) están seguros de que los documentos se mantienen intactos durante el periodo de tiempo establecido, sea éste el que sea.

CAS gestiona clústers de almacenamiento

El Centro de Investigación sobre Enfermedades Hereditarias (CIDR) de la Universidad Johns Hopkins adoptó el sistema CAS por otra razón: almacenar un enorme volumen de información de gran importancia que se había vuelto difícil de gestionar. El CIDR (cuya sede se encuentra el Baltimore, EE.UU.) estudia el ADN de pacientes e individuos sanos con la esperanza de descubrir nuevos tratamientos o curas para enfermedades complejas. Sus escáneres del genoma llegan a introducir en el sistema de 2 a 3 TB al día de imágenes difíciles de reproducir.

Cuando sus 40 sistemas PetaBox de gran capacidad de la marca Capricorn Technologies casi habían alcanzado los 130 TB, el CIDR instaló una matriz de almacenamiento de doble densidad con nueve nodos, que disponían de 12 discos de 1 terabyte de la marca Rackable Systems cada uno. El software CAStor de Caringo se encarga, ahora, de gestionar los clústers de almacenamiento.

"Te permite configurar la replicación de acueDRo al nivel de redundancia que quieras para los datos, y es muy fácil de utilizar y gestionar”, afirma Lee Watkins Jr., director de bioinformática del CIDR. “Cuando necesitas más capacidad, añades otro nodo. Lo instalas, se integra en el clúster, y ya está. En serio, es así de fácil".

Los usuarios de CAS suelen utilizar una arquitectura basada en una matriz redundante de nodos independientes (o RAIN, por sus siglas en inglés), que permite copiar los datos en uno o más servidores del clúster, en vez de almacenarlos en discos distintos dentro de un mismo servidor.

"[RAIN] permite una escalabilidad más amplia y más rentable desde el punto de vista de la capacidad", afirma Brian Garrett, Director técnico del ESG Lab de la empresa de investigación en materia de almacenamiento Enterprise Strategy Group. “No quiero tener que soportar las desventajas típicas de la reconstrucción de una RAID 5, por lo que la replicación es mejor que la paridad". Y si voy a utilizar la replicación y a utilizar servidores estándar, en vez de realizar la replicación dentro de los propios servidores, por qué no replicar los datos de un servidor a otro sobre una red Ethernet también estándar? Lo que consigo es un nivel de escalabilidad rentable desde el punto de vista económico”.

CAS suprime el sistema tradicional de archivos

Otra de las ventajas de utilizar CAS con una gran cantidad de datos es la supresión del sistema de archivos tradicional y de los límites de capacidad y problemas de gestión correspondientes. En su lugar, los usuarios disponen de una pila de almacenamiento en un espacio de nombres sin jerarquías y de gran tamaño, y no tienen que complicarse con estructuras de directorio o nombres de archivos, aunque muchas organizaciones optan por una pasarela al sistema de archivos para hacer los traslados de datos.

Por otro lado, lo que más se ha criticado del CAS ha sido su bajo nivel de rendimiento. Ejecutar cada uno de los datos mediante un algoritmo hash le exige mucho al procesador, lo que hace que el CAS sea impracticable para todo lo que no sea contenido de uso esporádico.

“Si lo que busca es un sistema de almacenamiento que sea realmente rápido, puede que deba replantearse el hecho de optar por un sistema CAS", afirma Greg Schulz, fundador y analista de The StorageIO Group. “Con CAS, está sacrificando el rendimiento en pro de la inteligencia, la información y la optimización”.

El nivel de rendimiento del CAS mejora

El rendimiento del CAS está mejorando, tanto en el caso de Caringo como en el de EMC, que se considera el líder mundial en el mercado CAS. Cada nueva versión de Centera ha ofrecido un nivel de rendimiento superior a la versión anterior. Pero son pocos los fabricantes que adoptan el mismo enfoque tecnológico que EMC.

Según la analista Pushan Rinnen, Gartner ha conseguido, finalmente, acabar con una concepción limitada del ámbito CAS y adoptar una perspectiva de mercado más amplia al comparar Centera con otros productos diseñados para solucionar los mismos problemas de los usuarios, incluso si la tecnología utilizada no es estrictamente la de CAS. Rinnen utiliza el ejemplo de la Plataforma de Archivo de Contenidos (HCAP) que Hitachi Data Systems le compró a Archivas. “HCAP compite con Centera, pero no se considera una solución CAS porque utiliza un sistema de archivos NAS en la interfaz de usuario”, dice.

Algunos de los fabricantes que ofrecen soluciones CAS y que también compiten con Centera son Hewlett-PackaDR con su Plataforma de Acceso a la Información (basada en el antiguo RISS), IBM con el DR550, NEC America con su HydraStor y, por último, Permabit Technology.

“Tecnología anticuada con limitaciones de escalabilidad”

Permabit fue uno de los primeros fabricantes de CAS, aunque ya no quiere seguir formando parte de este mercado. Mike Ivanov, Vicepresidente de marketing, considera la línea de productos Permabit como "un sistema de archivo corporativo basado en discos" que utiliza los estándares CIFS, NFS y WebDAV para posibilitar que otras aplicaciones lo utilicen. Desestima el CAS por ser una “tecnología anticuada” que presenta “limitaciones de escalabilidad y que, por lo general, ha necesitado APIs propietarias para poder funcionar en esos sistemas”.

El estándar XAM (eXtensible Access Method o método de acceso extensible) en el que EMC y otros fabricantes han estado trabajando a través de la asociación Storage Networking Industry Association, pretende afrontar el problema de las etiquetas propietarias para conectar aplicaciones a sistemas de almacenamiento basados en objetos. Sin embargo, el XAM no fue ratificado hasta julio y los productos que lo soportan aún no han tenido el impacto esperado.

"Cedimos una gran cantidad de propiedad intelectual para empezar a desarrollar esta API abierta, de forma que una aplicación que escriba en XAM pueda almacenar información en Centera o en otro producto”, afirma Steve Spataro, director de marketing de Centera en EMC. Spataro rebate la acusación de propietariedad afirmando que la API de Centera siempre estuvo disponible para cualquier usuario a través de la Web y que la intención de EMC nunca fue la de “atrapar a un cliente dentro de Centera”.

Aún queda por ver cómo afectará el nuevo estándar XAM al ámbito CAS, pero el panorama ya lleva bastante tiempo sufriendo cambios.

“CAS solía presentar muchas ventajas en lo que respecta al almacenamiento de instancia única y algunas propiedades de autorreparación", afirma Rinnen, "pero algunas de estas [funciones] están peDRiendo cada vez más relevancia, puesto que otros fabricantes han desarrollado tecnologías de deduplicación que son aún mejores que el almacenamiento de instancia única".

El ámbito ideal para el sistema CAS sigue siendo el almacenamiento secundario, aunque los tecnólogos de Caringo están intentando ampliar sus límites. “En realidad, Centera se ha posicionado como un producto de archivo. Pero nuestra ambición va más allá. Además de en el mercado de archivo, también pretendemos entrar en el de almacenamiento de volúmenes activos”, afirma Carpentier, que reconoce que será una aDRua tarea.

Garrett dice comprender este razonamiento, sobre todo cuando la potencia de procesamiento sea más económica. Pero, por el momento, según él, los sistemas direccionables por contenido son todavía para almacenamiento secundario.

Investigue más sobre Almacenamiento empresarial

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close