BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

No construya su lago de datos sin seguridad para Hadoop

La seguridad en Hadoop no es como la de las herramientas de gestión de datos. Un vistazo a proyectos de seguridad Hadoop de código abierto.

Hadoop es flexible, económico, escalable y de gran alcance. Pero antes de que llegue más allá de los proyectos piloto y pruebas de concepto y se convierta en tecnología de nivel empresarial, todavía hay una gran pregunta que los CIOs necesitan evaluar: ¿Es seguro?

La respuesta: Todavía no, según Jeff Kelly, analista de The Wikibon Project, con sede en Marlborough, Mass. Aunque se están desarrollando capacidades de seguridad para Hadoop por la comunidad de código abierto y proveedores comerciales, todavía son inmaduras y con frecuencia diseñadas para un propósito específico en lugar de algo integral, dijo Kelly durante el reciente webinar sobre aseguramiento de los datos sensibles en Hadoop: desafíos y nuevos enfoques.

Esto se debe en parte al hecho de que Hadoop no es una sola pila de tecnología de un solo proveedor. En cambio, es "una colección de proyectos, subproyectos y extensiones desarrolladas por un vendedor", dijo Kelly, lo que significa que las funciones de seguridad se desarrollan a menudo en silos, creando "una mezcolanza... que [es] difícil de integrar a nivel de plataforma." Y, mientras que la seguridad general viene un poco tarde a la nueva tecnología (así, sin sorpresas), la seguridad menos-que-robusta de Hadoop tiene aún más sentido, según Kelly. "Fue desarrollado en 2005 para resolver un problema específico: ayudar a Yahoo a indexar los datos de la World Wide Web", dijo. En otras palabras, se desarrolló como una única plataforma de aplicaciones para los datos de cara al público.

Pero desde entonces, Hadoop se ha convertido prácticamente en la columna vertebral de los grandes datos, y ha evolucionado para poder "manejar más flujos de trabajo y aplicaciones, y mucho de ello implica datos sensibles", dijo Kelly. ¿La buena noticia? Nadie tiene que reinventar la rueda de la seguridad para Hadoop. Kelly se refirió a la comprobada tercia de Ases de la seguridad (autenticación, autorización y auditoría), así como a las técnicas de protección de datos desde el mundo tradicional de gestión de datos. ¿La mala noticia? Las técnicas tradicionales de gestión de datos son sólo un punto de partida.

Cuando YARN -otro negociador de recursos- se liberó en 2013, Hadoop pasó de ser una única plataforma de aplicaciones a una plataforma que podría permitir a múltiples aplicaciones, dijo Kelly. El nuevo desarrollo podría ayudar a las empresas a romper los silos de datos. (YARN es un impulso detrás del concepto cada vez más popular del "lago de datos" o "centro de datos", un área de almacenamiento y visualización de datos, según Kelly.) Pero esta nueva iteración de Hadoop también presenta desafíos de seguridad que no se encuentran normalmente en el mundo tradicional de gestión de datos.

Cuando se combinan todos los datos en un solo lugar, los CIO deben tener en cuenta que las aplicaciones y los usuarios requerirán diferente acceso a los mismos conjuntos de datos, lo que significa la incorporación de herramientas como capacidades de enmascaramiento de datos, autorización flexible y "herramientas de autenticación que pueden conciliar y hacer cumplir las credenciales de usuario y controles de permisos a través de diversos roles de usuario y varias aplicaciones a nivel de plataforma", dijo Kelly. Y, es importante darse cuenta de que el producto derivado de la integración de datos sensibles son datos aún más sensibles, añadió, lo que significa que los CIOs pueden tener que revisar las políticas de gobierno de datos de la empresa para ser más proactivos.

"Eso no es sólo una cuestión de tecnología", dijo Kelly. "Es también un desafío para las personas y procesos."

Proyectos de seguridad de código abierto

Durante su seminario sobre la seguridad de los datos sensibles, Kelly destacó varias iniciativas de seguridad de código abierto en la comunidad Hadoop que están sucediendo ahora mismo. Los describió de la siguiente manera:

1. Apache Knox. Una puerta de enlace de la API REST que proporciona un único punto de acceso para todas las interacciones REST con racimos de Hadoop.

2. Apache Sentry. Un sistema modular para proveer la autorización basada en roles tanto para los datos como para los metadatos almacenados en el sistema de archivos distribuidos Hadoop, o HDFS. Sentry es un proyecto liderado principalmente por Cloudera, uno de los distribuidores de Hadoop más conocidos.

3. Apache Ranger. Un entorno centralizado para administrar y gestionar las políticas de seguridad en todo el ecosistema Hadoop. Este proyecto está liderado por Hortonworks, otro distribuidor Hadoop conocido, e incluye la tecnología que obtuvo cuando adquirió XA Secure a mediados de 2014.

4. Apache Falcon. Un motor de gobierno de datos que permite a los administradores definir y programar la gestión de datos y las políticas de gobierno en todo el entorno de Hadoop.

5. Proyecto Rhino. Crea capacidades de cifrado y gestión de claves y un marco común de autorización a través de proyectos y subproyectos de Hadoop. Este proyecto está liderado por Intel.

Este artículo se actualizó por última vez en febrero 2015

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close