Resolver Problemas Consiga ayuda para problemas específicos con sus proyectos, procesos y tecnologías.

Una muestra de procedimiento de lista de control de redes de recuperación ante desastres

Dado que los objetivos de la recuperación ante desastres dependen del tiempo y tienen prioridad temporal, las listas de control son una herramienta ideal a la hora de enfrentarse a una situación en la que esos planes deben pasar a la acción.

Cuando se trata de ejecutar un plan de recuperación ante desastres o un plan de continuidad del negocio para su red, el tiempo y la precisión son de la máxima importancia. Los objetivos de la recuperación ante desastres y la continuidad del negocio dependen del tiempo y tienen prioridad temporal, de modo que las listas de control son una herramienta ideal a la hora de enfrentarse a una situación en la que esos planes deben pasar a la acción.

Las siguientes actividades definen un grupo de acciones o actividades esenciales que deben entrar en juego siempre que se den situaciones de recuperación ante desastres o continuidad del negocio:

-Detectar los efectos del desastre y el corte del suministro eléctrico lo más rápidamente posible

-Notificar a los responsables que deben tomar medidas

-Aislar los sistemas afectados para limitar el alcance de los daños o las péDRidas globales

-Reparar o sustituir los sistemas críticos y trabajar para reanudar las operaciones normales según permitan y dicten las circunstancias

Contexto para una lista de control de recuperación ante desastres de red

Cuando hay que recurrir a planes de recuperación ante desastres o continuidad del negocio, el desencadenante inicial depende de una rápida detección y una oportuna notificación. Por ello es esencial utilizar tecnologías de control de operación o para mantener la conexión como las integradas en muchos routers, conmutadores o servidores modernos como parte de su instrumentación de gestión. Al mismo tiempo, esto significa comprobar los recursos principales: sistemas, elementos de la infraestructura, enlaces WAN, etc., y asegurarse de que todos están correctamente preparados, y publicar notificaciones dentro de un período de tiempo estipulado después de que se produzca cualquier tipo de fallo.

Asimismo, es vital construir un plan de recuperación ante desastres o continuidad del negocio que incluya todos los recursos de red, incluidos conmutadores, routers, cortafuegos, proxies, servidores de caché y balanceadores de carga para establecer un régimen de reserva que incluya un almacenamiento suficiente al que se pueda acceder en línea de forma remota en el caso de que se necesite algún tipo de recuperación.

Entre los fallos simulados se deberían incluir fallos de red tanto a nivel de WAN como a nivel de LAN para garantizar que todos los procedimientos de detección y recuperación funcionan según lo previsto y que se cumplen los niveles del objetivo de tiempo de recuperación (RTO) y del objetivo de punto de recuperación (RPO). Una vez finalizada la instrucción práctica, la actividad clave para cerrar el ciclo de aprendizaje es actualizar su plan de recuperación ante desastres o continuidad del negocio, ajustar los RTO y los RPO para que se adapten a los casos reales factibles y ajustar las implementaciones in situ para reflejar el aprendizaje y la experiencia cosechados tras cualquier instrucción.

Los métodos simples de una o dos páginas que proporcionan instrucciones paso a paso sobre qué hacer y cómo hacerlo son las herramientas prácticas más eficaces para las partes responsables a la hora de difundir planes de recuperación ante desastres o continuidad del negocio en el campo de acción. Las listas de control pueden ser un valioso componente para dichas herramientas y pueden ayudar a acelerar los procesos relacionados con la identificación, resolución y reparación o recuperación de problemas.

Qué incluir en la lista de recuperación ante desastres de red

Cada lista de control empieza con un inventario de los equipos de redes y sistemas, servicios y aplicaciones, contando cada elemento con una lista de control aparte. Cuando se trata de equipos de red, es esencial incluir los elementos esenciales de la infraestructura (como routers, conmutadores y dispositivos de optimización de WAN) en la instrucción y asegurarse de que los trabajos de recuperación o reparación producen redes, sistemas y servicios funcionales. También es importante hacer modelos de múltiples tipos de fallo para garantizar que los planes y las listas de control se ocupan de ellos correctamente. Esto incluye fallos de acceso a nivel de portador, equipos, medios y sistema.

En general, debería crear un método paso a paso para cada tipo de fallo para cada elemento del inventario. Para un dispositivo de optimización de WAN, por ejemplo, el fallo total del dispositivo incluye elementos como los siguientes:

-Ejecute el diagnóstico para establecer el estado del dispositivo. Se incluye una serie de comandos o acciones de la interfaz gráfica paso a paso documentadas para operaciones “de imitación”.

-Para un fallo total, obtenga un recambio, importe el perfil de configuración. Proporcione información sobre dónde encontrar recambios, cómo verificar uno, qué desconectar de la unidad antigua y cómo volver a conectar la nueva.

-Ejecute el diagnóstico en la unidad de sustitución para asegurarse de que funciona correctamente. Ésta es una serie de comandos y acciones de la interfaz gráfica paso a paso como en el primer paso.

-Retire la unidad que ha fallado y sustitúyala por la unidad probada.

-Pruebe la unidad para asegurarse de que los servicios de muestra clave funcionan correctamente. Defina una serie detallada de comprobaciones/operaciones de prueba; lo ideal sería que fueran admitidas por scripts de prueba automatizados o comandos paso a paso o instrucciones a nivel de la interfaz gráfica.

-Si la unidad pasa las pruebas, comunique el éxito de la sustitución y la restauración del servicio; si la unidad fracasa en las pruebas, vuelva al primer paso.

Dado que sus empleados trabajan a través de su instrucción práctica, estarán interaccionando con y reaccionando a estos métodos en cada paso que den a lo largo del camino. Anímeles a tomar notas y hacer preguntas sobre lo que ven y no entienden, instrucciones que no funcionan como se ha descrito o actividades que no tienen sentido. Puede utilizar esta información para auditorías posteriores a la instrucción y ajustar o sustituir sus métodos y listas de control para mantenerlos actualizados y preparados para ser utilizados.

Acerca de este autor: Ed Tittel es instructor y escritor independiente desde hace tiempo, especializado en temas relacionados con redes, seguridad de la información y lenguajes de marcado. Escribe para numerosos sitios web de TechTarget.com, y recientemente ha terminado la 4ª edición de The CISSP Study Guide for Sybex/Wiley (ISBN-13: 978-0470276886).

Investigue más sobre Recuperación de archivos y desastres

Únase a la conversación

1 comentario

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

Me parece excelente Ed, detección del incidente, escribir un inventario de posibles fallos (escenarios), redactar procedimientos de emergencia para cada escenario, es importante ver los tiempos de recuperación de los fallos, tener un diseño de redes (cómo están los segmentos distribuidos), y es importante tener uno que otro software para el control de red, ancho de banda, replicación, etc.
Cancelar

- ANUNCIOS POR GOOGLE

Close