Definiremos un desastre informático como un evento no planificado que inhabilita el centro de datos de la organización para prestar los servicios que permiten continuar operando de forma normal. Algunas condiciones que podrían ser consideradas como desastres incluyen eventos de la naturaleza como huracanes, inundaciones, terremotos, incendios. También los eventos causados por el hombre, como sabotaje, fraude, terrorismo y ataques maliciosos, entre otros, que ocasionan daños a la infraestructura de cómputo.

Dentro de las principales causas de la pérdida de datos tenemos las siguientes:

  • Fallas de hardware.
  • Destrucción de hardware.
  • Corrupción de software.
  • Error humano.

Algunas cifras interesantes:

  • 6% de las PC sufren algún evento de pérdidade datos.
  • 30% de las empresas que sufren un gran incendio quedan fuera del mercado en un año.
  • 60% de las empresas que pierden sus datos cerrarán dentro de los siguientes 6 meses al desastre.
  • No es probable que sobrevivan las empresas que no son capaces de reanudar sus operaciones dentro de los diez días siguientes al desastre.
  • En Estados Unidos cada semana dejan de funcionar 140,000 discos duros.

Para reducir estos eventos y controlarlos hasta cierto grado, se hace necesaria la intervención de una entidad interna que evalúe los daños de los activos físicos y de las capacidades funcionales del centro de datos, para posteriormente emitir un reporte al equipo ejecutivo, el cual en conjunto tomará la decisión respecto a la declaratoria formal del desastre.

Un plan de recuperación no es un proceso estrictamente técnico, todo lo contrario, ya que hay un alto componente de procesos humanos involucrados, todos los ejecutivos, directores y empleados deben participar en el desarrollo, implantación y soporte permanente de la evaluación y planificación de la continuidad.

Los directivos de la organización deben tomar la decisión de emprender el plan de recuperación como proyecto, considerando los siguientes puntos:

  1. Determinar la vulnerabilidad a las interrupciones del centro de datos a fin de definir medidas preventivas para reducir al mínimo la probabilidad y el impacto de una interrupción en el servicio.
  2. Identificar el costo e impacto en la imagen pública, así como otras consecuencias de las interrupciones prolongadas del servicio en el centro de datos y otras instalaciones empresariales.
  3. Determinar las necesidades de recuperación y los recursos necesarios, a medio y largo plazo. Así como desarrollar el plan de contingencia que se ocupe de dichas necesidades.
  4. Identificar alternativas  y seleccionar métodos más rentables para proporcionar la función de las operaciones de copia de seguridad y restauración de un servicio a tiempo.

Existen dos conceptos fundamentales que permiten decidir el tipo de soluciones necesarias para cada organización:

Objetivo de Tiempo de Recuperación (RTO) es el tiempo en el que los procesos, servicios y aplicaciones deben estar restaurados después de un incidente grave, con el fin de evitar consecuencias inaceptables. Se requiere que la Infraestructura tecnológica, logística, humana y física esté disponible en el menor tiempo posible, en pro de reducir el valor de RTO lo más cercano a cero.

Objetivo de Punto de Recuperación (RPO) es la cantidad y vigencia de la información que se deben recuperar del almacenamiento alterno, última copia de seguridad, etc. El RPO se expresa hacia atrás en el tiempo desde el momento en que el incidente se produce, y puede ser especificado en segundos, minutos, horas o días, por lo tanto, es la cantidad máxima aceptable de pérdida de los datos medidos en el tiempo.

Ambos valores deben ser extrapolados a las aplicaciones vitales y críticas para la organización. Con lo que surge la necesidad de contar con un procedimiento para filtrar y perfilar qué servicios se ven directamente impactados definiendo los diferentes niveles o Tiers de las aplicaciones. Esos niveles van definidos del Tier 1 al Tier 4, siendo el Tier 1 el que contiene las aplicaciones con la mayor prioridad.

Tier 1: Aplicaciones responsables de forma directa de la generación de ingresos de la organización. Impacto alto.

Tier 2: Aplicaciones que poseen importancia, sin embargo no impactan de forma sensible las operaciones. Impacto moderado.

Tier 3: Aplicaciones de monitoreo y administración de la plataforma de TI. Impacto leve.

Tier 4: Aplicaciones de ambientes de QA, desarrollo y pruebas. Impacto bajo.

La correcta clasificación de los servicios y aplicaciones finalmente darán forma a los procesos de failolver y failback, típicos de un plan de desastres informáticos.

Diferencias entre Plan de Recuperación ante Desastres (DRP), Plan de Recuperación de Negocio (BRP) y Plan de Continuidad de Negocio (BCP):

  • Plan de Recuperación ante Desastres, DRP, establece las acciones a ejecutar para recuperar las operaciones fundamentales de una organización tras un desastre. Este plan debe incluir también las medidas para evitar determinados riesgos, mitigarlos o transferirlos a terceras partes. El DRP por lo general suele enfocarse primariamente en la recuperación de las operaciones relacionadas con el procesamiento de información.
  • El Plan de Recuperación de Negocio o BRP es una extensión del Plan de Recuperación ante Desastres porque además de lo antes mencionado, incluye las acciones relacionadas con proveedores y clientes que el DRP no aborda.
  • El Plan de Continuidad de Negocio o BCP es el más global y se compone a su vez de múltiples planes que describen cómo la organización puede operar de manera total o de forma degradada durante o inmediatamente después de un desastre. El BCP debe describir cómo gestionar cualquier incidencia que afecte a la organización y que interrumpa o detenga su desempeño normal; no sólo grandes desastres, como por ejemplo, una falla en el enfriamiento del centro de datos, fallas en los UPS u otros elementos. Aunque el BCP no definirá el paso a paso de cómo resolver cada eventualidad, sí deberá dar las pautas de cómo proceder mientras se escala el problema a quien le corresponda resolverlo.

La Recuperación ante Desastres es de carácter vital para todas las organizaciones para amortiguar y minimizar los efectos que a nivel operativo, financiero y de imagen se pueden llegar a experimentar.

Debemos tomar en cuenta que cuando una organización crece gracias al apoyo de la tecnología y toma las medidas necesarias para proteger su información, estableciendo las estrategias pertinentes mediante un plan de recuperación ante alguna contingencia, podrá asegurar la continuidad de sus servicios, manteniéndose al día con la exigencia de su mercado.