Alta disponibilidad

Mayo 2017

Introducción a la fiabilidad

Más allá del servicio que ofrezca un sistema informático, este sistema debe ser fiable para que los usuarios puedan utilizarlo en condiciones óptimas. El término "fiabilidad" indica cuán fiable es un sistema informático.

Una falla se produce cuando un servicio no funciona correctamente, es decir que se genera un estado de funcionamiento anormal o que no se adecua a las especificaciones. Desde el punto de vista del usuario, un servicio tiene dos estados:

  • servicio apropiado: cuando satisface las expectativas.
  • servicio inapropiado: cuando no satisface las expectativas.


Una falla es atribuible a un error, es decir, a un funcionamiento incorrecto local. Pero no todos los errores conducen a una falla en el servicio.

Existen varias maneras de limitar las fallas en el servicio:

  • La prevención de errores, que consiste en evitar errores anticipándolos.
  • La tolerancia a errores, cuyo propósito es proporcionar un servicio de acuerdo con las especificaciones a pesar de los errores, presentando redundancias.
  • La eliminación de errores, destinada a reducir la cantidad de errores por medio de acciones correctivas.
  • La predicción de errores, anticipando errores y su posible impacto en el servicio.

Introducción a la alta disponibilidad

"La alta disponibilidad" consiste en una serie de medidas tendientes a garantizar la disponibilidad del servicio, es decir, asegurar que el servicio funcione durante las veinticuatro horas.

El término "disponibilidad" hace referencia a la probabilidad de que un servicio funcione adecuadamente en cualquier momento.

El término "fiabilidad", que se utiliza en algunos casos, se refiere a la probabilidad de que un sistema funcione normalmente durante un período de tiempo dado. Esto se denomina "continuidad del servicio".

La disponibilidad se expresa con mayor frecuencia a través del índice de disponibilidad (un porcentaje) que se mide dividiendo el tiempo durante el cual el servicio está disponible por el tiempo total. La disponibilidad se expresa con mayor frecuencia a través del índice de disponibilidad (un porcentaje) que se mide dividiendo el tiempo durante el cual el servicio está disponible por el tiempo total.


Índice de disponibilidadDuración del tiempo de inactividad
97%11 días
98%7 días
99%3 días y 15 horas
99,9%8 horas y 48 minutos
99,99%53 minutos
99,999%5 minutos
99,9999%32 segundos

Evaluación de riesgos

En efecto, la falla de un sistema informático puede producir pérdidas en la productividad y de dinero, y en algunos casos críticos, hasta pérdidas materiales y humanas. Por esta razón es necesario evaluar los riesgos ligados al funcionamiento incorrecto (falla) de uno de los componentes de un sistema informático y anticipar los medios y medidas para evitar incidentes o para restablecer el servicio en un tiempo aceptable.

Como es sabido, un sistema informático de redes puede fallar de muchas formas. Las causas de las fallas pueden clasificarse de la siguiente manera:

  • Causas físicas (de origen natural o delictivo)
    • Desastres naturales (inundaciones, terremotos, incendios)
    • Ambiente (condiciones climáticas adversas, humedad, temperatura)
    • Fallas materiales
    • Fallas de la red
    • Cortes de energía
  • Causas humanas (intencionales o accidentales):
    • Error de diseño (errores de software, aprovisionamiento de red insuficiente)
  • Causas humanas (intencionales o accidentales):
    • Error de diseño (errores de software, aprovisionamiento de red insuficiente)
  • Causas operativas (vinculadas al estado del sistema en un momento dado):
    • Errores de software
    • Falla del software




Todos estos riesgos pueden tener diferentes causas, entre las que se cuentan:

  • Daños intencionales

Tolerancia a errores

Puesto que las fallas no se pueden evitar por completo, la solución consistirá en configurar mecanismos de redundancia duplicando los recursos críticos.

La capacidad de un sistema para funcionar pese a que uno de sus componentes falle se conoce como tolerancia a errores.

Cuando alguno de los recursos falla, los otros recursos siguen funcionando mientras los administradores del sistema buscan una solución al problema. Esto se llama "Servicio de protección contra fallas" (FOS).

Idealmente, si se produce una falla de hardware, los elementos defectuoso deben ser intercambiables en caliente, es decir, capaces ser extraídos y reemplazados sin que se interrumpa el servicio.

Copia de seguridad

La configuración de una arquitectura redundante asegura la disponibilidad de los datos del sistema pero no los protege de los errores cometidos por los usuarios ni de desastres naturales, tales como incendios, inundaciones o incluso terremotos.

Por lo tanto, es necesario prever mecanismos de copia de respaldo (sobre todo remotos) para garantizar la continuidad de los datos.

Además, un mecanismo de copia de seguridad también se puede utilizar para almacenar archivos, es decir, para guardar datos en un estado que corresponda a una cierta fecha.

Consulta también


Haute disponibilité
Haute disponibilité
Alta disponibilità
Alta disponibilità
Última actualización: 17 de octubre de 2016 a las 16:39 por Carlos-vialfa.
El documento «Alta disponibilidad» se encuentra disponible bajo una licencia Creative Commons. Puedes copiarlo o modificarlo libremente. No olvides citar a CCM (es.ccm.net) como tu fuente de información.