Más allá del servicio que ofrezca un sistema informático, este sistema debe ser fiable para que los usuarios puedan utilizarlo en condiciones óptimas. El término "fiabilidad" indica cuán fiable es un sistema informático.
Una falla se produce cuando un servicio no funciona correctamente, es decir que se genera un estado de funcionamiento anormal o que no se adecua a las especificaciones. Desde el punto de vista del usuario, un servicio tiene dos estados:
Una falla es atribuible a un error, es decir, a un funcionamiento incorrecto local. Pero no todos los errores conducen a una falla en el servicio.
Existen varias maneras de limitar las fallas en el servicio:
La "alta disponibilidad" consiste en una serie de medidas tendientes a garantizar la disponibilidad del servicio, es decir, asegurar que el servicio funcione durante las veinticuatro horas.
El término "disponibilidad" hace referencia a la probabilidad de que un servicio funcione adecuadamente en cualquier momento.
El término "fiabilidad", que se utiliza en algunos casos, se refiere a la probabilidad de que un sistema funcione normalmente durante un período de tiempo dado. Esto se denomina "continuidad del servicio".
La disponibilidad se expresa con mayor frecuencia a través del índice de disponibilidad (un porcentaje) que se mide dividiendo el tiempo durante el cual el servicio está disponible por el tiempo total. La disponibilidad se expresa con mayor frecuencia a través del índice de disponibilidad (un porcentaje) que se mide dividiendo el tiempo durante el cual el servicio está disponible por el tiempo total.
Índice de disponibilidad | Duración del tiempo de inactividad |
---|---|
97% | 11 días |
98% | 7 días |
99% | 3 días y 15 horas |
99,9% | 8 horas y 48 minutos |
99,99% | 53 minutos |
99,999% | 5 minutos |
99,9999% | 32 segundos |
En efecto, la falla de un sistema informático puede producir pérdidas en la productividad y de dinero, y en algunos casos críticos, hasta pérdidas materiales y humanas. Por esta razón es necesario evaluar los riesgos ligados al funcionamiento incorrecto (falla) de uno de los componentes de un sistema informático y anticipar los medios y medidas para evitar incidentes o para restablecer el servicio en un tiempo aceptable.
Como es sabido, un sistema informático de redes puede fallar de muchas formas. Las causas de las fallas pueden clasificarse de la siguiente manera:
Todos estos riesgos pueden tener diferentes causas, entre las que se cuentan los daños intencionales.
Puesto que las fallas no se pueden evitar por completo, la solución consistirá en configurar mecanismos de redundancia duplicando los recursos críticos.
La capacidad de un sistema para funcionar pese a que uno de sus componentes falle se conoce como tolerancia a errores.
Cuando alguno de los recursos falla, los otros recursos siguen funcionando mientras los administradores del sistema buscan una solución al problema. Esto se llama "Servicio de protección contra fallas" (FOS).
Idealmente, si se produce una falla de hardware, los elementos defectuoso deben ser intercambiables en caliente, es decir, capaces ser extraídos y reemplazados sin que se interrumpa el servicio.
La configuración de una arquitectura redundante asegura la disponibilidad de los datos del sistema pero no los protege de los errores cometidos por los usuarios ni de desastres naturales, tales como incendios, inundaciones o incluso terremotos.
Por lo tanto, es necesario prever mecanismos de copia de respaldo (sobre todo remotos) para garantizar la continuidad de los datos.
Además, un mecanismo de copia de seguridad también se puede utilizar para almacenar archivos, es decir, para guardar datos en un estado que corresponda a una cierta fecha.
Foto: ©123RF