Dato che è impossibile impedire totalmente i guasti, una soluzione sta nel realizzare dei meccanismi di ridondanza, duplicando le risorse critiche. La capacità di un sistema di funzionare nonostante una disfunzione di uno dei suoi componenti è detta Tolleranza ai guasti (in inglese fault tolerance). Quando una delle risorse si guasta, le altre le danno il cambio per lasciare il tempo agli amministratori del sistema di rimediare all'avaria.
In inglese si usa anche il termine Fail-Over Service(sigla FOS). Idealmente, in caso di guasto hardware, gli elementi hardware guasti dovranno essere estraibili a caldo (in inglese hot swappable), cioè che possono essere estratti e sostituiti, senza interruzione di servizio.
Foto: © Pixabay.