Panne Facebook : une cascade de conséquences

Pendant six heures, Facebook, Instagram et WhatsApp ont été non pas en panne, ni hors ligne, mais simplement introuvables. Que s’est-il passé ? Facebook confirme qu’il s’agit d’erreurs en cascade qui ont provoqué la panne mondiale des services… et lui ont fait perdre 6 milliards de dollars en bourse.

  • Etape 1 : une opération de maintenance de routine, avec des commandes serveur (rien que de plus normal pour ce genre de maintenance), fait tomber les serveurs DNS qui deviennent inaccessible à l’infrastructure. L’ensemble du backbone tombe par effet domino.
  • Etape 2 : la perte du DNS entraîne la perte du reste des serveurs et les équipes ne peuvent pas accéder à distance aux serveurs et aux éléments de l’infrastructure pour remettre en état le réseau
  • Etape 3 : les équipes doivent se déplacer physiquement dans les datacenters pour remettre en place le réseau, le DNS et reconnecter les serveurs
  • Etape 4 : la restauration des serveurs s’est faite par étape pour éviter un problème d’alimentation électrique avec un bond de la consommation alors que la panne avait provoqué une baisse de la consommation.

Ironiquement, ce sont les règles de sécurité qui ralentissent les équipes pour accéder aux bâtiments et aux serveurs.

Autre enseignement de cette panne massive, les outils utilisés pour superviser et résoudre les problèmes étaient devenus inaccessible suite à la perte du DNS.

Pour Facebook, il faudra rapidement mettre en place de nouvelles procédures pour réactiver plus rapidement les services et surtout éviter la perte totale du DNS qui lance le domino. Comme quoi, quand nous parlons de l’importance d’un PRA et des plans de secours, ce n’est pas un hasard.

Blog de Facebook sur la panne : https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/