Incendie d’OVH – La fin d’un modèle ?

« Le pire scénario qui puisse nous arriver« , écrivait Octave Klaba… en 2017 !

Chronique - Yves Grandmontagne, fondateur et rédacteur en chef de Datacenter Magazine

Le vendredi 10 novembre 2017, à minuit 27, Octave Klaba écrivait sur le blog d’OVH : « Ce matin (09 novembre) à 7h23, nous avons eu une panne majeure sur notre site de Strasbourg (SBG) : une coupure électrique qui a mis dans le noir nos 3 datacentres SBG1, SBG2 et SBG4 durant 3h30. Le pire scénario qui puisse nous arriver » (Lire le blog OVH, cliquer ici).
Le fondateur d’OVH avait pointé à l’époque le dysfonctionnement d’un système de basculement motorisé du datacenter de Strasbourg qui n’avait pas permis de passer à l’alimentation du générateur.

Cette panne avait marqué les esprits de la communauté du datacenter de part le monde, OVH à l’époque était parti à la conquête de l’Amérique du Nord et du reste du monde.

Mais ce qu’Octave Klaba ne pouvait pas imaginer, c’est que le ‘pire’ était à venir, ce jeudi 11 mars 2021, avec l’incendie du datacenter SBG de Stasbourg…

Passé l’incendie spectaculaire, la presse se focalise sur ‘le malheur’ des clients d’OVHcloud, dont certains, probablement des centaines de milliers, ont tout perdu, données, sites et services web. Les acteurs de la cybersécurité se bousculent à nos portes pour évoquer leur vision des sauvegardes et des PRA. Mais tous reconnaissent la responsabilité des clients, sauvegardes et PRA ne sont pas automatiques et donc n’entrent pas dans la responsabilité d’OVHcloud, ils appartiennent au domaine des services. Nous donnons la parole à certains d’entre eux.

Notons une question, cependant, il semblerait que des serveurs hébergeant des clients étaient proches de serveurs de sauvegardes, tous deux auraient été détruits dans l’incendie. Si elle était confirmée, voilà une pratique qui mériterait d’être transformée…

Et si l’on se concentrait plutôt sur OVHcloud et les datacenters…

L’incendie permet de jeter un regard critique sur les datacenters, ces géants qui se révèlent aux pieds d’argile. Si globalement la crise Covid a rappelé combien ils sont indispensables à nos économies et à notre vie quotidienne, d’autres événements, parfois dramatiques, viennent également nous rappeler qu’ils restent vulnérables. Les datacenters texans ont frôlé la catastrophe lors de la tempête de neige, nous y reviendrons. Il nous revient régulièrement du monde entier des datacenters qui tombent, le risque est réel. Et SBG a brûlé…

Passons les tempêtes de neige, les tremblements de terre et les tsunamis. A écouter Octave Klaba, l’incendie a probablement débuté avec un dysfonctionnement sur un onduleur. Sur lequel était intervenu un technicien quelques heures plus tôt… On rappellera que l’erreur humaine reste à l’origine de nombreux incidents. Mais là n’est pas notre propos.

Ce qui surprend le plus des observateurs ‘proches du dossier’, ce n’est pas seulement l’origine du feu, c’est sa propagation. Et derrière ce constat, émergent trois interrogations : les matériaux utilisés, la détection sur site, et les interventions automatisées (eau, gaz). La réflexion du Commandant des pompiers sur le bois et le plastique est également riche d’enseignements dans le cas du datacenter de Strasbourg (lire « Incendie OVHcloud : Octave Klaba fait le point et émet l’hypothèse d’un onduleur défectueux à l’origine de l’incendie« ).

Interrogeons-nous alors sur le modèle d’OVHcloud, que commencent à pointer les observateurs les plus critiques. A trop vouloir réduire les coûts, l’opérateurs a-t-il joué avec le feu ? On nous pardonnera ce jeu de mot involontaire !

Reprenons le message blog d’Octave Klaba : il nous apprend que début 2012, OVH a lancé SBG avec SGB1, un datacentre en containers maritimes. 8 containers maritimes déployés et SBG1 a été opérationnel en seulement 2 mois. Fin 2012, OVH construit SBG2, et en 2016 lance la construction de SBG3. Basées sur la technologie de « Tour » d’OVH, la construction de SBG2 a pris 9 mois. Quant à SBG4, Octave Klaba atteste qu’il a été construit très rapidement, de nouveau sur le modèle des containers maritimes. Notons que ce modèle est certainement celui qui aura permis à OVHcloud de déployer le plus rapidement des serveurs en remplacement de ceux qui ont brûlés.

Une question est cependant à se poser ici : quelle est le risque à construire rapidement, hors de proposer des services moins chers ? Un premier risque semble évident, de ne pas répondre à certains objectifs de sécurité. En 2017, Octave Klaba concédait 2 erreurs : ne pas avoir remis le site SBG aux normes internes qui prévoient 2 arrivées électriques indépendantes de 20KV ; et avoir construit le réseau électrique de SBG2 en le posant sur le réseau électrique de SBG1, au lieu de les rendre indépendant l’un de l’autre.

Il n’y a certainement aucun lien entre ce que nous venons d’exposer et l’incendie de la semaine dernière. Mais la preuve est faîte que nous pouvons tous commettre des choix à risques, voire des erreurs. Un système d’incendie moderne et performant, avec des capteurs en nombre, et des systèmes d’intervention par gaz inerte, coûte deux fois plus cher qu’un système plus classique, et plus encore qu’un système obsolète. Par contre, la sécurité apportée est autrement plus performante, cela vaut-il le coup de s’y pencher ? Pour le client conscient des risques, certainement. Pour les autres, tout à leur inconscience, seule la notion de prix compte, sans mesurer le risque pris. On en voit le résultat aujourd’hui.

Un opérateur de datacenter qui a obtenu de sa direction de doubler son budget sûreté dort la nuit, c’est confirmé. Ce n’est certainement plus le cas de ses homologues chez les acteurs des services cloud qui tirent sur la corde pour réduire leurs coûts, comme chez leurs clients échaudés aujourd’hui, à n’en pas douter. Il s’agit de choix d’investissements et de choix stratégiques au service des clients, tout a un prix… Reste à continuer de sensibiliser les utilisateurs aux questions de sécurité, de sauvegarde et de PRA, à les inviter à mesurer le risque qu’ils prennent, et à inviter les opérateurs qui prennent ce risque pour leurs clients à aller vers plus de sûreté. La course à la réduction des coûts a ses limites, il est temps de le (faire) comprendre…

Et que l’on ne nous reproche pas de jeter de l’huile sur le feu – encore un mauvais jeu de mots involontaire ! -, nous avons en confiance choisi d’héberger notre site chez OVHcloud…