Le 26 avril 1986, un groupe d’ingenieurs nucleaires souhaite tester une simulation de coupure de courant electrique pour creer une procedure de securite dans une centrale nucleaire. Ils voulaient tester s’il etait possible de maintenir la circulation de l’eau de refroidissement du reacteur nucleaire jusqu’a ce que les generateurs electriques de secours puissent fournir de l’energie. L’objectif etait de s’assurer que le reacteur n’aurait pas a etre completement arrete pendant une panne de courant.
Trois tests de ce type avaient ete menes au cours des quatre annees precedentes, mais ils n’avaient pas apporte de solution. Cette quatrieme tentative n’a pas eu lieu comme prevu. Un retard imprevu de 10 heures a entraine un quart de travail completement non prepare pour gerer le travail.
La puissance du reacteur a du etre diminuee dans le cadre de l’essai. Cela signifiait desactiver le systeme de securite. Mais la puissance est tombee de maniere inattendue a pres de zero pendant le processus. Les operateurs ont pu retablir partiellement le courant, mais cela a mis le reacteur dans un etat instable.
Comme le systeme de securite etait desactive, le risque n’etait pas evident. De plus, le mode d’emploi ne couvrait pas ce cas d’utilisation, les operateurs ont donc procede au test prevu.
A la fin du test, lorsqu’ils ont declenche l’arret du reacteur, une combinaison de conditions instables et de defauts de conception du reacteur a provoque une reaction nucleaire en chaine incontrolee. Le reste, comme on dit, etait la catastrophe nucleaire de Tchernobyl.
Le 28 mars, il y a sept ans et a 7 600 km de la, un groupe de techniciens de centrale nucleaire a accidentellement coince une bulle dans un capteur lors d’une procedure de nettoyage de routine. Cela a empeche les pompes de liquide de refroidissement de faire circuler l’eau. Il y avait des pompes auxiliaires pour faire face a cette situation, mais elles ont ete fermees pour maintenance (en violation du mode operatoire de l’usine).
Meme si le reacteur a detecte un probleme et est passe en mode d’arret d’urgence, il n’y avait pas de circulation d’eau et la chaleur du systeme n’avait nulle part ou aller. La soupape de surpression – dont le travail consistait a evacuer la surpression – a subi une defaillance mecanique et s’est bloquee en position ouverte, permettant ainsi a l’eau de refroidissement de s’echapper du systeme.
Cela n’a pas ete detecte par les techniciens car le voyant de la salle de controle indiquait si le mecanisme de fermeture de la vanne etait sous tension ou non, et non si la vanne elle-meme etait ouverte ou fermee. La vanne ouverte a lentement laisse echapper l’eau necessaire pour refroidir le reacteur et il n’y avait pas d’eau supplementaire entrant.
Il y avait cependant un capteur de temperature du liquide de refroidissement qui montait dans la salle de controle. Mais la formation de l’equipage pour les incidents anormaux leur a demande de referer d’autres capteurs, pas celui-ci. Cet enchainement d’evenements a provoque une surchauffe du reacteur pendant 11 heures. Cela a conduit a une fusion partielle du reacteur et a une fuite de rayonnement subsequente dans l’ile de Three Mile Island aux Etats-Unis.
Lorsque nous faisons des post-mortem de petits et grands echecs, nous souffrons fortement d’un biais retrospectif. Informes par Chaos Theory, nous supposons qu’eviter la « cause profonde » de la catastrophe – les techniciens n’etant pas prepares ou la bulle coincee dans le capteur – aurait pu eviter l’effondrement. Et s’ils n’avaient pas fait ca ? Et s’ils etaient plus prudents ? Cette hypothese est fausse.
En theorie, oui, un buttery battant des ailes au Bresil peut declencher une tornade au Texas, mais cela ne veut pas dire qu’il le fera . Il n’y a pas autant de tornades que de volets de papillons dans la vraie vie – ce morceau est clair. Selon cette logique, tout evenement aleatoire peut declencher une serie d’evenements pouvant conduire a un autre evenement. Mais cette connaissance ne nous aide en aucune maniere pratiquement.
Dans la vraie vie, le corps humain, l’environnement, une societe, une organisation, une strategie d’entreprise ou une navette spatiale sont des exemples de systemes complexes. Les erreurs sont normales dans un systeme complexe. Ils se produisent tous les jours. Les bulles se coincent, les systemes de refroidissement tombent en panne, les techniciens ignorent les procedures. Mais il y a suffisamment de redondance et de marge d’erreur en place pour s’assurer que de telles erreurs n’effondrent pas l’ensemble du systeme.
Les defaillances catastrophiques ne se produisent que lorsqu’un nombre suffisant de ces petites erreurs s’alignent, ce qui entraine un effet cumulatif via une reaction en chaine. Les pannes catastrophiques, quelle que soit leur origine, se produisent quelle que soit la « cause premiere ».
Selon cette logique, la catastrophe du Challenger ne s’est pas produite simplement a cause de la defaillance des joints toriques. La deuxieme vague du coronavirus n’a pas envahi l’Inde simplement en raison du manque de soins de sante adequats dans le pays. Une strategie marketing n’echoue pas simplement parce que vous n’avez pas inclus de photos d’animaux.
Ces soi-disant « causes profondes » font partie de nombreuses raisons, et elles ne sont certainement pas la raison principale. Si vous regardez attentivement, il y a 500 autres choses qui etaient erronees mais qui n’ont pas contribue au desastre. Dans un systeme complexe, ou il y a plusieurs pieces mobiles, il n’y a pas de « cause premiere ». En d’autres termes, les eviter n’aurait pas suffi a eviter la catastrophe. Cela aurait pu etre retarde, mais pas empeche.
Les pannes catastrophiques sont generalement dues a une combinaison d’une mauvaise conception du systeme, d’une erreur humaine, de defauts d’interaction homme-ordinateur, d’une mauvaise formation, d’une mauvaise communication, d’un mauvais processus et d’innombrables autres facteurs contributifs majeurs et mineurs. Il y a rarement un facteur majeur qui a un effet en cascade.
Il en va de meme pour le succes. Une entreprise ne reussit pas simplement parce qu’elle a un excellent PDG. Vous n’avez pas une relation saine simplement parce que vous etes une personne gentille. Vous ne gagnez pas une competition simplement parce que vous avez travaille dur. Il existe de nombreux autres facteurs, dont certains echappent a votre controle.
Par consequent, le but n’est pas de creer des systemes totalement exempts d’erreurs. Il est impossible de les rendre completement exempts d’erreur de toute facon. C’est meme de l’orgueil de tenter cela, qu’il s’agisse d’un programme de conditionnement physique personnel, du processus de developpement de produits dans une startup ou de la conception de services d’un aeroport. Ce pour quoi vous devriez vous epanouir, c’est de les rendre infaillibles. Des systemes qui fonctionnent independamment des erreurs.
Un bon systeme vous aide a rester en bonne sante, meme si vous buvez et faites la fete occasionnellement. Un bon systeme vous aide a en faire plus independamment de la procrastination. Un bon systeme vous aide a expedier le MVP independamment des problemes de developpement.
Chaque jour, entre une et cinq de vos cellules dans votre corps deviennent cancereuses. Mais votre systeme immunitaire est suffisamment efficace pour les capturer et les tuer. Pensez-y. Deux douzaines de fois par semaine, bien plus d’un millier de fois par an, vous contractez la maladie la plus redoutee de notre epoque, et a chaque fois votre corps s’auto-corrige.