Un ancien ingénieur du chaos propose 5 conseils pour gérer à distance les catastrophes en ligne

J’ai récemment eu une téléconférence prévue avec une entreprise du Fortune 100.

Tout de mon côté était prêt à partir; ma présentation a été préparée et bien pratiquée. J’étais sur le point de parler à 30 chefs d’entreprise qui étaient prêts à en savoir plus sur la façon dont ils pourraient devenir plus résistants aux pannes majeures.

Malheureusement, leur équipe n’avait pas configuré les autorisations appropriées dans Zoom pour ajouter de nouvelles personnes à un domaine de confiance, je n’ai donc pas pu partager mes diapositives. Nous nous sommes efforcés de trouver une solution de contournement à la dernière minute pendant que les VP et CTO réunis attendaient. J’ai fini par envoyer ma présentation par e-mail à leur coordinateur, en appelant depuis mon mobile et en indiquant verbalement au coordinateur quand la prochaine diapositive devait être affichée. Inutile de dire que cela a perdu beaucoup de temps et n’était pas le moyen le plus efficace de présenter.

À la fin de la réunion, j’ai dit clairement que s’il y avait une chose avec laquelle ils devraient partir, c’est qu’ils avaient un besoin vital d’exécuter un exercice d’incendie en ligne avec leur équipe d’ingénieurs dès que possible. Parce que si une équipe est habituée à travailler ensemble dans un bureau – avec un accès aux outils et les autorisations appropriées en place – il peut être assez choquant de découvrir au milieu d’une panne majeure qu’ils ne peuvent pas répondre rapidement et de manière adéquate. Des problèmes comme ceux-ci peuvent transformer une brève panne en une panne qui dure des heures.

Contexte rapide à mon sujet: j’ai porté un téléavertisseur pendant une décennie chez Amazon et Netflix, et ce que je peux vous dire, c’est que lorsque l’un de ces services a été interrompu, beaucoup de gens étaient mécontents. Il y avait de nombreuses nuits où je devais sortir du lit à 2 heures du matin, me frotter le sommeil des yeux et travailler avec mon équipe pour identifier rapidement le problème. Je peux également vous dire que le travail à distance complique l’ensemble du processus si les équipes n’y sont pas habituées.

Il existe de nombreux articles sur les meilleures pratiques destinés à un public général, mais les équipes d’ingénierie ont des défis spécifiques en tant que responsables de la maintenance et du fonctionnement des services en ligne. Et bien que les grandes entreprises technologiques disposent déjà d’équipes et d’opérations informatiques sophistiquées, qu’en est-il des institutions financières et des hôpitaux et des autres secteurs où l’informatique est un outil, mais pas un objectif principal? Ce sont souvent les petites choses qui peuvent faire toute la différence lorsque vous travaillez à distance; des choses qui semblent évidentes pour le moment, mais qui peuvent avoir été négligées.

Voici donc quelques conseils pour gérer les incidents à distance:

Il y avait de nombreuses nuits où je devais sortir du lit à 2 heures du matin, me frotter le sommeil des yeux et travailler avec mon équipe pour identifier rapidement le problème … travailler à distance rend le processus plus compliqué si les équipes n’y sont pas habituées.



Traduit de l’anglais de https://techcrunch.com/2020/04/01/a-former-chaos-engineer-offers-5-tips-for-handling-online-disasters-remotely/

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.