Gmail : Plus d’infos sur la panne d’aujourd’hui

Cet Article est la traduction d'une annonce officielle publiée par Google.

Plus tôt dans la journée, l’interface web de Gmail a connu une panne généralisée pendant environ 100 minutes. Nous sommes conscients de l’importance de Gmail pour les particuliers et les professionnels, et nous le penons très sérieusement lorsque le service rencontre un problème. J’aimerai donc aujourd’hui vous présenter à tous des excuses — la panne d’aujourd’hui a été majeure, et nous la traitons en conséquence. Nous avons déjà enquêté sur les causes, et nous compilons actuellement une liste de choses à corriger ou améliorer suite à cette enquête.

Voici ce qu’il s’est passé : Ce matin (heure de San Fransisco), nous avons déconnecté une fraction des serveurs Gmail pour procéder à des maintenances de routine. Ce n’est pas en soit un problème — nous faisons cela tout le temps. Gmail est hébergé sur plusieurs serveurs, et le trafic de l’un est redirigé sur un autre en cas de problème ou de maintenance.

Cependant, comme nous le savons maintenant, nous avons légèrement sous-estimé la charge de certaines modifications récentes sur les routeurs (Ironie du sort, les fonctions en question étaient destinées à améliorer la disponibilité du serveur) – routeurs qui redirigent ensuite les requêtes vers le serveur Gmail approprié. A approximativement midi et demi (heure de San Fransisco, 21h heure de Paris), certains des routeurs ont été surchargés, et ont dit au reste du système de « ne plus nous envoyer de trafic, nous sommes trop lents ! ». Les requêtes ont alors été dirigées vers d’autres routeurs, les mettant à leur tour hors circuit. En l’espace de quelques minutes, presque tous nos routeurs étaient surchargés. Résultat, les gens ne pouvaient plus accéder à Gmail depuis l’interface web car leurs requêtes ne pouvaient plus être redirigées vers un serveur Gmail. Les accès IMAP/POP et le traitement des email a continué à fonctionné normalement, ces requêtes n’utilisant pas les mêmes routeurs.

L’équipe des ingénieurs Gmail a été alerté des failles en quelques secondes (nous prenons la surveillance très au sérieux). Après avoir établi que le coeur du problème était une capacité disponible insuffisante, l’équipe a connecté énormément de routeurs supplémentaires (la flexibilité est l’un des avantages de l’architecture de Google), a réparti le trafic sur tous ces routeurs, et l’interface web de Gmail était de retour.

Etape suivante : nous travaillons tous à garantir que ce problème ne puisse jamais se reproduire. Quelques-unes des actions ont déjà été accomplies — par exemple la mise à disposition de beaucoup plus de routeurs qu’il n’en faut afin d’avoir de la marge. D’autres actions sont plus subtiles — nous avons par exemple constaté que les routeurs n’ont pas une isolation suffisante (si il y a un problème dans un centre de données, il ne devrait en aucun cas affecté les serveurs dans un autre datacenter) et supportent mal la surcharge (si beaucoup de routeurs sont surchargés en même temps, ils devraient tous ralentir au lieu de refuser d’accepter le trafic). Nous travaillerons dur au cours des semaines à venir à améliorer la fiabilité du service — Gmail reste disponible à tous les utilisateurs 99.9% du temps, et nous nous sommes engagés à faire des problèmes d’aujourd’hui des évènements remarquables par leur rareté.

Par Ben Treynor, Vice-Président Ingénierie et Tzar de la fiabilité des sites

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>