Bluffs - Google explică cauza întreruperii serviciilor sale ce a avut loc luni

Google explică cauza întreruperii serviciilor sale ce a avut loc luni

ionutdrg45 - December 19, 2020, 11:23 am
Tags: google, 14 dec 2020, google oauth, paxos, gmail, drive, service down
PXpB4ay.png (1800×900)

Google a început săptămâna cu o mare întrerupere care a afectat Gmail, Drive și toate celelalte aplicații Workspace. După cum a fost promis, Google are acum o explicație detaliată privind întreruperea și măsurile pe care le va lua pentru a preveni incidentele viitoare.

Conform datelor prezentate, întreruperea de luni, 14 decembrie 2020 a avut o durată de 47 de minute, timp în care serviciile Google orientate către clienți solicitau accesul Google OAuth ce nu era disponibil. Conturile Cloud Service nu au fost afectate si au putut fi utilizate în continuare.

Care a fost cauza problemei?

Servicul Google User ID menține un identificator unic pentru fiecare cont și gestioneaza acreditările de autentificare pentru jetoanele si cookie-urile OAuth, datele sunt stocate într-o bază de date distribuita, care folosește protocoalele Paxos pentru a coordona actualizările, astfel, din motive de securitate aceste protocoale vor respinge datele considerate învechite.

Google folosește o suită de instrumente de automatizare în evoluție pentru a gestiona cota diverselor resurse alocate pentru servicii, astfel în urma unei migrații continue a Serviciului Google User ID către un sistem nou de cote, în octombrie s-a făcut o modificare pentru a face înregistrarea serviciului cu un nou sistem de cote, dar părți din sistemul de cote anterior au fost lăsate la locul lor, care au raportat incorect utilizarea Serviciului User ID ca 0. O perioada de grație existentă cu privire la aplicarea restricțiilor de cote a întarziat apariția problemei, dar aceasta perioada a expirat și datele "vechi" nu au mai trecut protocoalele Paxos, astfel facându-și apariția problema de luni.

Cum a fost remediata problema?

Domeniul de aplicare al problemei a fost imediat clar pe măsură ce noile cote au intrat în vigoare. Acest lucru a fost detectat prin alerte automate pentru capacitate la 14 decembrie 2020 03:43 SUA / Pacific și pentru erori cu serviciul de identificare a utilizatorului începând cu 03:46, care au paginat inginerii Google la 03:48 în decurs de un minut de la impactul clientului. La 04:08 a fost identificată cauza principală și o posibilă remediere, ceea ce a dus la dezactivarea aplicării cotei într-un centru de date la 04:22. Acest lucru a îmbunătățit rapid situația, iar la 04:27 aceeași atenuare a fost aplicată tuturor centrelor de date, care au readus ratele de eroare la nivelurile normale până la 04:33. După cum este prezentat mai jos, unele servicii pentru utilizatori au durat mai mult pentru a se recupera complet.

Pe lângă soluționarea cauzei de bază, vom implementa modificări pentru a preveni, reduce impactul și vom comunica mai bine despre acest tip de eșec în mai multe moduri:

1. Examinați automatizarea gestionării cotelor pentru a preveni implementarea rapidă a modificărilor globale

2. Îmbunătățiți monitorizarea și alertarea pentru a prinde mai devreme configurații incorecte

3. Îmbunătățiți fiabilitatea instrumentelor și procedurilor pentru postarea comunicațiilor externe în timpul întreruperilor care afectează instrumentele interne

4. Evaluați și implementați o rezistență îmbunătățită la eșecul la scriere în baza noastră de date a serviciului ID utilizator

5. Îmbunătățiți rezistența serviciilor GCP pentru a limita mai strict impactul asupra planului de date în timpul eșecurilor serviciului ID utilizator

Descrierea detaliată a problemei

Luni, 14 decembrie 2020 de la 03:46 la 04:33 SUA / Pacific, emiterea acreditării și căutarea metadatelor contului pentru toate conturile de utilizator Google nu au reușit. Ca urmare, nu am putut verifica dacă solicitările utilizatorilor au fost autentificate și au transmis erori 5xx pe aproape tot traficul autentificat. Majoritatea serviciilor autentificate au avut un impact similar asupra planului de control: rate ridicate de eroare în toate API-urile și consolele Google Cloud Platform și Google Workspace. Produsele au continuat să furnizeze servicii în mod normal în timpul incidentului, cu excepția cazurilor în care sunt specificate mai jos. Majoritatea serviciilor s-au recuperat automat într-o perioadă scurtă de timp după ce problema principală s-a încheiat la 04:33. Unele servicii au avut un impact unic sau persistent, care este detaliat mai jos.

Cloud Console

Utilizatorii care nu s-au autentificat anterior în Cloud Console nu au putut să se conecteze. Este posibil ca utilizatorii care s-au autentificat deja să poată utiliza Cloud Console, dar poate că au văzut unele caracteristici degradate.

Google BigQuery

În timpul incidentului, solicitările de streaming au returnat ~ 75% erori, în timp ce joburile BigQuery au returnat ~ 10% erori în medie la nivel global.

Google Cloud Storage

Aproximativ 15% din solicitările către Google Cloud Storage (GCS) au fost afectate în timpul întreruperii, în special a celor care utilizează autentificarea OAuth, HMAC sau prin e-mail. După 2020-12-14 04:31 SUA / Pacific, majoritatea impactului a fost rezolvată, cu toate acestea, a existat un impact persistent, pentru <1% dintre clienții care au încercat să finalizeze încărcările reluate care au început în timpul ferestrei. Aceste încărcări au fost lăsate într-o stare care nu poate fi reluată; codul de eroare returnat de GCS a fost reîncercabil, dar reîncercările ulterioare nu au reușit să progreseze, lăsând aceste obiecte nefinalizate.

Rețeaua Google Cloud

Planul de control al rețelelor a continuat să vadă rate de eroare ridicate la operațiuni până când s-a recuperat complet la 14 decembrie 2020 05:21 SUA / Pacific. Au fost afectate doar operațiunile care au făcut modificări la rețeaua VPC a planului de date. Toate configurațiile existente în planul de date au rămas operaționale.

Google Kubernetes Engine

În timpul incidentului, aproximativ 4% din solicitări către API-ul planului de control GKE nu au reușit și aproape toate încărcările de lucru gestionate de Google și ale clienților nu au putut raporta valori către Cloud Monitoring.

Credem că aproximativ 5% din solicitări către planurile de control Kubernetes au eșuat, dar nu avem măsuri exacte din cauza valorilor nedeclarate de monitorizare cloud.

Până la o oră după întrerupere, ~ 1,9% noduri au raportat condiții precum StartGracePeriod sau NetworkUnavailable care ar putea avea un impact asupra încărcărilor de lucru ale utilizatorilor.

Google Workspace

Toate serviciile Google Workspace se bazează pe infrastructura contului Google pentru autentificare, autentificare și aplicarea controlului accesului la resurse (de exemplu, documente, evenimente din Calendar, mesaje Gmail). În consecință, toate aplicațiile Google Workspace autentificate nu au funcționat pe durata incidentului. După ce problema a fost atenuată la 14 decembrie 2020 04:32 SUA / Pacific, aplicațiile Google Workspace s-au recuperat, iar majoritatea serviciilor au fost recuperate complet până la ora 05:00. Unele servicii, inclusiv Google Calendar și Google Workspace Admin Console, au difuzat erori până la 05:21 din cauza unei creșteri a traficului după recuperarea inițială. Unii utilizatori Gmail au întâmpinat erori până la o oră după recuperare din cauza memorării în cache a erorilor din serviciile de identitate.

Suport Cloud

Instrumentele interne ale asistenței cloud au fost afectate, ceea ce a întârziat capacitatea noastră de a partaja comunicațiile de întrerupere cu clienții de pe Google Cloud Platform și Google Workspace Status Dashboards. Clienții nu au putut să creeze sau să vizualizeze cazuri în Cloud Console. Am reușit să actualizăm clienții la 14 decembrie 2020 05:34 SUA / Pacific după ce impactul sa încheiat.

Majoritatea datelor prezentate în acest articol sunt preluate, reinterpretate din anunțul oficial al Google ce poate fi accestat accesand urmatorul link.

Comments
No comments to display.