Google приносит извинения и сообщает об инциденте, связанном с многочасовым отключением облака

Google извинилась за серьезный сбой, который, по словам компании, был вызван несколькими уровнями некорректных последних обновлений.
Компания опубликовала отчет об инциденте поздно вечером в пятницу, в котором объяснялись часы простоя в четверг. Более 70 облачных сервисов Google перестали работать должным образом по всему миру , что привело к остановке или нарушению работы десятков сторонних сервисов, включая Cloudflare , OpenAI и Shopify . Gmail, Google Calendar, Google Drive, Google Meet и другие сторонние продукты также работали со сбоями.
«Мы глубоко извиняемся за последствия этого сбоя», — написала Google в отчете об инциденте. «Клиенты Google Cloud и их пользователи доверяют свой бизнес Google, и мы будем работать лучше. Мы приносим извинения за последствия, которые это оказало не только на бизнес наших клиентов и их пользователей, но и на доверие к нашим системам. Мы стремимся вносить улучшения, чтобы избежать подобных сбоев в будущем».
Томас Куриан, генеральный директор облачного подразделения Google, также сообщил об отключении в своем сообщении X в четверг, заявив: «Мы сожалеем о перебоях, которые это вызвало у наших клиентов».
В мае Google добавила новую функцию в свои «проверки политики квот» для оценки автоматизированных входящих запросов, но новая функция не была немедленно протестирована в реальных ситуациях, написала компания в отчете об инциденте. В результате системы компании не знали, как правильно обрабатывать данные из новой функции, которые включали пустые записи. Эти пустые записи затем были отправлены во все регионы центров обработки данных Google Cloud, что и вызвало сбои, написала компания.
По данным компании, инженеры разобрались с проблемой за 10 минут. Однако весь инцидент продолжался еще семь часов после этого, а авария привела к перегрузке в некоторых крупных регионах.
При выпуске функции Google не использовала флаги функций, все более распространенную отраслевую практику, которая позволяет медленно внедрять ее, чтобы минимизировать влияние в случае возникновения проблем. Флаги функций выявили бы проблему до того, как функция стала бы широкодоступной, заявила Google.
В дальнейшем Google изменит свою архитектуру, чтобы в случае отказа одной системы она могла работать без сбоев, заявила компания. Google заявила, что также проведет аудит всех систем и улучшит свои коммуникации «как автоматизированные, так и человеческие, чтобы наши клиенты получали необходимую им информацию как можно скорее для реагирования на проблемы».
— Джордан Новет из CNBC принял участие в подготовке этого репортажа.
CNBC