You are viewing [info]yandex's journal

← Предыдущая запись Add to Memories Share Следующая запись →

Сбой на Яндексе

Сегодня в течение нескольких часов сервисы Яндекса были недоступны. Это произошло из-за проблемы с маршрутизацией в сети Яндекса. С работой дата-центров, DDoS-атаками, пожарами, а также любыми другими внешними факторами это никак не связано. Сейчас основные последствия проблемы устранены. Никакие пользовательские данные не потеряны.

Мы приносим извинения всем нашим пользователям.

Для тех, кому интересно, более подробное описание:

Проблема вызвана ошибкой программного обеспечения на маршрутизаторе, расположенном в нашем новом дата-центре в Амстердаме. В Яндексе используются протоколы маршрутизации – внутренний протокол OSPF и внешний протокол BGP. Из-за ошибки информация обо всех внешних маршрутах оказалась во внутренних таблицах маршрутизации. Это примерно на три порядка больше маршрутов, чем обычно. Протокол OSPF не рассчитан на такое количество. В результате у всех маршрутизаторов кончилась память, и они перестали работать. Нарушилась работа сети, и через несколько минут Яндекс стал полностью недоступен.

Внутренняя сеть тоже не работала. Поэтому нашим специалистам потребовалось потратить много времени для того, чтобы по цепочке добраться до источника проблемы.

Администраторы исправили ошибку на маршрутизаторе. После этого, чтобы снять лишнюю нагрузку с остальных маршрутизаторов, которых у нас больше сотни, нашим специалистам пришлось разделить сеть на несколько частей. Количество трафика снизилось, у маршрутизаторов появилось больше свободной памяти, и они смогли самостоятельно восстановить связность сети.

Сеть начала постепенно подниматься. Через некоторое время сервисы Яндекса стали доступны большей части пользователей.

Владимир Иванов,
делаю sh ip bgp summary

.
Спасибо за честное сообщение.
Отличный сервис.
Молодцы !
Однако попробуйте теперь убедить миллионы сомневающихся в том, что Ваш сбой чисто случайно совпал с 20-й годовщиной ГКЧП. Тем более, что из-за очередной "модернизации" (руки бы пообломать этому СУПу!) сегодня весь день глючил ЖЖ.
вот ведь, классика с утечкой BGP никогда не стареет!
Спасибо! Вы - молодцы, я даже не боялась, а просто ждала, уверена была, что быстро работа возобновится.
Отдельную сеть на loopback-и и ospf только для них, а остальное через ibgp или приватные AS не рассматривали? Схема им. Василия Овсянникова.
Бонусы - маршрутизаторы всегда доступны и всегда туда можно зайти хотя бы по crash-паролю. Минусы - все минусы bgp. Балансировку - через MPPP и MPLS-туннели.
У меня к вам вопрос про счетчики. Буду признателен, если ответите:
http://i-cherski.livejournal.com/1780884.html