Бэкенд сервисов Яндекса обрабатывает сотни цепочек действий в секунду и состоит более чем из тысячи микросервисов, над которыми работают сотни программистов. Ежедневно они заводят как минимум один микросервис и выкатывают сотни релизов в продакшен. Без дополнительных инструментов такая система не будет стабильно работать.
Наша команда отвечает за надёжность Такси, Еды, Лавки, Доставки, Маркета и других сервисов Яндекса. Мы развиваем инструменты, чтобы управлять мониторингами, просматривать логи и трассировки в реальном времени, анализировать большой объём данных, проводить полную диагностику сервиса и автоматизировать все эти процессы.
Примеры наших задач:
- обнаружение аномалий на метриках всех сервисов;
- развитие критичных подсистем логирования и трассировок, работающих с сотнями терабайт данных;
- уведомление ответственных за сервисы об обнаруженных проблемах;
- автоматическая генерация дашбордов для быстрого анализа работоспособности сервисов и системы.
#ТехПлатформа