Разработчик в команду надёжности Такси

Привет, меня зовут Вадим Мартынов. Мы делаем инструменты и проекты, влияющие на аптайм всего бизнеса Такси: это chaos engineering, эмуляторы заказов, автоматика восстановления, инструменты observability, запланированные деградации, congestion control и многое другое. Ищем разработчика, который готов вместе с нами делать новые проекты и улучшать надёжность крупного продукта с сотнями сервисов и миллионами пользователей.

Вадим Мартынов

Руководитель команды разработки платформы надёжности в Такси

Наша команда разработки отвечает за надёжность и отказоустойчивость сервиса Такси. Подробнее о нашей работе можно узнать из видео Антология технологий Яндекс Такси. Надёжность сервиса. Больше технических деталей о проектах, которые мы разрабатываем, — в докладе Инструменты надёжности Такси.

Наши основные цели:

  • Уменьшить число инцидентов в продакшене: мы анализируем причины отказов, находим узкие места и решаем эти проблемы, предотвращая инциденты
  • Уменьшить среднее время восстановления и нахождения корневой причины: для этого повышаем observability, развиваем graceful degradation, делаем инструменты для координации инцидентов и автоматизируем восстановление Над какими проектами вам предстоит работать:
  • Развитие chaos engineering. Мы целенаправленно внедряем ошибки, чтобы получить дополнительные знания о системе и найти скрытые угрозы надёжности. Нужно будет автоматизировать проведение хаоса, добавлять новые типы отказов и повышать наблюдаемость учений. Подробнее про наш хаос мы рассказали на митапе.
  • Виртуальные заказы. Мы определяем ёмкость системы с учётом конфигурации железа, сервисов и баз данных, симулируем разные сценарии и находим узкие места, которые влияют на работу системы при пиковых нагрузках. Для этого виртуальные водители возят виртуальных пассажиров по реальным маршрутам.
  • Расширенный аудит действий в системе. Такси — это сотни микросервисов и баз данных, тысячи изменяющихся конфигов и частые релизы. Для повышения observability и поиска коренных причин инцидентов нам важно видеть полную картину, что изменилось до начала инцидента. Мы расширяем набор источников изменений и улучшаем инструменты для анализа.
  • Автовосстановление при сбоях. Создаём автоматику, которая реагирует на начало инцидента, снимает нагрузку с системы и откатывает потенциально опасные изменения.
  • Дашборд координации инцидентов. Собираем в один инструмент основную информацию и действия, которые могут понадобиться дежурному при инциденте.
  • Повышение observability. Развиваем сбор и отображение метрик и другой телеметрии, чтобы дать командам продуктов более полную картину о работе их сервисов.
  • Anomaly detection. Собираем статистику и отслеживаем деградацию сервисов, чтобы сохранять качество системы и осознанно подходить к потреблению ресурсов.
  • Graceful degradation. Автоматика, которая позволяет срезать нагрузку и отключать некритичные части системы при инцидентах.

Какие задачи вас ждут

Разработка
Вам предстоит улучшать работу с ретраями и амплификацией нагрузки, реализовывать гибкий производительный эмулятор действий пользователей, который позволит моделировать работу Такси в разных режимах. Создавать сервис хаос-сценариев для регулярного тестирования критичности сервисов, добавлять новые сценарии внедрения ошибок в сервисы Такси, реализовывать сервис для отслеживания деградации latency в системе.

Архитектура
Вы будете влиять на образ проектов, которыми занимаетесь: проектировать сервисы, выбирать способы реализации и проводить эксперименты. Благодаря этому будете находить наиболее подходящие решения и оказывать влияние на надёжность и устойчивость всего сервиса Такси.

Исследования
Мы вместе исследуем систему и ищем новые проекты для повышения надёжности, внедряем решения и практики, которые будут касаться большого количества команд и микросервисов.

Мы ждём, что вы

  • Знаете или готовы изучать несколько языков программирования: большую часть кода в команде мы пишем на Python и C++
  • Понимаете архитектуру распределённых систем

Будет плюсом, если вы

  • Интересуетесь отказоустойчивостью и reliability
  • Готовы повышать надёжность огромного сервиса с миллионами пользователей

Что мы предлагаем

Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев.

А также:
  • психотерапия в офисе или онлайн-сервисах;
  • лазерная коррекция зрения через год работы;
  • ведение беременности и роды — через два года.
Страховка для родственников по системе 80/20

Мы оплачиваем 80% стоимости ДМС для детей и супругов, вы — остальные 20%.

В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей.

А также:
  • оплата участия в профильных конференциях;
  • скидка 50% на изучение иностранных языков.

Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов.

Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей.

Можете заниматься самостоятельно, а можете с корпоративным тренером.

А также:
  • бесплатные онлайн-тренировки с FITMOST;
  • скидки в фитнес-клубах, бассейнах, студиях йоги, скалодромах и других местах.
Спортивный клуб Яндекса

В Яндексе есть спортивный клуб и много спортивных команд. У них есть свои лидеры, чаты, программы тренировок. А ещё они регулярно участвуют в забегах, триатлонах, «Гонке героев», футбольных и других соревнованиях.

Вы сможете присоединиться к существующим командам или собрать свою.

Гибкий график

У нас нет фиксированного времени начала и конца рабочего дня — работайте так, как удобно вам и вашей команде.

Гибридный формат

Если для ваших задач не нужно быть в офисе каждый день, можно приходить 2–3 раза в неделю.

Всё для детей

Страхование, детские дни в офисе, подарки на рождение детей и чекапы при планировании беременности.

Жилищные займы

Льготная ставка на покупку жилья и улучшение жилищных условий — в зависимости от стажа, позиции и результатов ревью. Действует для сотрудников, работающих в российских офисах Яндекса.

Спасибо за отклик!

Мы свяжемся с вами в течение недели.

Fri Feb 09 2024 12:47:58 GMT+0300 (Moscow Standard Time)