От надежности HaaS напрямую зависит работоспособность Yandex, ведь HaaS выполняет деструктивные операции с хостами, которые могут привести к временной недоступности и даже к потере данных наших пользователей. Людям свойственно ошибаться (как операторам, так и разработчикам), и система сама должна защищать нас от ошибок, а ее архитектура — уменьшать радиус поражения в случае фатальных ошибок. Поэтому многие из задач будут направлены на повышение надежности, для чего потребуется переработка текущей архитектуры.
Кроме того, HaaS нужны интеграционные тесты. Чтобы быть уверенными в том, что мы (или смежные сервисы) ничего не сломаем новыми изменениями, ручного тестирования недостаточно. Нужен механизм, который автоматически прогонит тесты в максимально приближенном к реальности окружении, при этом не сильно увеличив время релиза.
Важна экономия — нужно не только уменьшать время простоя серверов при починке, но и автоматизировать процессы вокруг HaaS. Плановые работы с серверами отнимают много времени множества команд вокруг. Часть процессов уже автоматизирована, и это позволило избавиться от рутины и заняться более полезными для компании делами. Но останавливаться на достигнутом рано.
Нам нужны те, кто готов к таким вызовам и задачам и готов вместе с нами сделать HaaS лучше.
Мы свяжемся с вами в течение недели.