Наша команда создаёт инфраструктуру для ML в Яндексе. Мы сконцентрированы на улучшении утилизации GPU:
- Разрабатываем сервис анализа ML-процессов на основе логов — он покажет, что происходило в любой момент времени в процессе обучения и какая утилизация GPU была в этот момент
- Создаём сервис, который будет снимать GPU-профиль со всех ML-сервисов в компании: сервис будет предоставлять разработчикам профиль для глубокого анализа их процесса обучения, а также позволит нам увидеть, на что тратятся ресурсы GPU во всей компании
- Самостоятельно запускаем различные ML-сервисы наших коллег, ищем в них проблемы с утилизацией, читаем и пишем код прямо в них — в результате получаем драгоценный опыт использования собственных инструментов, показываем их полезность и приносим компании исчислимую выгоду за счёт высвобождения GPU
Мы планируем и дальше улучшать утилизацию GPU, а также расширять сферу деятельности в сторону упрощения работы ML-разработчиков, ускорения цикла экспериментирования и упрощения переиспользования моделей.