ML/DL-разработчик-исследователь в группу качества претрейна YandexGPT

Претрейн — самый затратный с точки зрения GPU этап обучения нейросети на огромном массиве качественных или специализированных данных. В процессе претрейна нейросеть приобретает навыки и интеллект. Наша команда отвечает за рост общего интеллекта и навыков нейросети (это наши KPI). Именно мы приближаем YandexGPT к AGI с помощью всего арсенала ML/DL, исследований и новейших статей в области LLM. Конкурируем с международными ИT-гигантами (они тоже есть в наших KPI).

Мы — команда senior-исследователей прикладного R&D с большим опытом в областях ML и NLP. Читаем статьи в день публикации, видим в них подводные камни и натянутые результаты. Руководствуемся не только статьями, но и здравым смыслом, можем находить «хаки» и быстрые решения.

Присоединяйтесь к нам делать технологические прорывы, решать интересные задачи и творить историю LLM!

Какие задачи вас ждут

Улучшение главной языковой модели Яндекса
Мы собираем данные и улучшаем процесс обучения претрейна YandexGPT, участвуем в смежных задачах по улучшению бенчмарков, метрик, аналитики, алаймента.

Исследования на границе научного знания
Предстоит проводить эксперименты, разрабатывать новые подходы, читать новейшие статьи и имплементировать их, выступать на внутренних семинарах с докладами на тему LLM.

Весь арсенал машинного обучения и большие данные
У нас крайне разнообразные ML-задачи: классификаторы научных, художественных и новостных текстов (СatВoost, DSSM, transformer), кластеризация данных по темам или стилям, тематическое моделирование, обучение эмбеддингов и семантическая дедупликация текстов, улучшение generic-парсера, поиск аномалий в данных и многое другое. Всё фулстек и почти всегда с нуля. А ещё мы строим пайплайны, конвейеры обучения и инфраструктуру для обработки десятков петабайт данных (всё на MapReduce)