Разработчик в команду распознавания текста

В Яндексе разрабатывается собственная технологии распознавания текста (OCR). С помощью этой технологии прямо в камере телефона пользователи Яндекс.Переводчика могут перевести надпись на памятнике или меню с 47 языков (включая не только языки на основе кириллицы и латиницы, например китайский, арабский, греческий и другие), пользователи Алисы и Яндекс.Картинок могут по сделанной фотографии поискать сообщение об ошибке, скопировать текст документа, перейти по ссылке с плаката и даже озвучить надпись на упаковке из магазина, сделанную мелким шрифтом. Помимо этого, технология используется во многих других сервисах и процессах в компании, а также доступна внешним пользователям в Яндекс.Облаке.

Мы хотим, чтобы наша технология показывала отличные результаты на самых сложных доменах (будь то надпись, выбитая в камне, текст на сильно помятом товаре или написанный по кругу) и при этом работала на мобильных устройствах.

Наши задачи лежат на стыке технологий CV (ведь на входе мы работаем с картинками) и NLP (для качественного распознавания найденных регионов нам необходимы хорошие знания о языковой модели).

Мы ждём, что вы

  • обладаете пониманием принципов машинного обучения;
  • имеете опыт решения прикладных задач с помощью технологий Deep Learning;
  • имеете опыт работы с одним из фреймворков Deep Learning (неважно, будет это TensorFlow, PyTorch, Caffe или что-то другое);
  • знаете классические алгоритмы и структуры данных, пишете понятный и легко поддерживаемый код;
  • интересуетесь последними публикациями в области Deep Learning.

Будет плюсом, если вы

  • знаете C++, потому что полученные модели вам придется самим внедрять в продакшен, ежедневно обрабатывающий миллионы запросов пользователей;
  • умеете работать с большими объемами данных, потому что мы считаем, что набор репрезентативного и как можно более чистого обучающего множества — это один из ключей к успеху.
Спасибо за отклик!

Мы свяжемся с вами в течение недели.

Fri Feb 09 2024 12:47:58 GMT+0300 (Moscow Standard Time)