Привет! Я Дима Ермолов, руководитель группы разработки API в YT. Я отвечаю за ту часть системы, с которой непосредственно взаимодействуют наши пользователи. Мы создаём SDK, с помощью которых другие разработчики строят приложения поверх YT, и обеспечиваем эффективную передачу данных между YT и пользовательским кодом. Ищем людей, которым интересно создавать удобные интерфейсы и писать надёжный и производительный код.
Мы активно развиваем направление ML-инфраструктуры в Яндексе. Наша задача — сделать инфраструктуру эффективной и удобной для тысяч ML-инженеров, работающих в компании. Одной из ключевых систем, которую используют ML-инженеры, является YT. На кластерах YT происходит как запуск обучений, так и подготовка данных для них. То есть суперкомпьютеры Яндекса подключены к кластерам YT и активно используются для обучения передовых моделей, таких как Yandex GPT-3, Нейро и других.
Чтобы обучение работало эффективно, на тысячах GPU необходима удобная и надёжная инфраструктура. Например, обучения должны уметь переживать выход хостов из строя. Для этого требуется регулярно писать чекпойнты, размер которых может достигать десятков TB. Также необходимо уметь эффективно стримить данные из распределённого хранилища, причём поток данных, которые потребляет большое распределённое обучение, может составлять до 100 GB/s, а любые неоптимальности или задержки будут приводить к простою и недоутилизации дорогостоящих GPU.
Мы ищем инженера, который поможет нам построить удобную инфраструктуру для чтения и записи в YT для использования в ML-обучениях.
Мы искренне увлечены большими распределёнными системами и сложными техническими задачами. Многие из нас имеют академический опыт и до сих пор активно преподают — в МФТИ, ВШЭ, ШАД и других вузах. Несколько человек занимали призовые места в соревнованиях по спортивному программированию.
В команде сохраняется дух стартапа: дружно общаемся в рабочее и нерабочее время, вместе штурмуем задачи, экспериментируем и участвуем в CTF.
Прежде чем попасть в GPU, данные проделывают большой путь. Они читаются с HDD и SSD на машинах YT, кодируются в стабильный формат (например, JSON или Arrow) для передачи клиенту. На стороне клиента они декодируются кодом C++ и заворачиваются в Python-объекты для использования в библиотеках машинного обучения.
Предстоит разобраться во всём этом пути, убрать лишние конвертации, перейти на более эффективные форматы, а потом, вооружившись профайлером, найти узкие места и оптимизировать их.
Чтобы полностью утилизировать дорогостоящие видеокарты, процесс обучения обычно читает данные с разных машин YT несколькими потоками. Такие чтения сейчас создают повышенную нагрузку на мастер-сервера YT. Предстоит разработать новый протокол параллельных чтений, избавленный от этой проблемы, и реализовать его во всех компонентах: на мастере, на нодах, где хранятся сами данные, на прокси, которые являются входной точкой для пользователя, а также в самих пользовательских библиотеках.
ML-инженеры пишут свой код, пользуясь популярными фреймворками, такими как PyTorch или Jax. Наша задача — предоставить инструменты, которые бы позволяли максимально просто и нативно с точки зрения данных библиотек работать с YT.
Здоровье
Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев.
А также
Страховка для родственников по системе 80/20
Рост и развитие
В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей.
А также
Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов.
Спорт
Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей. Можете заниматься самостоятельно, а можете с корпоративным тренером.
А также
Спортивный клуб Яндекса
И еще
Команда Yandex Infrastructure создаёт и предоставляет внутреннюю инфраструктуру Яндекса — фундамент из продуктов и технологий, на базе которого тысячи инженеров разрабатывают, деплоят и эксплуатируют основные сервисы Яндекса: Поиск, Такси, Маркет, Алису, Кинопоиск и многие другие.