Senior Go-разработчик в ML/AI команду Deckhouse Kubernetes Platform

О компании

«Флант» — лидер российского рынка DevOps и Kubernetes. С 2008 года мы занимаемся созданием и обслуживанием инфраструктуры любого масштаба. С 2017 года развиваем продукты Deckhouse, которые упрощают разработку, доставку и эксплуатацию приложений. А ещё консультируем по DevOps-практикам и технологиям.

Более 260 компаний доверяют нам свои инфраструктуры и уже внедрили продукты Deckhouse. Сейчас во «Фланте» работают 500+ человек, большая часть из которых — инженеры. Мы регулярно контрибьютим в Open Source-технологии, на которых строим свои продукты, и входим в топ-50 контрибьюторов проектов CNCF за последние 10 лет. А ещё разрабатываем собственные Open Source-инструменты: у нашей утилиты werf уже 4,5 тысяч звёзд на GitHub, а под управлением Community-редакции Deckhouse Kubernetes Platform развёрнуто больше 550 кластеров.

О Deckhouse

В Deckhouse мы разрабатываем экосистему продуктов для Cloud Native-разработки и ведущую K8s-платформу в России. Наши продукты закрывают для инженеров других компаний весь спектр инфраструктурных задач: от управления контейнерными нагрузками и удобной доставки приложений до сложной виртуализации и наблюдаемости. А также автоматизируют рутину разработчиков: помогают им хранить секреты, управлять версиями кода, логами и решать множество других задач.

Мы создаём лучший набор инструментов для разработки, поддержки и эксплуатации ПО. Уже сейчас Deckhouse — это больше 200 компонентов, значительная часть которых доступна в Community-версии. У нас вы будете писать enterprise-фичи с нуля и разрабатывать сложные продукты, которые при этом должны быть понятными конечному пользователю и надёжно работать без вмешательства инженеров Deckhouse, даже в закрытом контуре без доступа в интернет. Это непросто, но очень интересно.

О команде

Мы развиваем ML/AI-направление в Deckhouse Kubernetes Platform: разрабатываем компоненты, которые обеспечивают весь жизненный цикл работы платформы с искусственным интеллектом.

Инфраструктурный слой даёт единое управление различными GPU: обнаружение и корректная выдача ресурсов для подов, их нарезка, профилирование для максимизации утилизации, наблюдаемость, установка и обновление всех необходимых компонентов видеокарт на узлах.

Инференс-слой превращает набор рантаймов (vLLM, Ollama и др.) и оркестраторов в продуктовый опыт: пользователь выбирает модель и «движок», платформа поднимает полноценный inference-сервис.

Дальнейшее развитие — RAG/агенты, guardrails и мониторинг качества/безопасности, ML pipelines (Airflow/JupyterHub/MLflow/Train) и UI.

Чем предстоит заниматься:

Проектировать и создавать Kubernetes-операторы/контроллеры и модули K8s-платформы Deckhouse, которые будут работать у множества клиентов в разнородных окружениях.

Основные задачи:

Спроектировать и реализовать CRD/API и контроллеры (операторы) для модуля GPU и компонентов inference-платформы.
Интегрировать рантаймы/оркестраторы инференса в модель «self-service»: декларативное описание ресурса → работающий сервис.
Реализовать best practices platform engineering: идемпотентные reconciliation loops, корректная обработка ошибок, обратная совместимость, версии схем, миграции.
Писать тесты (unit/integration/e2e), развивать CI, обеспечивать воспроизводимость релизов.
Совместно с DevOps/SRE-инженерами превращать прототипы и R&D-обвязки в промышленный продукт: стабильность, диагностика, наблюдаемость, эксплуатационные сценарии.
Документировать и улучшать UX платформы для инженеров эксплуатации и пользователей.

Требования:

Уверенное знание Go (проектирование, concurrency, интерфейсы, тестирование, качество кода).
Практический опыт разработки под Kubernetes: client-go/controller-runtime, CRD, RBAC, webhooks (mutating/validating) — либо эквивалентный опыт расширения K8s API.
Понимание жизненного цикла Kubernetes-объектов, принципов scheduling/quotas/limits и работы с ресурсами.
Опыт создания production-grade-компонентов: наблюдаемость, стабильность, совместимость, эксплуатация.
Умение работать с архитектурой: принимать и обосновывать решения, декомпозировать сложные задачи.

Будет плюсом:

GPU-стек (NVIDIA device plugin / DCGM / MIG и т. п.), опыт оптимизации утилизации GPU.
Опыт с KServe / KubeRay / llm-d и inference-рантаймами (vLLM / Ollama / SGLang / Triton).
Опыт с Envoy / API gateway / service mesh, gRPC.
Опыт работы в продуктовой команде.

Почему к нам:

Реальная platform-engineering-задача: GPU + Kubernetes + inference на уровне вендорского продукта.
Возможность влиять на архитектуру и стандарты реализации, делать «правильно» и надолго.
Сильная связка R&D ↔ продукт: прототипы быстро превращаются в поддерживаемый enterprise-софт.

Оплата и Условия

Работа в ИТ-компании, аккредитованной Минцифры.
Полностью «белая» заработная плата и её регулярная индексация по итогам performance reviews.
ДМС со стоматологией, страховкой от несчастных случаев и чек-апом.
Индивидуальные уроки на онлайн-платформе, где можно выбрать английский, немецкий, французский, итальянский или испанский язык.
Компенсация 50% стоимости сессий на онлайн-сервисе психотерапии «Ясно».
Бесплатные курсы Deckhouse Academy.
Полностью удалённая работа в рамках РФ — нужен только доступ в интернет.
Современное «железо» от компании.
Органическое неприятие бюрократии на уровне корпоративной культуры.
Понятные цели и перспективы.
Результаты труда, которыми можно гордиться.

Если вакансия заинтересовала — напишите нам на hr@flant.ru или укажите любой свой контакт в форме ниже.

Расскажите о себе