AI-инференс: как Inferact привлекает 150M для vLLM

AI-инференс: как Inferact привлекает 150M для vLLM

Пока вы считали бюджет на очередной VPS, vLLM оценили в $800M. Inferact подняли $150M, чтобы превратить открытый движок для инференса в коммерческую машину, а это значит одно: гонка за дешевым и быстрым запуском LLM вошла в фазу, где вам уже не дадут спокойно жить со своим «одним маленьким сервисом на 13B».

Если по сути: команда Inferact (это те самые люди из мира vLLM) получила деньги, чтобы упаковать «быстрый инференс» в продукт и продавать его как сервис и как стек. Туда же — оптимизация работы моделей, экономия на GPU, гибкое масштабирование, вся вот эта песня. Для Запада это шанс убрать боль с развертыванием LLM в прод, для нас — сигнал, что «просто поднять свою модельку» становится экономически бессмысленно. И да, это не какой-то абстрактный ресерч: стартап сразу зашел с оценкой под миллиард, значит, рынок верит, что инференс стал новым нефтью.

Я сижу в два ночи, листаю статью на TechCrunch, n8n на соседней вкладке опять жрет память, и у меня одно ощущение: нас аккуратно выдавливают из зоны «сам себе DevOps для ИИ». Inferact обещают сделать запуск LLM таким же скучным, как вызов API к облаку. Все кричат «прорыв в оптимизации vLLM», а я вижу три красных флага: полная зависимость от чужого стека, непрозрачные косты, плюс юридический ад, если вы обрабатываете персональные данные. Для российских автоматизаторов это означает: чем удобнее там, тем больнее здесь, где 152-ФЗ не интересует никого, кроме вас.

Честно? Я в шоке не от $150M, а от того, как быстро закрывают кислород всем, кто строил свои скриптовые зоопарки вокруг open-source vLLM и «мы сами всё оптимизируем». Это не баг, нет, скорее фича, которую никто не просил: берут открытые идеи, обкладывают их сервисами, SLA, маркетингом — и через год вы уже выглядите динозавром со своими Docker-compose и ручным тюнингом. С одной стороны, круто: появится эталон, как должен выглядеть нормальный прод по инференсу. С другой — помню, как похожий кейс у клиента рухнул, когда западный провайдер внезапно сменил политику и половина интеграций поехала в кювет.

Я три года наблюдаю, как команды в России сначала влюбляются в западные AI-инструменты, а потом судорожно прикручивают костыли, чтобы не словить штраф по персональным данным. Для российских команд это простой вывод: «Если вы обрабатываете чувствительные данные, прямое сидение на чужом инференсе — билет в лотерею». Кому сейчас срочно смотреть в сторону таких решений? Продуктам без PII, R&D-отделам, маркетинговым и контентным потокам — там экономия на GPU и скорость инференса реально решают. Кому подождать: финтех, мед, гос, всё, где вам потом перед Роскомнадзором отвечать лично.

Самое неприятное, что через год-два именно такие Inferact будут де-факто стандартом для «нормального» ИИ-прода, а у вас в России будут спрашивать: «А почему так дорого и медленно?» И вот здесь уже поздно будет объяснять, что у вас локальный кластер, 152-ФЗ и бухгалтерия, которая не любит валютные платежи. Поэтому вопрос один: вы хотите быть в числе тех, кто сейчас учится строить свои, пусть менее блестящие, но контролируемые стеки, или надеетесь, что импортный vLLM-сервис как-нибудь сам подстроится под наши реалии?

Читать оригинал новости →

Больше разборов AI-инструментов без воды — в моём телеграм-канале. Пишу про то, что реально работает в России.

Метки: , , ,