Если бы у ИИ были глаза, этот уже бы прищурился и сказал: «Ща всё разгляжу». Baidu представила ERNIE‑4.5‑VL‑28B‑A3B‑Thinking — открытый мультимодальный мозг под Apache 2.0, который, по заявлениям компании, обходит Gemini 2.5 Pro и GPT‑5‑High на ряде визуальных бенчмарков. И делает это экономно: всего 3 млрд активных параметров при общем объёме 28 млрд — спасибо маршрутизации в стиле Mixture‑of‑Experts.
Фирменный трюк называется Thinking with Images: модель свободно «зумит» изображение, прыгая от общего плана к мелочам, как внимательный инженер над схемой или контролёр ОТК над микротрещиной. Добавьте улучшенную визуальную привязку объектов и получаем кандидата для промышленных сценариев — от складской роботики до контроля качества.
Практика важнее теории, и тут ERNIE выглядит дружелюбно к бюджету: по документации он запускается на одном 80 ГБ GPU — железе, доступном многим дата‑центрам. В комплекте — совместимость с Hugging Face Transformers, vLLM для продакшн‑инференса и Baidu FastDeploy с квантованием. Для разработчиков Baidu предлагает ERNIEKit: «промышленный» набор для обучения, сжатия и интеграции инструментов — вплоть до image search и специализированных парсеров рассуждений.
Где он особенно уместен? Автоматизация документов (счета, контракты, формы), анализ графиков и таблиц, поддержка клиентов по фото, да и видеоаналитика — заявлена хорошая временная осведомлённость и локализация событий. Плюс STEM‑задачи «с фото» — там, где текст и картинка должны мыслить заодно.
Но сохраняем трезвость. Независимая валидация сравнений с гигантами ещё впереди, 128K контекста — много, но не бесконечно, а видео всё ещё прожорливо к ресурсам. MoE облегчает инференс, но добавляет нюансов в развёртывание и маршрутизацию экспертов. И хотя Apache 2.0 снимает лицензионные барьеры, эксплуатация потребует дисциплины: мониторинг, обновления, тесты на устойчивость и смещения.
В большой картине ERNIE‑4.5 — часть семейства из разнокалиберных модальностей с параметр‑шарингом, что помогает не проседать по тексту и наращивать визуальное понимание. Если обещания Baidu подтвердятся, рынок корпоративного ИИ получит редкую комбинацию: мощные мультимодальные навыки, внятная стоимость владения и открытая лицензия. Не революция за ночь — но заметный сдвиг в сторону доступного «мышления картинками».
