Если мозги были бы чемоданом, этот взял ручную кладь — и всё равно обыграл весь бизнес-класс. Weibo представила VibeThinker-1.5B, скромный по параметрам (1,5 млрд), но наглый по результатам открытый LLM, дообученный от Qwen2.5-Math-1.5B и выпущенный под MIT. Скачать можно на Hugging Face, GitHub и ModelScope — без ограничений на коммерческое использование.
Главная интрига — не размеры, а тренировка. Вместо «давим Pass@1 любой ценой» команда применяет принцип Spectrum-to-Signal (SSP): сначала SFT расширяет «спектр» возможных корректных решений (гоняем Pass@K и стимулируем разнообразие), затем RL через MGPO (MaxEnt-Guided Policy Optimization) усиливает самый надёжный «сигнал», целясь в те случаи, где модель неуверенна, и обучая её именно там. Результат — маленькая сеть исследует пространство рассуждений шире, чем многие громилы.
Цифры впечатляют. На AIME25 — 74.4, на LiveCodeBench v6 — 51.1, на GPQA-Diamond — 46.7; на AIME24 модель берёт 80.3 и в формальном рассуждении обходит DeepSeek R1 (671B). На задачах математики и кода VibeThinker достигает паритета с моделями в сотни раз крупнее, хотя по энциклопедическим вопросам (GPQA) «толстяки» пока впереди — закономерная плата за компактность.
Ещё один сюрприз — стоимость. Пост-тренировка обошлась в $7800 (примерно 3900 GPU-часов на Nvidia H800), что в десятки раз дешевле бюджетов, привычных для «разумников» этого уровня. Рекомендованные настройки инференса: temperature 0.6, top_p 0.95, контекст до 40 960 токенов.
Для бизнеса это сдвиг в архитектуре: появляется возможность запускать рассуждающие агенты локально — на сервере с ограниченным бюджетом, на краю сети, даже в авто или смартфоне. Латентность ниже, контроль выше, стоимость инференса — на порядки приятнее. Плюс прозрачная методология SSP/MGPO — хороший рецепт для команд, которые хотят выжать максимум из небольших чекпойнтов вместо гонки за триллионами токенов.
Для самой Weibo это больше, чем релиз модели: это заявка на роль техплатформы, а не только медиа-сервиса. Мал, да удал — и явно с характером.
