Иногда меньше — это больше, особенно когда счёт за облако выглядит как телефонный номер. Phi-4 от Microsoft пришёл с неожиданной шуткой на тему «размер имеет значение»: оказывается, важнее не мускулы параметров, а умные данные, поданные в правильной дозировке.

Сердце подхода — «data-first» SFT. Вместо гига-токенов — около 1,4 млн тщательно отобранных пар «вопрос–ответ». Команда целится в «учебную кромку»: задачи, где модель вот-вот поймёт, но пока спотыкается. Слишком лёгкие не дают сигнала, слишком сложные — не дают надежды. Сильный эталон (уровня GPT-4) выписывает ключи, слабее модель спорит — и мы ловим тот самый зазор, где и рождается обучение.

Второй трюк — модульность. Математика отдельно, код отдельно: каждую область доводят до упора, потом аккуратно смешивают, сохраняя прирост и там, и там. Это снижает комбинаторный хаос и даёт малым командам шанс расти по доменам без тотальной перетренировки.

Третий — синтетические «преображения». Сложные, плохо проверяемые задания переписывают в формы с однозначной верификацией: творческая геометрия превращается в вопрос «сколько равно AC?», длинный код — в словесную головоломку с чётким ответом. Так RL получает чистый сигнал вознаграждения, а команда — гарантированную проверку качества.

Результат? 14B-модель уверенно спорит с более габаритными соперниками на математике, коде и научных бenchmarks, местами подбираясь к гигантам на порядок крупнее. Не магия — инженерная диета: фильтрация данных, итеративные короткие прогонки (Phase 1), затем масштабирование проверенного рецепта (Phase 2).

Практика для предприятий проста:

  • найдите «край» возможностей вашей базы (расхождения, низкую уверенность);
  • доведите один домен до плато, заморозьте, добавьте следующий;
  • используйте синтетические варианты там, где нужна автоматическая проверка;
  • масштабируйте только после стабильного прироста на валидации.

Есть и оговорки: модульность не доказана для десятков доменов, а избыток синтетики сужает разнообразие. Но урок очевиден: разумная дидактика и строгая курация бьют грубую силу. Phi-4 напоминает: чтобы думать лучше, модели нужен не океан слов, а правильно подобранные вопросы.