Reasoning

Microsoft Phi-4 показал, что аккуратная, «учебная» подборка данных и дисциплинированный SFT с каплей RL способны превзойти куда более крупные модели. Меньше токенов — больше смысла: от отбора задач на грани умений до модульной настройки доменов и синтетических переписываний под проверяемые ответы.

Reasoning

Phi-4: когда ум данных сильнее массы параметров

Мал, да удал: VibeThinker-1.5B от Weibo переигрывает гигантов