Похоже, у смартфонов появился новый начальник — и это не вы, а ваши слова. Google выпустила FunctionGemma, крошечную (по меркам индустрии) модель на 270 млн параметров, которая умеет делать то, что обычные болтливые чатботы нередко саботируют: не рассуждать о прекрасном, а надежно запускать действия в приложениях.

Идея простая и практичная: FunctionGemma переводит команды на естественном языке в структурированный код/вызовы функций, которые устройство действительно может выполнить. Причем ключевой трюк — всё происходит локально, на телефоне, в браузере или на IoT-железке, без обязательного похода в облако. Пока мир продолжает соревноваться в триллионах параметров, Google делает ставку на Small Language Models как на новую «деталь конструктора» для продакшена.

Почему это важно? Потому что у генеративного ИИ есть знаменитая «щель исполнения»: модель может красиво объяснить, как включить будильник, но не всегда корректно сформирует команду set_alarm(time=07:30, label="спорт"). По внутренней оценке Google Mobile Actions «обычная» маленькая модель давала около 58% точности в задачах function calling. После заточки под конкретную роль FunctionGemma подпрыгнула до 85% — и это уже уровень, который может конкурировать с куда более крупными моделями, когда речь о дисциплине, а не о поэзии.

FunctionGemma доступна на Hugging Face и Kaggle, а «пощупать» можно через приложение Google AI Edge Gallery. В комплекте Google дает не только веса, но и «рецепт»: датасет Mobile Actions и совместимость с экосистемой вроде Hugging Face Transformers, Keras, Unsloth, NVIDIA NeMo. Это сигнал разработчикам: модель предполагается дообучать под свои API — будь то корпоративные внутренние команды или специфические действия в приложении.

Локальный подход дает три бонуса сразу: приватность (контакты и календарь не улетают на сервер), низкая задержка (без сетевого кругосветного путешествия), экономия (меньше обращений к платным облачным токенам). А на уровне архитектуры появляется новый паттерн: FunctionGemma как «диспетчер трафика» на устройстве. Частые команды обрабатываются на месте, а сложные запросы при необходимости отправляются большой облачной модели.

Лицензия — «open-ish»: коммерческое использование разрешено, но есть ограничения на вредные сценарии и условия, которые стоит внимательно прочитать. Впрочем, для большинства команд это выглядит как практичный компромисс: меньше магии, больше управляемости — и телефон, наконец, делает то, что вы сказали, а не то, что «понял по-своему».