Если раньше чатботы были просто «говорящей стеной из текста», то теперь стена обзаводится лицом и мимикой — и вежливо моргает, пока вы жалуетесь на жизнь и интернет.
Американский стартап Lemon Slice решил, что эпоха скучных текстовых интерфейсов давно прошла, и включил видео-турбо. Их новая модель Lemon Slice‑2 — это 20‑миллиардный диффузионный видеотрансформер, который из одной единственной фотографии собирает живой цифровой аватар, а затем в реальном времени воспроизводит его речь и движения. Причём работает это на одном GPU и тянет до 20 кадров в секунду — вполне достаточно для живого диалога.
Поверх такой «говорящей головы» можно навесить любую роль: консультант в интернет‑магазине, репетитор по алгебре, собеседник для языковой практики, тренер на корпоративном обучении или даже ИИ‑поддержка для ментального здоровья. Всё, что уже умеют LLM‑агенты, внезапно получает лицо, жесты и эмоции.
Интеграция сделана максимально по‑разработчески: доступ через API или встраиваемый виджет — одна строка кода, и на сайте появляется полноценный видеоагент. После создания аватара можно менять фон, стиль, одежду и даже вид персонажа. Причём Lemon Slice сознательно делает ставку не только на людей: модель генерирует и нелюдские образы — пришельцев, роботов, сказочных существ. Голоса подтягиваются из ElevenLabs, так что интонации тоже на уровне.
Сооснователь Лина Колуччи прямо говорит, почему рынок до сих пор не «взорвался» аватарами: большинство решений выглядят хорошо первые пять секунд, а потом превращаются в странных манекенов из «долины жути». Lemon Slice полагается на общий диффузионный подход, похожий на Veo3 или Sora: один мощный видеомодельный «двигатель», который можно масштабировать данными и вычислительными ресурсами. Инвесторы Matrix Partners и Y Combinator видят в этом тот самый «горький урок» масштабирования, который уже сработал в текстовых и визуальных моделях.
Lemon Slice уже привлёк $10,5 млн посевных инвестиций от Matrix Partners, Y Combinator, сооснователя Dropbox Араша Фердовси, CEO Twitch Эмметта Шира и даже дуэта The Chainsmokers. У стартапа пока восемь сотрудников, но чек явно пойдёт на расширение инженерной команды и оплату всё более тяжёлых обучений модели.
Особо подчёркиваются и защитные барьеры: компания обещает фильтровать несанкционированное клонирование лиц и голосов и использует крупные языковые модели для модерации контента. Это важно и для глобального рынка, и для тех стран, где к этике и безопасности в ИИ относятся особенно серьёзно — в том числе в России, где тема цифровых двойников уже активно обсуждается и на уровне регуляторов, и в ИТ‑сообществе.
Конкурентов у Lemon Slice хватает — от D‑ID и HeyGen до Synthesia и Praktika, но ставка на универсальный видеодиффузионный движок и стремление пройти «аватарный тест Тьюринга» делают их попытку особенно интересной. Мир, где с вами на экране говорит не человек, а ИИ‑аватар, уже не фантастика — вопрос только, заметите ли вы разницу.
