Если ваш кот когда‑нибудь посмотрит на шарик, исчезающий за ширмой, и возмутится — не пугайтесь: теперь так умеет и ИИ. Meta научила модель V‑JEPA интуитивной физике мира — и сделала это без формул Ньютона, просто показывая ей видео из реальности.

Главный фокус в том, что V‑JEPA не ковыряется в каждом пикселе. Вместо того чтобы ловить шум листвы и пропускать красный свет светофора, она работает со скрытыми представлениями — абстрактными признаками вроде «что здесь движется», «какой формы объект», «куда он направляется». Это как сжать тысячи точек изображения в горстку смысловых координат и научиться предсказывать их эволюцию.

Архитектура простая на словах и хитрая на деле: два энкодера и предсказатель. Один смотрит на частично замаскированные кадры, второй — на оригинальные. Предсказатель учится по абстрактным признакам из «дырявых» кадров восстанавливать признаки «полных». Никакой прорисовки масок до пикселя — только смысл. Так система учится видеть на дороге машины, а не считать листья.

Проверка на взрослость — тесты интуитивной физики. На IntPhys V‑JEPA почти не ошибалась, отличая возможное от невозможного. Более того, у модели появляется «удивление»: когда будущее расходится с ожиданием (мяч исчез и не вернулся из‑за преграды), ошибка предсказания резко растёт — почти как у младенцев, впервые сталкивающихся с нарушением постоянства объекта.

Есть и задел на практику. В‑JEPA 2 — версия на 1,2 млрд параметров, обученная на 22 млн видео, — уже помогает роботам: после ~60 часов дообучения по их собственным роликам и действиям модель умеет планировать следующий шаг для простых манипуляций. Но новые, более сложные бенчмарки (IntPhys 2) вскрыли ограничения: длинный контекст пока ускользает — память скорей «золотая рыбка», чем слон.

Следующие рубежи очевидны: явная работа с неопределённостью, более длинная память и более надёжные планы в открытом мире. Если всё получится, у роботов появится не просто зрение, а настоящее «чувство мира».