Продвинутый генератор коротких видео, встроенный в чат-бот Grok, компании Илона Маска, уже проходит начальное тестирование. В ограниченную группу пользователей вошли некоторые подписчики премиум-версии чат-бота, оплачивающие доступ по ставке 30 долларов в месяц. Однако любой пользователь может подать заявку на добавление в «лист ожидания». Тестировщики говорят о том, что создаваемое видео выглядит «почти как кино». В этом материале Photar.ru разбирается — получится ли у новой генеративной системы сделать шаг вперед в качестве создаваемого видео?
Что такое Grok Imagine?
Grok Imagine — это генератор видео по текстовому описанию, который также генерирует звуковое сопровождение. Он встроен в чат‑бот Grok. Система способна создавать ролики длинной до 6 минут. Опубликованные на текущий момент примеры говорят о разрешении FullHD. 4К пока не подтверждено.
Система генерирует четыре варианта ролика при запросе. А также Grok Imagine позволит конвертировать фотографию в видео с наложением звука.
Один из значимых плюсов системы Grok Imagine: генерация почти в реальном времени, то есть очень быстрая. Илон Маск заявлял, что ролики создаются в 2-4 раза быстрее чем у конкурентов. Бета-тестеры говорят, что для генерации одного видео требуется около 30 секунд.
Grok Imagine генерирует кино?
Теперь давайте взглянем на опубликованные результаты генераций. На официальном сайте ИИ-генератора уже опубликованы некоторые примеры видео. Ниже — Photar.ru приводит скриншоты из них для понимания качества детализации. Для просмотра самой анимации посетите официальный сайт по следующей ссылке.

На приведенном видео девушка всего-лишь поворачивает голову. Ролик очень короткий. Это видео, как и следующее, сгенерировал Илон Маск:

Анимация выглядит качественно, но не настолько чтобы превзойти, например, Runway Gen‑3. По крайней мере, по тем примерам, что опубликованы в официальной подборке.
На следующем более осмысленном видео — девушка использует галографический интерфейс:

Да, проблема с пальцами и движением кисти — решена. Однако сам взгляд девушки промахивается относительно точки ее потенциального интереса, а именно диаграмм и интерфейса. Это выглядит странно.
Идем дальше. Некоторые анимации выглядят стильно и, что гораздо важнее, осмысленно.

Опубликован пример с «оживленным» изображением Джорджа Вашингтона:

Который, впрочем, спустя несколько секунд ролика принимает несколько странные черты:

Некоторые изображения сочетают в себе реализм и мультяшность, что выглядит не очень:

Однако есть и примеры с большим количеством персонажей в ролике (которые по-прежнему длятся всего около 6 секунд). И они в целом напоминают 3D-мультфильмы:

Однако какого-то сильного прогресса относительно других нейросетей (той же Kling AI) не замечено. Возможно, после дообучения и прохождения этапа тестирования Grok Imagine сможет сделать шаг вперед.
Очевидно, что на данном этапе компания акцентирует продвижение нейросети, основываясь на ее высокой скорости создания роликов, а не на их сверхреалистичности. Также пока неизвестно, будет ли в конечном итоге генератор бесплатным.
На чем работает Grok Imagine?
В качестве технической базы Grok Imagine использует собственный движок Aurora и суперкомпьютер Colossus.
Он содержит десятки тысяч графических процессоров Blackwell/H100 от Nvidia, на которых обучалась модель. Это должно обеспечить высокую скорость генерации в качество видео.

Для понимания: чип Nvidia Blackwell содержит 208 млрд транзисторов и имеет в своем составе сразу два кристалла, которые «окружены» схемами памяти. Между собой эти кристаллы соединены шиной NV-High Bandwidth (NV-HBI) с пропускной способностью в 10 ТБ/с.

Вокруг GPU размещены восемь стеков памяти HBM3e суммарным объёмом 192 ГБ с 8192-битной шиной и пропускной способностью в невероятные 8 ТБ/с.
В целом: Nvidia Blackwell — это специализированный графический процессор под ИИ-задачи. Суперкомпьютер Colossus размещается в здании бывшего завода Electrolux в Мемфисе (штат Теннеси). На этапе запуска проект потребовал не менее 400 млн долларов инвестиций, сообщает Business Insider.

Этот суперкомпьютер был построен всего за 122 дня с использованием 100 тыс. процессоров Nvidia Hopper H100. На них обучался чат-бот AI Grok 3.
Впоследствии (в конце 2024 года) была начата установка модулей Nvidia GB200 (архитектура Blackwell) и сейчас в кластере работают уже около 30 тысяч таких чипов. На следующей фазе развития (Colossus 2) будут интегрированы сотни тысяч таких ускорителей.
В настоящий момент, по данным некоторых профильных СМИ, Colossus Илона Маска является лидером по производительности среди всех суперкомпьютеров в мире. Показатель может достигать 498 экзафлопс.
На данный момент доступ к Grok Imagine постепенно предоставляется подписчикам премиум-версии чат-бота Grok за 30 долларов в месяц, хотя любой пользователь X может зарегистрироваться и быть добавлен в список ожидания.
Ранее Photar.ru сообщал, что голливудские киностудии подали в суд на нейросеть Midjourney. Первый иск голливудских киностудий против ИИ-сервиса, генерирующего изображения — Disney и Universal подали в суд на разработчиков известной нейросети Midjourney. Они обвинили сервис в создании копий своих персонажей: Шрека, Дарта Вейдера и других с помощью искусственного интеллекта. Результат судебного процесса станет прецедентом в этой области. Midjourney, тем временем, готовится представить генератор реалистичных видео.
В иске говорится, что Midjourney действует как «виртуальный торговый автомат», производя бесконечные незаконные копии защищенных авторским правом персонажей. Каких-либо мер по недопущению нарушений разработчики ИИ-генератора не предприняли, считают истцы.