Компания OpenAI выпустила нейросеть Sora в открытый доступ. Она генерирует сверхреалистичные видео по текстовому запросу. ИИ-генератор был опробован в закрытом тестировании еще в феврале 2024 года, но теперь доработан и выпущен для широкой аудитории. Любопытно, но разработчики не раскрывают то, как обучалась нейросеть Sora. Техдиректор OpenAI Мира Мурати отказалась комментировать этот вопрос, уточнив лишь, что компания использовала «общедоступные данные». Теоретически можно использовать нейросеть для генерации кадров для дополнения монтажа и иллюстраций тех или иных элементов повествования.
Конечно же, нейросеть Sora претерпела существенные изменения с момента ограниченного дебюта в феврале. Сейчас OpenAI разработала новую версию видеогенератора Sora Turbo, которая «значительно быстрее» версии, представленной в феврале, и доступна пользователям ChatGPT Plus и Pro. ChatGPT Plus стоит от 20 долларов в месяц, а Pro — от 200 долларов (порядка 20 тысяч рублей по текущему курсу).
Компания также расширила возможности Sora. Теперь нейросеть может создавать видео с разрешением до 1080p и генерировать клипы длиной до 20 секунд. Тематики роликов могут быть совершенно разными.
«Вы можете использовать собственные ресурсы для расширения, ремикса и смешивания или генерировать совершенно новый контент», — объясняет OpenAI.
Наряду с улучшенной производительностью, Sora имеет обновленный интерфейс, который имитирует раскадровку, позволяя пользователям вводить сгенерированный ИИ контент в определенных кадрах.
Подобно новым инструментам Firefly в монтажной программе Adobe Premiere, которые Adobe представила в октябре, OpenAI реализует генеративный ИИ, который может расширять существующие клипы, заполняя пустые места или растягивая контент в соответствии с конкретными потребностями. Это дает широкие творческие возможности для создателей контента.
Тем не менее, идеальной нейросеть не назовешь. Несмотря на то, что разработка заняла много времени, OpenAI признает, что версия Sora, которую она сегодня представляет публике, «имеет много ограничений». Sora «часто генерирует нереалистичную физику и испытывает трудности со сложными действиями в течение длительного времени».
«Мы представляем нашу технологию генерации видео сейчас, чтобы дать обществу время изучить ее возможности и совместно разработать нормы и меры безопасности, которые обеспечат ее ответственное использование по мере развития этой области», — поясняет OpenAI.
Все видео, созданные Sora, включают метаданные C2PA, и компания внедрила меры безопасности, включая видимые водяные знаки по умолчанию — хотя их можно удалить. Sora также ограничивает пользователей в создании контента с «особенно разрушительными формами насилия». Загрузки с участием людей будут ограничены при запуске, поскольку OpenAI работает над инструментами смягчения дипфейков.
«Мы надеемся, что эта ранняя версия Sora позволит людям во всем мире исследовать новые формы творчества, рассказывать свои истории и расширять границы возможностей видеорассказов. Мы с нетерпением ждем, что мир создаст с помощью Sora», — заключает OpenAI.
«Sora служит основой для ИИ, который понимает и моделирует реальность — важный шаг на пути к разработке моделей, способных взаимодействовать с физическим миром», — поясняет OpenAI.
Нейросеть Sora теперь доступна на новом специализированном сайте. Sora доступна в подписках ChatGPT Plus и Pro, которые стоят $20 и $200 в месяц.
Версия Plus позволяет пользователям создавать видео до 720p длиной пять секунд, в то время как клипы 1080p и 20 секунд доступны только пользователям Pro. Только подписчики Pro могут загружать видео, созданные Sora, без водяного знака, хотя любой может обрезать его, так как он находится в правом нижнем углу генераций Sora. Многие примеры того, что может делать Sora, доступны на сайте OpenAI.
Ранее Photar.ru сообщал об индийской нейросети Invideo, которая генерирует видео из стоковых футажей с озвучкой. Также выходил материал о первой генеративной кинокамере CMR M-1. Система идет вразрез с традиционным и актуальным подходом к работе камер, поэтому разработка, по всей видимости, носит экспериментальный характер. Камера пишет в разрешении 1368×768 с частотой 12 кадров в секунду и может в режиме реального времени генерировать дополнительное изображение, которое аккуратно накладывается на основное.