Индийский стартап Invideo представил нейросеть V3 — она позволяет создавать полноформатные ролики с помощью одного текстового запроса. Есть нюанс: поверх роликов накладывается водяной знак, поскольку футажи берутся со стоков. Для того, чтобы его убрать — требуется оплата. ИИ генерирует ролики разной длины, дополняют их озвучкой, который также синтезирован на основе нейросети. Редакция опробовала Invideo с текстовым запросом: «Расскажи о сайте Photar.ru».
Система дает выбор длительности генерируемого ролика: минута, две или четыре. На основе контекста самого запроса Invideo анализирует потенциальную аудиторию ролика и предлагает три варианта на выбор.
Запрос «Расскажи о сайте Photar.ru» нейросеть правильно сегментировала по потенциальной аудитории: энтузиасты в области фотографии, путешественники, технически подкованные люди. Система дает выбрать один вариант из трех — выбираем, естественно, первый.
Далее — платформа, для которой будет сгенерирован ролик: YouTube, YouTube Shorts и короткие видео для запрещенной в России социальной сети.
В верхней части вкладки, к слову, есть выбор: создать видео на основе стоковых футажей или из сгенерированных нейросетью кадров. Второй вариант возможен только по платной подписке: от 28 до 95 долларов в месяц (2.9-10 тысяч рублей по текущему курсу).
В результате всех настроек нейросеть Invideo сгенерировала следующий ролик:
C учетом того, что для создания ролика потребовался всего один текстовый запрос — уровень неплохой. Хотя, конечно же, видно, что система не смогла в некоторых местах правильно подобрать футажи.
Например, на пятой секунде демонстрируется прокрутка картинок в гугле с запросом «Женщина в маске ковид». Очевидно, футаж никак не соотносится с Photar.ru.
Далее, ИИ-диктор заявляет о том, что на Photar.ru выходят обзоры последних новинок. Кадры, опять же, взяты со стоков — хотя конкретно на этом моменте можно было бы взять материал, например, с нашего YouTube-канала.
Зарубежные издания сообщают, что стартап не стал создавать собственную ИИ-модель. Система использует конвейер различных моделей, который анализирует подсказки и генерирует видео. В публикации отмечается, что кадры, сгенерированные ИИ, которые производит Invideo, все еще нуждаются в улучшении согласованности.
Разработчик позиционирует ИИ-систему Invideo как инструмент для малого бизнеса и создателей контента. Для более продвинутых решений, которые могут использоваться в рекламе или даже кино — используется другая нейросеть: Runway.
Она имеет ряд продвинутых функций. К примеру, позволяет панорамировать объекты ИИ, сохраняя их последовательность даже при движении камеры. Они также позволяют уменьшать масштаб, чтобы «раскрыть новый контекст и историю».
Ранее была анонсирована программа Topaz Video AI Pro — она позволяет повышать разрешение видео, использовать шумоподавление, а также дополнительно стабилизировать футаж. Ее функционал позволит увеличить разрешение видео до 24К, избавиться от шумов на картинке, изменить частоту кадров (для последующего замедления видео), а также стабилизировать футаж на основе системы обнаружения объекта.
Photar.ru выпускал отдельный материал о программе Aiarty Image Enhancer, которая повышает качество изображений и их разрешение до 32K. Новый инструмент основан сразу на нескольких моделях искусственного интеллекта. Его главная задача повысить качество изображения, не вмешиваясь в контуры, композицию, цвет, свет и другие детали, которые могли бы исказить его. Программа Aiarty Image Enhancer также удаляет шум из кадров, избавляется от размытия (если требуется).