Китайская компания ByteDance — известный разработчик TikTok выпустила ИИ-систему OmniHuman-1. Она может создавать реалистичное видео с человеком, используя всего одну фотографию и один фрагмент аудиозаписи. Зарубежные СМИ сообщают о высокой степени реалистичности получаемого результата, и беспокоятся о возможности применения DeepFake-системы в недоброжелательных целях. Однако потенциально новая система может применяться и в творчестве, создании контента.
В качестве одного из примеров — опубликовано видео, сгенерированное на основе фотографии Альберта Эйнштейна:
В целом — видео получилось достаточно качественным за исключением некоторых совсем мелких деталей. В настоящий момент OmniHuman-1 пока что является всего лишь исследовательской работой , но демонстрации, которые демонстрирует ByteDance, весьма впечатляют и, по-видимому, являются улучшением по сравнению с другими приложениями для создания дипфейков.
Также опубликованы и другие видео, на этот раз сгенерированные из фотографий обычных людей на улице:
Tech Crunch сообщает, что генератор OmniHuman-1 был обучен на 19 000 часах видеоконтента из «нераскрытых источников». Нейросеть использовала новый подход «omni-conditions», который позволяет модели обучаться на нескольких источниках входных данных: текстовых подсказках, аудио и других одновременно. Исследователи ByteDance говорят, что подобный метод обучения помогает ИИ «значительно сократить потери данных».
Инструмент ИИ также может редактировать существующие видео и изменять движения конечностей человека. Tech Crunch называет результаты «поразительными».
«Мы предлагаем сквозную многомодальность и генерацию «человеческого» видео под названием OmniHuman, который может генерировать человеческие видео на основе одного человеческого изображения и сигналов движения (например, только аудио, только видео или комбинация аудио и видео)», — пишут исследователи Bytedance.
Еще один опубликованный пример:
Кажется, что мимика людей становится слишком выразительной, почти актерского уровня. Однако это не всегда может вызывать ощущение, что перед зрителем DeepFake-видео.
«OmniHuman значительно превосходит существующие методы, создавая чрезвычайно реалистичные человеческие видео на основе слабых входных сигналов, особенно аудио. Он поддерживает входные изображения любого соотношения сторон, будь то портреты, изображения половины тела или всего тела, обеспечивая более реалистичные и высококачественные результаты в различных сценариях».
Пользователи OmniHuman-1 получат лучшие результаты, если будут использовать высококачественные и высокоразрешенные эталонные изображения.
Нейросеть пока не находится в открытом доступе. Это могло бы привести к неправомерному использованию ее технологий. Однако в случае ограниченного доступа нейросеть может использоваться при создании контента, например, документального кино, телепередач и т.д.
Ранее Photar.ru сообщал, что индийская нейросеть Invideo генерирует видео из стоковых футажей с озвучкой. Есть нюанс: поверх роликов накладывается водяной знак, поскольку футажи берутся со стоков. Для того, чтобы его убрать — требуется оплата. ИИ генерирует ролики разной длины, дополняют их озвучкой, который также синтезирован на основе нейросети.