Нейросети для создания видео: Sora от OpenAI, Imagen 2 от Google и Gen-2

Sora — новая нейросеть от OpenAI: как работает, функции

Компания OpenAI, разработчик ChatGPT, представила нейросеть Sora — модель способна генерировать короткие видеоролики по текстовым запросам.

Стильная женщина идет по токийской улице, залитой теплым светящимся неоновым светом, с анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье, черные сапоги и черная сумочка. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная от дождя, дорога отражает разноцветные огни. Многие пешеходы прогуливаются.
текстовый запрос Sora для создания ролика OpenAI Sora — City Woman

В OpenAI рассказали, что Sora может создавать ролики продолжительностью до минуты. Причем это могут быть как реалистичные сцены — с людьми и животными, так и фантастические сцены, например с бродящими по снежному полю мамонтами или китами, плывущими по воздуху среди зданий.

Помимо создания полноценных видео, Sora способна генерировать ролики из статичных изображений, дополнять их необходимыми кадрами и склеивать два видео в одно.
TechCrunch пишет, что нейросеть умеет воспроизводить игровые миры: один из сотрудников OpenAI создал короткую симуляцию геймплея Minecraft — с реалистичным интерфейсом.

При этом в OpenAI отмечают, что у нынешней версии Sora есть «слабые места»: в частности, нейросеть плохо работает с причинно-следственными связями. Например, в ролике, где человек ест печенье, на самом печенье не остается следов от укусов. А на видео, где бабушка задувает свечи, они продолжают гореть.

Кроме того, пользователи соцсетей, просматривая ролики под авторством Sora, заметили, что нейросети пока не удается мебель: пластиковый стул на видео почему-то стал «жидким».

Когда Sora появится в открытом доступе

На данный момент доступ к Sora предоставили ряду художников, дизайнеров и режиссеров — чтобы получить обратную связь и усовершенствовать нейросеть, а также экспертам по кибербезопасности — для оценки потенциальных угроз и рисков. В OpenAI заявили, что занимаются разработкой инструментов, которые помогут определить, сгенерировано ли видео нейросетью.

Когда Sora появится в общем доступе — неизвестно. Но пользователи уже активно постят в соцсетях ролики, созданные и опубликованные сотрудниками OpenAI, и обсуждают, как Sora может изменить индустрию видеоконтента.

Первые реакции пользователей на нейросеть Sora

Ребята, я в шоке! Посмотрите, какое качество. Бегущие мамонты, съемки с дрона, толпы людей, видно каждую чешуйку на коже хамелеона и каждую снежинку на носу собаки! Теперь фантазии о том, что в будущем контент на стриминговых сервисах будет создаваться персонально для пользователя, исходя из его предпочтений и цифрового профиля, уже не кажутся такими нереальными.
Telegram-канал @JimmyNeiron

Это замена 90% сотрудников в Голливуде. Скоро каждый будет сам себе Стивеном Спилбергом.
пользователь Cervantes6785 в сообществе r/Screenwriting Reddit

Какими бы впечатляющими ни были примеры [опубликованные OpenAI], без сомнения, они были отобраны специально, чтобы показать Sora в лучшем виде. Без дополнительной информации трудно понять, насколько качественно работает модель. Это неидеально. В видео из Токио автомобили слева выглядят меньше, чем люди, идущие рядом с ними. Автомобили также появляются между ветвями деревьев.
обзор MIT Technology Review

С технической точки зрения это кажется значительным скачком вперед. Но есть и вторая сторона медали: возможности Sora позволят огромному числу людей создавать крайне реалистичное видео и неправомерно его использовать.
Сэм Грегори
глава правозащитной организации Witness

Выглядит как полезный инструмент для людей, работающих в креативных индустриях. Эта технология может привести к снижению затрат на производство фильмов и значительному расширению возможностей.
пользователь daronjay в сообществе r/Screenwriting Reddit

Какие еще нейросети способны генерировать видео

Make-A-Video. В сентябре 2022 года Meta* представила нейросеть Make-A-Video, которая способна создавать видеоролики продолжительностью не более 5 секунд. В видео, опубликованных Meta*, сгенерированные объекты — нечеткие, анимация — резкая, а качество — низкое. Доступ к нейросети пока не открыли.

Imagen Video. В октябре 2022-го Google показала нейросеть, которая генерирует видео в HD-качестве по текстовому описанию. Максимальная продолжительность — 3 секунды. Ролики авторства Imagen Video неидеальны, считают пользователи Сети: на них много артефактов и шумов. В феврале 2024-го Google представил Imagen 2 — обновленную модель, которая, по словам разработчиков, может генерировать видео в высоком качестве и без артефактов. Нейросеть доступна в чат-боте Bard и на платформе ImageFX.

Runway Gen-2. В 2023 году стартап Runway Research запустил нейросеть Gen-2, способную создавать реалистичные видеоролики по текстовому описанию в любом возможном стиле. Тестовые видео, по оценкам экспертов, «по качеству почти не уступают анимации крупных киностудий», однако длительность генерируемых роликов не превышает 4 секунд.

*Meta признана в РФ экстремистской организацией и запрещена.

Фото обложки: OpenAI Sora / YouTube

Вынесли Sora из избы: в чем плюсы и минусы новой нейросети от OpenAI и какие еще ИИ способны генерировать видео

Sora — новая нейросеть от OpenAI: как работает, функции

Когда Sora появится в открытом доступе

Первые реакции пользователей на нейросеть Sora

Какие еще нейросети способны генерировать видео