Искусственный интеллект научился угадывать звуки в беззвучных видео

Группа исследователей из Университета Карнеги — Меллона, совместно с компанией Runway, разработали очень интересную нейросетевую модель. С её помощью можно “озвучивать» видеоролики, которые изначально были записаны без звука.

Работает алгоритм достаточно просто — сначала он обнаруживает в кадре источники звука. Их разделяют на два типа — конкретные объекты и места с характерным фоновым звуком (например, кафе).

Исходное видео разбивается на сцены по резкому изменению гистограммы между двумя кадрами, после чего нейросеть CLIP классифицирует объекты в ней. В качестве базы эффектов используется Epidemic Sound — библиотека с 90 тыс звуками.

В конечном итоге искусственный интеллект “оснащает» каждую сцену пятью самыми вероятными звуковыми эффектами для объектов и окружения. При этом изначально активируется лишь один из них, но пользователь может включить все пять.

Подобрав необходимые звуки, алгоритм создаёт для них временные интервалы — это позволяет добиться большей реалистичности, так как не все объекты находятся на сцене на протяжении всего ролика.

Источник: Ferra