Новости Hi-Tech: Искусственный интеллект научился угадывать звуки в беззвучных видео

Группа исследователей из Университета Карнеги — Меллона, совместно с компанией Runway, разработали очень интересную нейросетевую модель. С её помощью можно “озвучивать» видеоролики, которые изначально были записаны без звука.

Работает алгоритм достаточно просто — сначала он обнаруживает в кадре источники звука. Их разделяют на два типа — конкретные объекты и места с характерным фоновым звуком (например, кафе).

Исходное видео разбивается на сцены по резкому изменению гистограммы между двумя кадрами, после чего нейросеть CLIP классифицирует объекты в ней. В качестве базы эффектов используется Epidemic Sound — библиотека с 90 тыс звуками.

В конечном итоге искусственный интеллект “оснащает» каждую сцену пятью самыми вероятными звуковыми эффектами для объектов и окружения. При этом изначально активируется лишь один из них, но пользователь может включить все пять.

Подобрав необходимые звуки, алгоритм создаёт для них временные интервалы — это позволяет добиться большей реалистичности, так как не все объекты находятся на сцене на протяжении всего ролика.

Источник: Ferra

Смотрите также:

Новости Hi-Tech

Дешевый хостинг VPS

Искусственный интеллект научился угадывать звуки в беззвучных видео

Смотрите также:

Добавить комментарий Отменить ответ

Решения

О нас

Новости FreeHelp24

Microsoft 365 для бизнеса бесплатно

Программа лояльности

ИТ Аудит – бесплатно

Все новости

Свежие записи