100 000 часов речи, 980 млн параметров: ИИ-модель преобразования текста в речь

Технологический гигант Amazon сделал значительный шаг вперед в создании естественной речи благодаря своей новейшей модели преобразования текста в речь (TTS) — BASE TTS. Эта модель, обладающая 980 миллионами параметров и обученная на 100 000 часах речевых данных, демонстрирует «новые способности», которые, по мнению исследователей, могут вывести технологию за пределы «зловещей долины».

Что такое эмерджентные способности? Представьте себе ребенка, изучающего новый язык. Сначала они понимают основные слова и грамматику. Но по мере развития они начинают интуитивно понимать сложные структуры предложений, выражать эмоции с помощью интонации и даже использовать юмор — способности, которым их явно не учили. Именно это исследователи наблюдали в BASE TTS. Хотя модель не была разумной, она продемонстрировала внезапный скачок в своей способности справляться со сложными ситуациями, такими как:

  • Произнести «очаровательный, построенный из камня причудливый загородный коттедж для отдыха» — естественно, сложная задача для многих моделей TTS.

  • Выражение восторга в фразе «О боже! Мы действительно едем на Мальдивы?» или шепот срочности в фразе «Шшш, Люси, шшшш…».

  • Правильно произнести «mise en place» и «piece de resistance».

  • Понимание контекста и срочности текстов с эмодзи и аббревиатурами.

  • Навигация по запутанным предложениям типа «Фильм, в котором… снялся в 2022 году, стал хитом проката…».

Этот «скачок» особенно интересен, потому что он не был запланирован.

Источник: Ferra