ИИ–программа Microsoft может клонировать ваш голос по 3–секундному аудиофрагменту

12.01.2023 13:45

D3.ru

https://www.pcmag.com/news/microsofts-ai-program-can-clone-your-voice-from-a-3-second-audio-clip

Новая разработка компании Microsoft в области искусственного интеллекта может клонировать ваш голос, услышав вашу речь всего за 3 секунды.

Программа под названием VALL–E была разработана для синтеза текста в речь. Команда исследователей из Microsoft создала ее, заставив систему прослушать 60 000 часов аудиокниг на английском языке от более чем 7 000 различных дикторов в попытке заставить ее воспроизвести человеческую речь. Эта выборка в сотни раз больше, чем те, на основе которых были созданы другие программы преобразования текста в речь.

Команда Microsoft опубликовала веб–сайт, на котором представлены несколько демонстрационных роликов VALL–E в действии. Как вы можете услышать, программа искусственного интеллекта может не только клонировать чей–то голос, используя 3–секундный аудиоклип, но и манипулировать голосом, чтобы он произнес все, что пожелает. Кроме того, программа может воспроизводить эмоции в голосе человека или настраиваться на различные стили речи.

В клонировании голоса нет ничего нового. Но подход Microsoft отличается тем, что позволяет легко воспроизвести голос любого человека, используя лишь короткий фрагмент аудиоданных. Следовательно, нетрудно представить, что эта же технология может послужить топливом для киберпреступности, которую команда Microsoft признает потенциальной угрозой.

"Поскольку VALL–E может синтезировать речь, сохраняя идентичность диктора, это может нести потенциальный риск неправильного использования модели, например, подмены идентификации голоса или выдачи себя за конкретного диктора", — пишут исследователи в своей статье. При этом команда отмечает, что возможно создание программ, способных "различать то, что был ли аудиоклип синтезирован в VALL–E".

VALL–E интерпретирует аудио речь как "дискретные лексемы", а затем воспроизводит лексему для произнесения различного текста. "VALL–E генерирует соответствующие акустические лексемы, обусловленные акустическими лексемами 3–секундной записи", — пишут исследователи. "Наконец, сгенерированные акустические маркеры используются для синтеза конечной формы волны с помощью соответствующего декодера нейронного кодека".

Однако технология далека от совершенства. В своей исследовательской работе команда Microsoft отмечает, что VALL–E иногда может с трудом или неудачно произносить некоторые слова. В других случаях слова могут звучать невнятно, искусственно синтезировано, роботизировано или просто не в той тональности.

"Даже если мы используем 60 тысяч часов данных для обучения, это все равно не может охватить голос каждого человека, особенно говорящего с акцентом", — добавила команда. "Более того, разнообразия стилей речи недостаточно, поскольку LibriLight (аудиозапись, на которой обучался VALL–E) — это набор данных аудиокниг, в которых большинство высказываний написано в стиле чтения".

Тем не менее, исследование предполагает, что создание еще более точной программы клонирования голоса достижимо, если ее обучить на еще большем количестве аудиоклипов. Тем временем, похоже, что Microsoft не выпустила VALL–E в открытый доступ, вероятно, для защиты от неправильного использования.

Написал zlax на windows.d3.ru / комментировать