Адрес для входа в РФ: exler.world

ИИ-модель, точно имитирующая голос

20.01.2023 10:00  12593   Комментарии (52)

Microsoft представила модель искусственного интеллекта (ИИ) под названием VALL-E — она преобразует текст в речь, точно имитируя голос человека, а образцом может служить запись продолжительностью всего в три секунды. При этом ИИ сохраняет эмоциональную окраску речи образца.

Авторы проекта говорят, что система окажется полезной при разработке приложений с возможностью высококачественного преобразования текста в речь и при создании аудиоконтента в сочетании с другими ИИ-генераторами контента вроде GPT-3. Хотя они также признают, что её можно использовать для редактирования аудиозаписи по расшифровке — модель может «заставить» человека произносить слова, которых он никогда в реальности не говорил.

При создании модели использовалась разработанная Meta технология EnCodec, которая обеспечивает эффективное сжатие аудиосигнала. В отличие от традиционных методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты (так называемые «токены») и генерирует запись на основе того, что уже «знает» об образце — моделирует голос, как он бы мог звучать за пределами трёхсекундного образца. Обучение модели производилось на библиотеке LibriLight, собранной Meta* — она же, в свою очередь, была построена на 60 000 часов англоязычной речи более чем 7000 носителей: данные были позаимствованы преимущественно из коллекции LibriVox.

Из-за опасности злоупотреблений технологией Microsoft не стала публиковать код VALL-E для экспериментов, поэтому все желающие протестировать работу модели не смогут. В компании добавили, что аналогичным образом будут поступать и с другими проектами, если они несут потенциальную угрозу злоупотреблений. (Отсюда.)

Технология, конечно, очень интересная, и ее много для чего полезного можно будет использовать, но нельзя не отметить, что грань между реальностью и фейком становится совсем призрачной, если буквально по трехсекундному образцу можно создать совершенно реалистично звучащую искусственную копию и заставить ее говорить все что угодно. 

Вот здесь на сайте проекта представлены разнообразные образцы. Speaker Prompt - образцы речи, Ground Truth - запись необходимого текста в исполнении человека, с которого был записан образец, Baseline - традиционный преобразователь текста в речь, VALL-E - работа нового ИИ.

Там также показано, что система может не только придавать голосу нужный эмоциональный окрас, но и имитировать звуковое окружение - телефонный разговор, помехи на улице и так далее. Там много примеров - в том числе, и с имитацией акустического окружения.

Комментарии 52

Теперь актеры озвучки будут не нужны. А в будущем, можно будет выпускать для каждого рынка свои версии, в каждой из которых движение губ актера совпадает с текстом.
twitter.com
26.01.23 09:30
0 0

Я чёт не очень понимаю, в чем прикол этой разработки. Не, ну с инженерами понятно, для них это просто фан и челлендж. Они не то что в предпоследнюю очередь, они вообще о последствиях не думают обычно. Но мелкомягким-то это зачем? Какой с этого гешефт, я не понимаю.
21.01.23 20:24
0 0

А по мне так отличная новость.
1. Шантаж станет абсолютно бессмысленным.
2. Число успешных разводов если и увеличится, то только в краткосрочной перспективе.
3. По идентификации, останется как есть сейчас.
21.01.23 15:07
0 0

Есть и обратный эффект. Любую запись можно будет объявить фейком. Коллеги Соловьёва из будущего в Гааге будут говорить, что передачи вели не они. И что это всё синтезировано недоброжелателями
21.01.23 09:55
0 3

Если одни придурки пытаются чего-то там запретить, это лишь означает, что другие придурки это с удовольствием сделают и продадут первыми. Прогресс не остановить.
20.01.23 21:45
0 0

Где-то очень обрадовались Лексус и Вован.
20.01.23 14:42
0 5

Имитация акустического окружения была в каких-то совсем древних телефонах.
20.01.23 13:41
0 1

Имитация акустического окружения была в каких-то совсем древних телефонах.
Помнится, в эпоху платных рингтонов у нас какая-то конторка предоставляла такую услугу - ваш вызов произвольному абоненту на фоне криков толпы, звуков автомобильной пробки етс. Не пользовался, поэтому как это было реализовано, даже не знаю. Но их рекламу помню.
20.01.23 14:47
0 1

Мне кажется это сони делала, она же единственная из всех делала человеческий автоответчик и запись с линии.
20.01.23 15:17
0 0

Мне кажется это сони делала, она же единственная из всех делала человеческий автоответчик и запись с линии.
Человеческий автоответчик был в Моторола Таймпорт 250, а запись с линии вообще в моторах была повсеместно.
20.01.23 17:21
0 0

Кто первый выложит, как путлер признается в своих преступлениях начиная со штази и до нападения на Украину?
20.01.23 12:32
1 1

Кто первый выложит, как путлер признается в своих преступлениях начиная со штази и до нападения на Украину?
20.01.23 13:06
0 1

Зиновий Юрьев. "Полная переделка". Год выхода в свет не помню / не знаю, я читал однозначно до 1982г.

Ключевой момент сюжета: установка, разработанная профессором Ламонтом, которая по короткой записи оригинала может синтезировать любой голос, заставляя его произносить набранный на клавиатуре текст. Синтез настолько точен, что электронные машины, которые в мире будущего заменили судей в уголовных процессах, признаЮт синтезированные записи в качестве доказательств на процессе.
20.01.23 12:17
0 3

Та же фигня в его же "Белом снадобье". ИИ синтезирует голос босса гангстеров.
21.01.23 17:22
0 0

И молвит старику ИИ голосом старухи:

- Переведи ты мне на карту все свои пенсионные накопления.

Удивился старик, испугался. Он айтишничал тридцать лет и три года и не слыхивал, чтоб старуха говорила. Так как померла его старуха.
20.01.23 11:30
0 19

Он айтишничал тридцать лет и три года и не было у него никогда старухи, ибо апгрейдился он каждые три года и была у него сейчас Баба v.11... 😉
20.01.23 11:41
0 6

Ежу понятно, что старуха звонит с того света; ей нужны деньги там, надо переводить!
20.01.23 12:15
0 2

20.01.23 11:23
0 12

А первой части это же тип, воспользовался утечкой персональных данных в телефонной будке! Рецедивст.
20.01.23 12:27
0 3

Во второй части уже апгрейд. Т-1000 уже базу данных полиции через компьютер использует 😄
20.01.23 12:34
0 0

«Рецидивист»! 🙄

утечкой персональных данных
И закончил разговор утечкой монеток (это было в 1 или 2?)
20.01.23 18:40
0 0

А первой части это же тип, воспользовался утечкой персональных данных в телефонной будке! Рецедивст.
Умоляю, не надо запятой между подлежащим и сказуемым! Зачем, вы, так, делаете?!!
21.01.23 17:07
0 0

Послушал.
Видимо, трёхсекундного сэмпла всё же маловато будет. Индивидуальные/диалектные особенности произношения отдельных фонем сглаживаются по сравнению с Ground Truth.
20.01.23 10:52
0 1

Microsoft представила модель искусственного интеллекта (ИИ) под названием VALL-E
Через 15 лет кто-то вспомнил мультик "WALL-E"? Закончились в MS креативщики... пичалька!
20.01.23 10:45
0 0

Точно. Пересматривал на праздниках. Кстати его "Ева-а-а" сложно назвать человеческим, скорее наоборот - излишне компьютеризировано
20.01.23 12:23
0 0

В смысле, 15 лет??????!!!!!!!!! 8-( )
20.01.23 14:41
0 3

Это уже далеко не первая модель. Еще несколько лет назад банковские айтишники предупреждали, чтобы на звонки отвечали не "да", а "алло", потому что стали подделывать голоса при подтверждении транзакций. В прошлом году даже Зеленского фейковали и вроде даже Путина с Шойгу.
20.01.23 10:40
0 1

не "да", а "алло"
- Дедушка, это вы подбили танк?
- Я.
- Но это же наш, советский танк!
- Я, я!
20.01.23 10:55
0 16

Я, я!
- Дедушка, а ты правда три самолета сбил?!
- Правда, внучек! Ну, не совсем сбил - недозаправил..
20.01.23 14:49
0 4

Жена почему-то очень любит про "Gut, Waldemar, Gut".
20.01.23 18:41
0 2

Мошенники звонят на номер директора, "снимают его речь", перезванивают бухгалтеру и дают указание сделать срочный перевод. На эту уловку попадаются фирмы, просто получив емайл, представьте, что будет, когда бухгалтер услышит суровый голос начальника.
Вспомните "мама я попал в аварию, голос из-за удара об руль изменился , сижу в полиции, передаю телефон следователю, срочно нужны деньги погасить ущерб".
Это пример из личного опыта. Мои родители собирали деньги, пока не догадались мне перезвонить.
Вы представляете, чем это грозит?
Мне только вчера звонили из "миграционной службы", обратились по имени-фамилии и были посланы, так как не знали государственного литовского языка.
Из какой страны звонили, думаю нетрудно догадаться.
20.01.23 10:34
0 18

Вы представляете, чем это грозит?
И какие ваши предложения? Кого запретить на этот раз?
20.01.23 10:39
0 2

Нененене. Если на фирме все норм то бухгалтер перезвонит именно на телефон директора да еще позадает глупых вопросов типа какого цвета стены в кабинете и когда они последний раз виделись лично. Для идентификации. Я у себя людей так учу.
А вот то что некоторые банки начали голосовую идентификацию делать это беда...
20.01.23 11:11
0 8

На эту уловку попадаются фирмы, просто получив емайл, представьте, что будет, когда бухгалтер услышит суровый голос начальника.
То же самое. Если культура документооборота в конторе настолько ниже плинтуса, что срочные переводы на неизвестные реквизиты (!) делаются по телефонному звонку, эту контору уже ничего не спасет.
20.01.23 12:13
0 9

Как раз про "голос изменился" они никогда не упоминают, потому что жертва тут же насторожится и задаст пару наводящих вопросов.

Жертва сама себя убедит, что говорили "твоим голосом".

Увы, знаю на личном опыте, маму развели так. Причем, я с ней про такое говорил, ликбезы проводил, но все равно.
20.01.23 15:52
0 1

Да просто охренеть и быть готовым, ничего не сделаешь.
Но я вам гарантирую, в небольших конторах вопросы переводов решаются быстро, бухгалтер женщина за 50 получила звонок от нервного начальника сделать перевод на счёт, который пришёл только что ей на почту, счёт прислал клиент. 80 процентов перезвонит начальнику, ну а 20 процентов безропотно переведут.
20.01.23 16:11
1 2

80 процентов перезвонит начальнику, ну а 20 процентов безропотно переведут.
Решается вторым фактором у того, самого начальника. Т.е. разделяем доступы. Бухгалтер оформляет платежку, проводит и обяазана ввести код подтверждения, который приходит тому самому нервному начальнику. Нет кода - нет перевода.
20.01.23 16:16
0 5

Ну, переведут и больше не будут, если обучаемы.

Увы, мошеннические схемы, основанные на социальной инженерии, были и будут. Синтез голоса усугубит, но не коренным образом.
20.01.23 16:31
0 0

Увы, мошеннические схемы, основанные на социальной инженерии, были и будут.
В начале 2000-х знакомую строительную фирму (довольно крупную, кстати) развели элементарным образом: совершенно посторонний мужик с уверенным видом заявился в бухгалтерию, сказал "я от *имя-отчество-гендиректора*, он просил срочно выдать *** рублей наличкой рассчитаться с подрядчиками". Естественно, выбрал момент, когда гендиректора не было на месте. Бухгалтер выдала деньги, не моргнув глазом.
20.01.23 20:42
0 2

И как вы поняли, из какой страны звонят?

Только выросло поколение, которое не понимает, как можно принимать судебные решения на основании свидетельских показаний, ведь сейчас все снимают на смартфоны и камеры наблюдения, как всё это начало сворачиваться.
20.01.23 10:32
1 1

Развод "Мам, я в полиции, сбил человека, срочно нужно 10 тыс. долларов" выходит на новый уровень
20.01.23 10:29
0 14

имитировать звуковое окружение - телефонный разговор, помехи на улице
Вот это как раз настолько элементарно, что непонятно, зачем вообще упоминать.
20.01.23 10:09
0 1

Пока что, очень заметно что синтез.
20.01.23 10:08
0 1

То-то банки вводят авторизацию по голосу...
Хороший план.
Надёжный.
20.01.23 10:07
1 16

Вот только что мне робот от сбера пытался кредит втюхать! Пафосный такой!..
20.01.23 10:17
0 0

То-то банки вводят авторизацию по голосу...
Еще раз, для тех кто в танке. Не авторизацию. А второй фактор. Авторизация только по одному фактору (не важно какому) уже давно недопустимая роскошь. А как второй фактор, голос во многом лучше, чем коды с СМСок, которые вытягивают с помощью банальной социальной инженерии.
20.01.23 10:32
5 0

Надежный второй фактор это хардварный ключ. Или OTP. СМС уже давно не являются надежными т.к. их можно перехватить или увести симку. И нет, в разрезе этих новостей голосовой отпечаток это не надежный второй фактор.
20.01.23 11:15
0 5

СМС уже давно не являются надежными т.к. их можно перехватить или увести симку.
Вы это собираетесь миллионам клиентов рассказать? Которым нафиг не уперлись эти ваши токены и прочие OTP. Дело не в надежности, а в массовости. А в массе своей люди склонны забивать на безопасность пока не будет слишком поздно.
Поэтому голос, как один из дополнительных факторов - ничуть ни хуже многих других решений. И главное - от клиента для того, чтобы им воспользоваться ничего не требуется.
И нет, в разрезе этих новостей голосовой отпечаток это не надежный второй фактор.
В разрезе этих новостей, мы сравниваем запись, которую слышит наше ухо. Далеко не идеальный измерительный инструмент. Как при этом реагируют системы распознования, строящие и сравнивающие математические модели цифровых отпечатков в разрезе данной новости понять нельзя. К примеру, большинство современных сканеров отпечатков пальца, вполне себе умеют отличать живой палец от всего прочего. Т.е. сосканировать чужой отпечаток, чтобы обойти такую систему уже будет мало.
20.01.23 11:29
0 1

И главное - от клиента для того, чтобы им воспользоваться ничего не требуется.
А от мошенника - доступ к Сети и клавиатура.

Т.е. сосканировать чужой отпечаток, чтобы обойти такую систему уже будет мало.
Есть и для этого решения. Но лень - она раньше нас родилась.
20.01.23 13:52
0 0

А от мошенника - доступ к Сети и клавиатура.
Нет, от мошенника, как и раньше, будет требоватся откуда то взятые креды клиента. Только в добавок к ним, нужна будет еще и рабочая модель голоса, которая пройдет определенные проверки. Т.е. вся это биометрия она дополнительно, а не вместо. Создаются дополнительные барьеры, которые необходимо будет преодолевать мошенникам и которые не нужно преодолевать клиентам.
Есть и для этого решения.
Вечную войну щита и меча никто не отменял. Но при этом глупо на основании того, что изобрели универсальную отмычку под названием "автоген" утверждать, что эти ваши дверные замки глупость откровенная.
20.01.23 14:17
0 2
Теги
Сортировать по алфавиту или записям
BLM 21
Calella 143
exler.ru 272
авто 441
видео 3990
вино 359
еда 499
ЕС 60
игры 114
ИИ 29
кино 1580
попы 190
СМИ 2755
софт 930
США 131
шоу 6