БЛОГ

ИИ генерирует звук для видео

20.02.2024 09:00 11916 Комментарии (25)

Совсем недавно компания OpenAI представила модель ИИ под названием Sora, которая умеет создавать реалистичные видео по обычным текстовым запросам.

А теперь компания ElevenLabs, занимающаяся автоматической озвучкой текста и генерацией аудио, показала, как ее ИИ может создавать озвучку для видео - тоже по простым текстовым промптам.

В демонстрационном ролике озвучиваются примеры, созданные Sora.

Кстати, компания ElevenLabs была основана Петром Дабковским, бывшим инженером по машинному обучению Google, и Мати Станишевским, бывшим стратегом по внедрению Palantir, для разработки сверхреалистичных моделей преобразования текста в речь для образования, аудиокниг, игр, фильмов, бизнеса и так далее. Компания получила $19 млн инвестиций.

И вот один из впечатляющих примеров их разработок: ИИ вслух читает роман Скотта Фицджеральда "Великий Гэтсби".

20.02.2024 09:00

Предыдущая запись Следующая запись

Комментарии 25

Впечатляет!

GrimFandango

20.02.24 21:52

0 0

Читает нормально, но за версту слышно сгенерированный голос. Слишком ровный, без всяких вздохов и прерываний. Короче мимо. Я сам перепробовал много таких генераторов - ни один и близко не подошел к реальному голосу. Единственное применение - озвучка очередного ролика-нарезки из слайдов всякой современной школотой, падкой до инноваций в кавычках.
Вообще я бы хотел, чтобы все эту ИИ братию в один момент схватили за яйца.
Кино, музыка, живопись, графика - они же готовы [censored] всё ради штамповки очередного никому не нужного контента. Смотреть и слушать сгенерированный контент, все равно что спать с резиновой женщиной.

Anarrich

20.02.24 18:40

2 0

без всяких вздохов и прерываний.

Послушайте внимательнее, там всё интересней.
Если фраза длинная, то вдох в неё вставляется, и он слышен там, где его естественно взял бы человек, на логической запятой. Однако, если на место ожидаемого вдоха приходится конец предложения (точка), то вдоха не слышно. Это, по-моему, недоработка.

BOPOHOK

Anarrich

21.02.24 02:07

0 0

На ютубе есть озвучки ИИ вступлений к схваткам в игре мортал комбат (с прикольчиками типа). Все комментаторы сходятся в том, что ИИ озвучил в 100 раз лучше, чем натуральная Меган Фокс)

b-surfer

20.02.24 15:17

0 0

В данном ролике ИИ читает книгу в разы лучше, чем так называемый «профессиональный дубляж» на русский, вне зависимости от студии (от просто «говно, противно слушать», до «омерзительное говно»)

И, кстати, то же касается аудиокниг. Суханов, Чонишвили, Клюквин - норм. А вот Кинга, например, или Макса Фрая ни разу не слышал в нормальном прочтении.

chingachgook

20.02.24 11:00

0 2

Это точно. Я впечатлён качеством начитки от ИИ.

Regs

chingachgook

20.02.24 12:02

0 0

У гугловского Gemini тоже подвижки крутые:

mig74

20.02.24 10:47

0 4

Нормальный синтезатор голоса это то что нам примерно с 2000-го года обещают, да все никак.

Для аудиокнижек было б супер

aka_mik

20.02.24 10:01

0 2

Чем вас не утраивает Яндексовская Алиса? Там и мужской голос, довольно приятный (Алис?)) есть.Часто так слушаю

Это вот такой? 😄
(можно промотать одну минуту вперед - до голоса автоматического такси)

Bor

dmitri

21.02.24 02:22

0 0

Чем вас не утраивает Яндексовская Алиса? Там и мужской голос, довольно приятный (Алис?)) есть.Часто так слушаю

На уровне озвучки иностранных фильмов (то есть - дурацкие интонации с придыханием)

chingachgook

dmitri

20.02.24 11:01

0 1

Вы что, серьёзно? Да тот же Magic Goody 20 лет назад лучше озвучивал

aka_mik

dmitri

20.02.24 10:40

0 3

Для аудиокнижек было б супер

Чем вас не утраивает Яндексовская Алиса? Там и мужской голос, довольно приятный (Алис?)) есть.
Часто так слушаю

dmitri

aka_mik

20.02.24 10:23

3 0

Космонавт похож на Донала Глисона.

Диди Энн

20.02.24 09:39

0 1

Космонавт похож на Донала Глисона.

Мне показалось, что эпизод с космонавтом - это tongue-in-cheek отсылка к сюжету Danger Seeker из Kentucky Fried Movie.

BOPOHOK

Диди Энн

21.02.24 02:13

0 0

Космонавт похож на Донала Глисона.

Почему нет? В задании был явно указан "космонавт" - а их не так много, чтобы компиляция получилась достаточно усредненной и ни на кого не похожей...

Джутовый Мешок

Диди Энн

20.02.24 10:12

0 2

Все жду, когда можно будет сгенерировать озвучку Михалева для новых фильмов

bblu

20.02.24 09:15

0 3

Живов - это Михалев для ну очень бедных. Он звучит похоже на Михалева, но куда хуже в плане перевода.

А, понял - снова Великий и могучий шутку сыграл.

Алекс У

Tulkot

20.02.24 12:54

0 0

Хамить-то зачем? Настолько неуверены в себе? Я не то же самое написал?

Никакого хамства в моей реплике нет.
Если вы не считаете, что ваша фраза "Михалев для ну очень бедных" - это хамство.

Я просто дополнил то, что вы написали. Вы написали только про интонации. Я с этим и не спорю.

Tulkot

Алекс У

20.02.24 11:25

0 0

Сразу видно знатока.

Хамить-то зачем? Настолько неуверены в себе?

Озвучку сгенерировать. конечно, можно, но она будет слишком гладкая и правильная, то есть противоречить самому стилю и принципам авторского перевода.

Я не то же самое написал?

Алекс У

Tulkot

20.02.24 11:19

0 2

Но Живов (Михалев для ну очень бедных) еще при делах, вроде как.

Юрий Живов умер 4 года назад. Сразу видно знатока.

Озвучку сгенерировать. конечно, можно, но она будет слишком гладкая и правильная, то есть противоречить самому стилю и принципам авторского перевода.
А авторский перевод ценен ведь не только голосом конкретного переводчика, но и его интонациями. Как вы сымитируете необходимую интонацию для нужного момента перевода?
Плюс не забывайте про микрозапинки, невольные ошибки, оговорки, паузы не к месту, запаздывания и прочее, что свойственно авторскому переводу, особенно старой школы. Это надо сидеть и вставлять эти огрехи по всему переводу вручную. Работы, наверное, на месяц, не меньше.

Tulkot

Алекс У

20.02.24 10:14

1 0

Тембр уже можно. Вот с интонациями сложнее. Но Живов (Михалев для ну очень бедных) еще при делах, вроде как.

Алекс У

bblu

20.02.24 09:43

0 0

Но представителям творческих профессий не стоит волноваться из-за ИИ...

...ведь правда?

galenus

20.02.24 09:14

0 7

Но представителям творческих профессий не стоит волноваться из-за ИИ......ведь правда?

Keter

galenus

20.02.24 09:37

0 13

один из впечатляющих примеров их разработок: ИИ вслух читает роман Скотта Фицджеральда "Великий Гэтсби".

Со чтением вслух справляется не хуже и Яндексовская Алиса, но вот примеры озвучки видео впечатляют.
Это ж скоро Голливуд на помойку, Sora заменит.
Как там в песне, "вкалывают роботы, а не человек".
ЗЫ Интересно, а у OpenAI в подвальчике полноценный ИИ не завалялся? Может, просто не для публики?

dmitri

20.02.24 09:12

1 2

Это ж скоро Голливуд на помойку, Sora заменит.

Не знаю как Голливуд, но 90% Нетфликса - точно.

Интересно, а у OpenAI в подвальчике полноценный ИИ не завалялся? Может, просто не для публики?

Скоро.

galenus

dmitri

20.02.24 09:16

0 2

Предыдущая запись Следующая запись