Перейти к содержимому

Проекты по синтезу "текст => речь" резко пошли в гору?


  • Авторизуйтесь для ответа в теме
Сообщений в теме: 84

#41 soundstudio

soundstudio

    Продвинутый пользователь

  • Пользователь
  • PipPipPip
  • 1 763 сообщений
1 746

Отправлено 30 Май 2021 - 13:16

смешно )

Сообщение отредактировал soundstudio: 30 Май 2021 - 13:18


#42 Леонид Шихов

Леонид Шихов

    Приступим к геноциду. (c) John Cavil. BSG.

  • Пользователь
  • PipPipPip
  • 811 сообщений
1 528

Отправлено 31 Май 2021 - 19:28

Вот ведь не хотел здесь ничего говорить еще в самом начале возникновения ветки.
Постараюсь быть сдержанным и относительно немногословным.

Так получилось, что тема TTS в моей практике первый раз всплыла еще в середине 2000х.
TTS Engines были немногочисленны и откровенно ужасны - надо было "допилить напильником", а по сути собрать слово "вечность" из известных четырёх кубиков.
К началу 10х годов алгоритмы стали пободрее, но "железяка" оставалась железякой. А прошло всего лишь пять ТЕХ лет.
К слову, на весну 2010 года максимально производительным процессором (для "гражданского" применения, разумеется) был Core i7-980X Extreme - аж 6 (шесть!) ядер, 3,33 ГГц.
Напомнить, сколько это стоило? $1100.
В тот же момент очень хороший (да, это так) i7-920 (4 ядра и 2,66 ГГц) продавался за $290.

Прошло еще 11 лет. Вычислительные мощности несколько...  хм... увеличились.
Алгоритмы TTS Engines тоже несколько ушли вперед.
Технологический уровень разработок позволяет мне прогнозировать закрытие рынка чтецов аудиокниг в течение ближайших 2-4 лет. Хотя как минимум половину существующего человеческого шлака на аудиокнижном рынке я бы вышвырнул из индустрии собственными руками уже сейчас.
Следом под нож пойдут презентации, "внутряк" и прочие проходные лонг-риды.

Мы находимся в увлекательном путешествии. Человеки сели на кораблик, он поплыл, было весело.
Иногда струнный квартетик тренькал пошленькую музычку - публика веселилась и хихикала под средней паршивости алкоголь.
Сейчас в каютах третьего класса несколько мокро (второй класс еще не в курсе произошедшего, но уже слышал подозрительный "хрясь-хрясь", а у первого класса - квартетик и бухлишко), но встреча с прекрасным только начинается.


Вот эти два файлика сделаны доступным для использования на сегодня TTS Engine.
В 2007 году это считалось достижимым лет через 50, как минимум.

Прикрепленный файл  ttsw.mp3   193,46К   173 Количество загрузок:

Прикрепленный файл  ttsm.mp3   199,88К   164 Количество загрузок:

Для тех, кто не владеет аглицким:
"Welcome to your industry-specific Titanic! I will gladly become your personal iceberg!"
(в гугл-превеодчик запихнёте сами)

#43 soundstudio

soundstudio

    Продвинутый пользователь

  • Пользователь
  • PipPipPip
  • 1 763 сообщений
1 746

Отправлено 31 Май 2021 - 20:25

Ну и несколько более, что даже вычислительные мощности пользователя уже не имеют значения. Плагин обрабатывает всё на стороне сервера и его ресурсами. https://emvoiceapp.com/
Я взял, не использую конечно везде, но иногда )

#44 Вадим Пугачев

Вадим Пугачев

    Мобильный диктор

  • Пользователь
  • PipPipPip
  • 794 сообщений
709

Отправлено 31 Май 2021 - 23:19

Просмотр сообщенияЛеонид Шихов (31 Май 2021 - 19:28) писал:

Вот ведь не хотел здесь ничего говорить еще в самом начале возникновения ветки.
Постараюсь быть сдержанным и относительно немногословным.

Так получилось, что тема TTS в моей практике первый раз всплыла еще в середине 2000х.
TTS Engines были немногочисленны и откровенно ужасны - надо было "допилить напильником", а по сути собрать слово "вечность" из известных четырёх кубиков.
К началу 10х годов алгоритмы стали пободрее, но "железяка" оставалась железякой. А прошло всего лишь пять ТЕХ лет.
К слову, на весну 2010 года максимально производительным процессором (для "гражданского" применения, разумеется) был Core i7-980X Extreme - аж 6 (шесть!) ядер, 3,33 ГГц.
Напомнить, сколько это стоило? $1100.
В тот же момент очень хороший (да, это так) i7-920 (4 ядра и 2,66 ГГц) продавался за $290.

Прошло еще 11 лет. Вычислительные мощности несколько...  хм... увеличились.
Алгоритмы TTS Engines тоже несколько ушли вперед.
Технологический уровень разработок позволяет мне прогнозировать закрытие рынка чтецов аудиокниг в течение ближайших 2-4 лет. Хотя как минимум половину существующего человеческого шлака на аудиокнижном рынке я бы вышвырнул из индустрии собственными руками уже сейчас.
Следом под нож пойдут презентации, "внутряк" и прочие проходные лонг-риды.

Мы находимся в увлекательном путешествии. Человеки сели на кораблик, он поплыл, было весело.
Иногда струнный квартетик тренькал пошленькую музычку - публика веселилась и хихикала под средней паршивости алкоголь.
Сейчас в каютах третьего класса несколько мокро (второй класс еще не в курсе произошедшего, но уже слышал подозрительный "хрясь-хрясь", а у первого класса - квартетик и бухлишко), но встреча с прекрасным только начинается.


Вот эти два файлика сделаны доступным для использования на сегодня TTS Engine.
В 2007 году это считалось достижимым лет через 50, как минимум.

Прикрепленный файл ttsw.mp3

Прикрепленный файл ttsm.mp3

Для тех, кто не владеет аглицким:
"Welcome to your industry-specific Titanic! I will gladly become your personal iceberg!"
(в гугл-превеодчик запихнёте сами)

Меня забавляет, что люди часто скидывают какие-то короткие фрагменты озвучки ботов и начинается: вах, вах, а ведь не так и плохо звучит. Хм. Господа, вы сначала послушайте целиком аудиокнигу, озвученную ботом, а потом делайте выводы)
Вот недавно довелось послушать аудиокнигу "Управляй как бог" в исполнении женского искусственного голоса.
Так, фразу таблица 3.1 она озвучила как "Таблица три целых, одна десятая". И это самая лайтовая жуть. Местами слушать просто невозможно, ее как будто заедало. Интерпретировать текст не может, сокращения не понимает, это тупо набор слов. В итоге прослушивание оказалось пустой тратой времени - воспринимать и понимать информацию очень сложно, да практически нереально. И так будет с любым сложным текстом.
Это все неплохо звучит, когда предложения из 5 слов. Вы где-нибудь видели такие книги?)))))

Сообщение отредактировал Вадим Пугачев: 31 Май 2021 - 23:23


#45 soundstudio

soundstudio

    Продвинутый пользователь

  • Пользователь
  • PipPipPip
  • 1 763 сообщений
1 746

Отправлено 01 Июнь 2021 - 00:03

Просмотр сообщенияВадим Пугачев (31 Май 2021 - 23:19) писал:

Вот недавно довелось послушать аудиокнигу "Управляй как бог" в исполнении женского искусственного голоса.
Больше пугает выбор аудиокниги )

#46 berau

berau

    DEBILIS IN DEBILE

  • Пользователь
  • PipPipPip
  • 1 370 сообщений
1 222

Отправлено 01 Июнь 2021 - 00:46

Просмотр сообщенияЛеонид Шихов (31 Май 2021 - 19:28) писал:

Вот ведь не хотел здесь ничего говорить еще в самом начале возникновения ветки.

Ну, то есть, Леонид, наши позиции полностью совпадают - в части констатации, по крайней мере.
Добавлю еще раз свое дохлое профанское подозрение: авось, дикторам с рельефными голосами, особо "харáктерным", удастся продержаться на плаву подольше, если они все еще не сдали эту свою ДНК.

Просмотр сообщенияsoundstudio (31 Май 2021 - 20:25) писал:

Ну и несколько более, что даже вычислительные мощности пользователя уже не имеют значения.

Да я так и думал, что это - магистральный вариант для индустрии. Мне оно видится так: открываешь некий сайтик, пишешь в нем текст, проставляешь ему пол, возраст, темп и "стиль", шерудишь-выбираешь, проигрывая с сайта, и потом платно скачиваешь. И мне кажется, что уже с самого начала это будет не сильно дорого.

Просмотр сообщенияВадим Пугачев (31 Май 2021 - 23:19) писал:

Это все неплохо звучит, когда предложения из 5 слов. Вы где-нибудь видели такие книги?)))))

Так говорим же в один голос: вопрос пары лет.

#47 Леонид Шихов

Леонид Шихов

    Приступим к геноциду. (c) John Cavil. BSG.

  • Пользователь
  • PipPipPip
  • 811 сообщений
1 528

Отправлено 01 Июнь 2021 - 01:44

Просмотр сообщенияВадим Пугачев (31 Май 2021 - 23:19) писал:

Меня забавляет, что люди часто скидывают какие-то короткие фрагмент

Меня не то что бы забавляет... скорее, пугает, что люди или читают по диагонали, или не могут понять прочитанное, хотя я старался излагать мысль свою неглубокую максимально доступно.

Еще раз и более доступно: пейзаж понятен, вектор очевиден.
Я в воздух чепчики не бросал касательно вот этих двух фрагментов, а всего лишь ткнул пальцем в динамику происходящего.
Да, пока это безусловно не человек, но:
1. Уже не та "жесть" (во всех смыслах), что получалась на выходе всего 15 лет назад. Перед нами классическая экспонента. Хотя на линейность  процесса я не надеялся, но и не думал, что всё пойдет именно так.
2. Следующий этап мы проскочим максимум за 5 лет.
3. То, что имеем сейчас, уже в полушаге от того, чтобы заменить живую особь во многих случаях, а именно (следим за руками):
a. IVR.
b. "внутряк" в магазинах.
c. видеоинструкции по сборке/использованию чего-либо.
И не надо тут мне про логику, фразировку, интонирование, редукцию и соблюдение пунктуационной партитуры - в этой битве вы заведомо проиграете (скромно напомню про филологическое образование, ага).
Для позиций "a", "b", "c" нужна разборчивость при воспроизведении (никого же не смущает служба поддержки какого-нибудь Амазона с чудовищным индийским или филиппинским акцентом, да?) и оперативность при производстве.

Кстати! Вот вам на подумать про оперативность!
Имеем 4 страницы видеообучалки "как собрать хрень".
Условный Вася выставляет 1000 рублей/страница. (Вася - дешманщик, и это его основное УТП, как дихтура).
Увидя 4 страницы (ай, нанэ-нанэ, какой наваристый заказчик!!! - это был сарказм), Вася делает суперскидку за обЪёмЪ и готов пережевать эти 4 страницы по 600 рублей (Вася - дебил, но не о том сейчас речь).
В итоге:
Вася будет минимум 20 минут в муках рожать результат, хотя уровень Васи таков, что с учетом незнакомых слов, беспорядочного совокупления буквочек во рту и прочих незапланированных дублей времени будет потрачено больше - и запросит за это 2400р.
С железякой вы получите результат через время, равное скорости скачивания готового файла. Прогнозируемая цена вопроса - $5 за 10000 символов, исключая пробелы.
Вася идёт курьером в Яндекс-Хаванину, где, собственно, ему и место (полагаю).

Сообщение отредактировал Леонид Шихов: 01 Июнь 2021 - 01:45


#48 soundstudio

soundstudio

    Продвинутый пользователь

  • Пользователь
  • PipPipPip
  • 1 763 сообщений
1 746

Отправлено 01 Июнь 2021 - 09:47

Просмотр сообщенияberau (01 Июнь 2021 - 00:46) писал:

Да я так и думал, что это - магистральный вариант для индустрии. Мне оно видится так: открываешь некий сайтик, пишешь в нем текст, проставляешь ему пол, возраст, темп и "стиль", шерудишь-выбираешь, проигрывая с сайта, и потом платно скачиваешь. И мне кажется, что уже с самого начала это будет не сильно дорого.
Так оно давно так и устроено, всё на сайте. Пообщался я с разработчиками этого сайта. Прикинул, ролик 30сек там можно заказать было за 10-50р, аудиокнигу не сильно дороже ))  https://editor.speechki.org/login
Ну и такие сайты сейчас растут как грибы, особенно англоязычные, реклама их даже достала одно время )
Но мне кажется, что скорее делают это на своих серверах, чтоб тупо не ушло хакерам и не не было потом бесплатно для всех.

Ну а так, это касается вообще всех отраслей, нейросети и ИИ уже пашут за всех и везде. От дикторов и фотографов, до бухгалтеров, аналитиков, игроков на мировых рынках, это пока только начало. В итоге останутся специалисты только с нестандартными подходами и критическим мышлением, который ИИ пока не в состоянии повторить.

Сообщение отредактировал soundstudio: 01 Июнь 2021 - 09:57


#49 ZvukNaZakaz.ru

ZvukNaZakaz.ru

    Продвинутый пользователь

  • Пользователь
  • PipPipPip
  • 156 сообщений
110

Отправлено 01 Июнь 2021 - 11:26

Просмотр сообщенияЛеонид Шихов (31 Май 2021 - 19:28) писал:

Вот эти два файлика сделаны доступным для использования на сегодня TTS Engine.
В 2007 году это считалось достижимым лет через 50, как минимум.

Прикрепленный файл ttsw.mp3

Прикрепленный файл ttsm.mp3


Извините, но на данный момент пока это очень слабо. Очень слышна роботизированность. Для каких-нибудь автоответчиков и генерируемых сообщений вполне допустимо. Во многих случаях будет лучше, чем конструкторы из заранее записанных слов и фраз. А вот для озвучивания даже информационных роликов, а уж тем более чего-то более художественного полностью не годится.

#50 Леонид Шихов

Леонид Шихов

    Приступим к геноциду. (c) John Cavil. BSG.

  • Пользователь
  • PipPipPip
  • 811 сообщений
1 528

Отправлено 01 Июнь 2021 - 12:24

Просмотр сообщенияZvukNaZakaz.ru (01 Июнь 2021 - 11:26) писал:

Извините, но на данный момент пока это очень слабо. Очень слышна роботизированность.
Она просто слышна. "Очень слышна" она была как раз лет 10-12 назад. Учитывая, что это TTS от Амазона, то в возможностях инвестирования в это направление я как-то не сомневаюсь. Баблишко у конторки есть. Гыгыгы.
Еще раз - это не "ура-ура, вот оно!". Это - направление развития и скорость этого развития.

В 2000м году за вполне ощутимые 50 баксов (3670р по сегодняшнему курсу) продавались USB-флешки.
Назывались они DiskOneKey, если ничего не путаю.
А вот объем помню совершенно точно - 8 (восемь) мегабайт.
Продолжать проводить параллели?

#51 Евгений Прохоров

Евгений Прохоров

    Продвинутый пользователь

  • Диктор
  • PipPipPip
  • 597 сообщений
1 026

Отправлено 01 Июнь 2021 - 12:40

Ну, слушайте, в нормальном оперном театре или балете играет живой оркестр. Для кино музыку пишут тоже живые музыканты и играют живые актеры, концерт группы Раммштайн, Металлика и даже Лободы живьем стоит дороже. 3 и 2 класс потонут, короче. Надо становиться VIP пассажиром, им выдадут шлюпки

#52 Вадим Пугачев

Вадим Пугачев

    Мобильный диктор

  • Пользователь
  • PipPipPip
  • 794 сообщений
709

Отправлено 01 Июнь 2021 - 12:43

Леонид, вы тут не единственный человек с филологическим образованием на форуме... к слову)
Я просто считаю, что о каждой нише озвучивания нужно говорить отдельно.
Почему боты не захватили рынок автоответчиков уже полностью, для меня загадка.
Это их вотчина!

Почему боты должны в ближайшие 5 лет захватить рынок аудиокниг? Для меня еще бОльшая загадка)
Инструкцию по использованию туалетной бумаги отдайте боту, пожалуйста.
Нормальные книги оставьте людям...
То, что вас бесит озвучка от разных горе-чтецов... Хм, то есть их вы где-то послушали. А вот послушать ботов что-то не дошли руки?
Так вы послушайте готовый продукт полностью, чтобы делать выводы)
Так что не верю я, что условно Пелевина, Улицкую или Лукьяненко через 5 лет будут озвучивать боты. А инструкции к туалетной бумаге - уже давно пора)))
И да, есть книги такого уровня, что за их аудио версию вряд ли кто-то заплатит. Их скормят ботам, это да.
У меня есть знакомые писатели, поверьте - ни один из них не мечтает, чтобы его произведения озвучивал бот.

А в целом если говорить про вектор направления, да тут вопросов нет, технологии везде и всюду теснят человечков. Спорить тут не о чем, и дикторы здесь не единственные, кто попадут под удар)

Сообщение отредактировал Вадим Пугачев: 01 Июнь 2021 - 13:00


#53 Леонид Шихов

Леонид Шихов

    Приступим к геноциду. (c) John Cavil. BSG.

  • Пользователь
  • PipPipPip
  • 811 сообщений
1 528

Отправлено 01 Июнь 2021 - 13:43

Просмотр сообщенияВадим Пугачев (01 Июнь 2021 - 12:43) писал:

Леонид, вы тут не единственный человек с филологическим образованием на форуме... к слову)

Неа, не единственный. Но наше количество таково, что может считаться статистической погрешностью.

Просмотр сообщенияВадим Пугачев (01 Июнь 2021 - 12:43) писал:

Почему боты не захватили рынок автоответчиков уже полностью, для меня загадка.
Это их вотчина!

Через 1,5-2 года вспомним про этот разговор, ага?

Просмотр сообщенияВадим Пугачев (01 Июнь 2021 - 12:43) писал:

То, что вас бесит озвучка от разных горе-чтецов... Хм, то есть их вы где-то послушали. А вот послушать ботов что-то не дошли руки?
Так вы послушайте готовый продукт полностью, чтобы делать выводы)

Да вряд ли бесит. Иногда это омерзительно до такой степени, что хочется слушать еще и еще :-)

В ситуации с "таблица три запятая одиннадцать" (или что там было?) мы имеем проблему не с ботом, а с тем кретином, что просто скопипастил текст из одного окошка в другое, не проверив, что получается на выходе, а после не откорректировал текст (да, пока что-то приходится править руками, чтобы машина поняла).

Просмотр сообщенияВадим Пугачев (01 Июнь 2021 - 12:43) писал:

Так что не верю я, что условно Пелевина, Улицкую или Лукьяненко через 5 лет будут озвучивать боты.

Где-то в аду на персональной сковородке улыбается Нед Лудд и просит передать привет.

UPD: символичненько-то как! это же жЪ мое 777 сообщение здесь! Хвала!

Сообщение отредактировал Леонид Шихов: 01 Июнь 2021 - 13:46


#54 Алдияр

Алдияр

    Всё в норме.

  • Пользователь
  • PipPipPip
  • 719 сообщений
701

Отправлено 01 Июнь 2021 - 13:56

К счастью, палитра возможностей человека по части художественного чтения настолько велика, если не безгранична, что сгенерировать такое ИИ пока не под силу.
Полагаю и надеюсь, что ещё очень долго будет не под силу.
Всё что должно быть живым, прочувствованным, импровизируемым останется за человеком.

#55 soundstudio

soundstudio

    Продвинутый пользователь

  • Пользователь
  • PipPipPip
  • 1 763 сообщений
1 746

Отправлено 01 Июнь 2021 - 18:27

Просмотр сообщенияАлдияр (01 Июнь 2021 - 13:56) писал:

К счастью, палитра возможностей человека по части художественного чтения настолько велика, если не безгранична, что сгенерировать такое ИИ пока не под силу.
Полагаю и надеюсь, что ещё очень долго будет не под силу.
Всё что должно быть живым, прочувствованным, импровизируемым останется за человеком.
Как раз это то, скорее уже очень даже по силу, при том сгенерировать куда больше вариантов в секунду времени, чем это может позволить себе человек. Даже перемешать имеющиеся данные и выдать то, что человеку не пришло бы в голову ) Иногда даже диктор без режиссера может не поймать нужную интонацию. Тут вопрос более обширный )

#56 berau

berau

    DEBILIS IN DEBILE

  • Пользователь
  • PipPipPip
  • 1 370 сообщений
1 222

Отправлено 02 Июнь 2021 - 01:20

Просмотр сообщенияАлдияр (01 Июнь 2021 - 13:56) писал:

К счастью, палитра возможностей человека по части художественного чтения настолько велика, если не безгранична, что сгенерировать такое ИИ пока не под силу.

Весь вопрос - в том, насколько слушатель взыскует именно особенности палитры. Ведь только в этом же и вопрос.
А, нет, еще один вопрос - в технике приобретения аудиофайлов. Но если даже вообразить, что он будет как-то решен, и никто не сможет получить аудиокнигу, озвученную, скажем, Мерил Стрип, иначе как купив ее за выставленную цену, а не найти на торрент-трекере, то вот мы и будем иметь чисто рыночный расклад: книга, озвученная уважаемым актером по цене $20, и она же роботом за $3. В итоге, думаю, в такой технически идеальной ситуации нижний слой "живых" аудиокниг вымоется полностью, и останутся "авторские" задорого и ИИ задешево. Может быть, уже не в форме скачиваемых файлов, а в форме более дорогого, или более дешевого подписного стриминга.

О филологическом образовании - ну и у меня филологическое. Ни разу не использовал такую ерунду как аргумент, но если угодно... Филология ж - понятие широкое. Где-то там притаилась и прагмалингвистика. С высот которой видать, что есть получатель информации (слухач), и собссно текст. И слухачу надо получить в себя текст. И он сам будет решать, что ему важно.

Подходов здесь, по сути, два, хотя мало кто это признаёт.
Есть подход "измерителя", который просто констатирует, как оно есть, безотносительно к нашей выгоде, нашим взглядам и воспитанию.
Есть подход "жреца", который апеллирует к авторитетным установкам, и у которого есть по всякому вопросу ясная шкала - "хорошо : плохо".
Вот этот второй подход, мне кажется, помешает принимать адекватные решения, когда речь зайдет о поддержании себя на плаву. Ну, самые раскрученные и диверсифицированные, конечно, выживут. А у кого труба пониже (у меня, увы, в том числе) - тому не до красивых словес и не до брани в адрес непритязательной публики. И не до злобных мечтаний (с) о том, как мы кого-то там "погоним ссаной тряпкой из профессии". Этого не будет, а развитие ИИ-технологий - будет.

#57 Алдияр

Алдияр

    Всё в норме.

  • Пользователь
  • PipPipPip
  • 719 сообщений
701

Отправлено 02 Июнь 2021 - 11:45

Просмотр сообщенияsoundstudio (01 Июнь 2021 - 18:27) писал:

Как раз это то, скорее уже очень даже по силу, при том сгенерировать куда больше вариантов в секунду времени, чем это может позволить себе человек. Даже перемешать имеющиеся данные и выдать то, что человеку не пришло бы в голову ) Иногда даже диктор без режиссера может не поймать нужную интонацию. Тут вопрос более обширный )
Вадик, предлагаю продолжить тему, когда ИИ-голос сможет уместно заплакать навзрыд или разразиться хохотом, запыхавшись дышать или стонать, когда этот голос сможет пробуждать в слушателе соответствующие эмоции. Задача всё же отличается от игры в шахматы, где комп давно победил.
Поэтому пока по части художественного чтения надеюсь можно быть спокойным годы вперед.

Просмотр сообщенияberau (02 Июнь 2021 - 01:20) писал:

Весь вопрос - в том, насколько слушатель взыскует именно особенности палитры. Ведь только в этом же и вопрос.
Взыскует он там, где голос должен пробуждать эмоции и меньше взыскует там, где главенствует информация. Всё должно быть (стать) по-человечески, Ярослав.

#58 Карабанов Александр

Карабанов Александр

    Пишу музыку

  • Пользователь
  • PipPipPip
  • 2 191 сообщений
3 083

Отправлено 02 Июнь 2021 - 12:06

Работа для ИИ голоса: Автоинформаторы  - логично и реально сейчас..   Синхронный перевод(где специально интонирование прижимается, и все нейтрально)   - реально  в ближайшем будущем.  Ролики - еще долго нет, либо они будут настолько однообразны. Книги? А книги я читаю сам. Аудио не могу воспринимать)

#59 soundstudio

soundstudio

    Продвинутый пользователь

  • Пользователь
  • PipPipPip
  • 1 763 сообщений
1 746

Отправлено 02 Июнь 2021 - 12:23

Просмотр сообщенияАлдияр (02 Июнь 2021 - 11:45) писал:

Вадик, предлагаю продолжить тему, когда ИИ-голос сможет уместно заплакать навзрыд или разразиться хохотом, запыхавшись дышать или стонать, когда этот голос сможет пробуждать в слушателе соответствующие эмоции. Задача всё же отличается от игры в шахматы, где комп давно победил.
Поэтому пока по части художественного чтения надеюсь можно быть спокойным годы вперед.
Думаю и это уже вполне реализуемо и все для этого есть. Если говорить о высокохудожественно исполнении, то это просто задача режиссера\программиста дать понять алгоритму что и когда делать, как и в театре и в кино делает режиссер) Само оно конечно не делает, пока, но и это не далеко, если натаскать нейронную сеть на большой объем данных, а эти данные ото всюду сейчас собираются в огромных масштабах.

Просмотр сообщенияКарабанов Александр (02 Июнь 2021 - 12:06) писал:

Ролики - еще долго нет, либо они будут настолько однообразны.
Вот по роликам проще всего. Везде одни и те же дуги, интонации, эмоции и т.д. Всё давно ШАБЛОННО. Классифицировать это, разбить на категории, особо там много ресурсов и ума программиста не потребуется. У многих даже топовых дикторов от ролика к ролику прослеживается одна и та же РАБОТАЮЩАЯ подача, просто это уже наработано и отработано.

#60 berau

berau

    DEBILIS IN DEBILE

  • Пользователь
  • PipPipPip
  • 1 370 сообщений
1 222

Отправлено 03 Июнь 2021 - 03:18

Хохотать и плакать навзрыд требуется в каком проценте всей продукции, даже "игровой"? Исключить этот процент - и почти ничего не потеряется.

А по роликам - ой, хотел бы я, чтобы живые люди, читающие их сейчас, были менее шаблонны. Но увы.

Когда любого из нас продюсируют в реальном времени, мы не деревенеем в своих особенностях. И мне всегда приходится слегка себя подпихнуть, но и то - время от времени мне нужен взгляд со стороны. А вот тех, кто всё делает в одной манере и всегда дистанционно, и имеет голосовые данные без какой-то особой "фишки", и не раскручен персонально - тех ИИ заменит и не поперхнется.

Я прям здесь тычу в демки некоторых и слышу стереотипный оттяг, типа "слушайте, щас буду читать рекламу". Сами же и придумывают себе люди манэру, шо звучат как под фанэру.




Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных