Сообщение отредактировал soundstudio: 30 Май 2021 - 13:18
Проекты по синтезу "текст => речь" резко пошли в гору?
#41
Отправлено 30 Май 2021 - 13:16
#42
Отправлено 31 Май 2021 - 19:28
Постараюсь быть сдержанным и относительно немногословным.
Так получилось, что тема TTS в моей практике первый раз всплыла еще в середине 2000х.
TTS Engines были немногочисленны и откровенно ужасны - надо было "допилить напильником", а по сути собрать слово "вечность" из известных четырёх кубиков.
К началу 10х годов алгоритмы стали пободрее, но "железяка" оставалась железякой. А прошло всего лишь пять ТЕХ лет.
К слову, на весну 2010 года максимально производительным процессором (для "гражданского" применения, разумеется) был Core i7-980X Extreme - аж 6 (шесть!) ядер, 3,33 ГГц.
Напомнить, сколько это стоило? $1100.
В тот же момент очень хороший (да, это так) i7-920 (4 ядра и 2,66 ГГц) продавался за $290.
Прошло еще 11 лет. Вычислительные мощности несколько... хм... увеличились.
Алгоритмы TTS Engines тоже несколько ушли вперед.
Технологический уровень разработок позволяет мне прогнозировать закрытие рынка чтецов аудиокниг в течение ближайших 2-4 лет. Хотя как минимум половину существующего человеческого шлака на аудиокнижном рынке я бы вышвырнул из индустрии собственными руками уже сейчас.
Следом под нож пойдут презентации, "внутряк" и прочие проходные лонг-риды.
Мы находимся в увлекательном путешествии. Человеки сели на кораблик, он поплыл, было весело.
Иногда струнный квартетик тренькал пошленькую музычку - публика веселилась и хихикала под средней паршивости алкоголь.
Сейчас в каютах третьего класса несколько мокро (второй класс еще не в курсе произошедшего, но уже слышал подозрительный "хрясь-хрясь", а у первого класса - квартетик и бухлишко), но встреча с прекрасным только начинается.
Вот эти два файлика сделаны доступным для использования на сегодня TTS Engine.
В 2007 году это считалось достижимым лет через 50, как минимум.
ttsw.mp3 193,46К 213 Количество загрузок:
ttsm.mp3 199,88К 192 Количество загрузок:
Для тех, кто не владеет аглицким:
"Welcome to your industry-specific Titanic! I will gladly become your personal iceberg!"
(в гугл-превеодчик запихнёте сами)
#43
Отправлено 31 Май 2021 - 20:25
Я взял, не использую конечно везде, но иногда )
#44
Отправлено 31 Май 2021 - 23:19
Леонид Шихов (31 Май 2021 - 19:28) писал:
Постараюсь быть сдержанным и относительно немногословным.
Так получилось, что тема TTS в моей практике первый раз всплыла еще в середине 2000х.
TTS Engines были немногочисленны и откровенно ужасны - надо было "допилить напильником", а по сути собрать слово "вечность" из известных четырёх кубиков.
К началу 10х годов алгоритмы стали пободрее, но "железяка" оставалась железякой. А прошло всего лишь пять ТЕХ лет.
К слову, на весну 2010 года максимально производительным процессором (для "гражданского" применения, разумеется) был Core i7-980X Extreme - аж 6 (шесть!) ядер, 3,33 ГГц.
Напомнить, сколько это стоило? $1100.
В тот же момент очень хороший (да, это так) i7-920 (4 ядра и 2,66 ГГц) продавался за $290.
Прошло еще 11 лет. Вычислительные мощности несколько... хм... увеличились.
Алгоритмы TTS Engines тоже несколько ушли вперед.
Технологический уровень разработок позволяет мне прогнозировать закрытие рынка чтецов аудиокниг в течение ближайших 2-4 лет. Хотя как минимум половину существующего человеческого шлака на аудиокнижном рынке я бы вышвырнул из индустрии собственными руками уже сейчас.
Следом под нож пойдут презентации, "внутряк" и прочие проходные лонг-риды.
Мы находимся в увлекательном путешествии. Человеки сели на кораблик, он поплыл, было весело.
Иногда струнный квартетик тренькал пошленькую музычку - публика веселилась и хихикала под средней паршивости алкоголь.
Сейчас в каютах третьего класса несколько мокро (второй класс еще не в курсе произошедшего, но уже слышал подозрительный "хрясь-хрясь", а у первого класса - квартетик и бухлишко), но встреча с прекрасным только начинается.
Вот эти два файлика сделаны доступным для использования на сегодня TTS Engine.
В 2007 году это считалось достижимым лет через 50, как минимум.
ttsw.mp3
ttsm.mp3
Для тех, кто не владеет аглицким:
"Welcome to your industry-specific Titanic! I will gladly become your personal iceberg!"
(в гугл-превеодчик запихнёте сами)
Меня забавляет, что люди часто скидывают какие-то короткие фрагменты озвучки ботов и начинается: вах, вах, а ведь не так и плохо звучит. Хм. Господа, вы сначала послушайте целиком аудиокнигу, озвученную ботом, а потом делайте выводы)
Вот недавно довелось послушать аудиокнигу "Управляй как бог" в исполнении женского искусственного голоса.
Так, фразу таблица 3.1 она озвучила как "Таблица три целых, одна десятая". И это самая лайтовая жуть. Местами слушать просто невозможно, ее как будто заедало. Интерпретировать текст не может, сокращения не понимает, это тупо набор слов. В итоге прослушивание оказалось пустой тратой времени - воспринимать и понимать информацию очень сложно, да практически нереально. И так будет с любым сложным текстом.
Это все неплохо звучит, когда предложения из 5 слов. Вы где-нибудь видели такие книги?)))))
Сообщение отредактировал Вадим Пугачев: 31 Май 2021 - 23:23
#46
Отправлено 01 Июнь 2021 - 00:46
Леонид Шихов (31 Май 2021 - 19:28) писал:
Ну, то есть, Леонид, наши позиции полностью совпадают - в части констатации, по крайней мере.
Добавлю еще раз свое дохлое профанское подозрение: авось, дикторам с рельефными голосами, особо "харáктерным", удастся продержаться на плаву подольше, если они все еще не сдали эту свою ДНК.
soundstudio (31 Май 2021 - 20:25) писал:
Да я так и думал, что это - магистральный вариант для индустрии. Мне оно видится так: открываешь некий сайтик, пишешь в нем текст, проставляешь ему пол, возраст, темп и "стиль", шерудишь-выбираешь, проигрывая с сайта, и потом платно скачиваешь. И мне кажется, что уже с самого начала это будет не сильно дорого.
Вадим Пугачев (31 Май 2021 - 23:19) писал:
Так говорим же в один голос: вопрос пары лет.
#47
Отправлено 01 Июнь 2021 - 01:44
Вадим Пугачев (31 Май 2021 - 23:19) писал:
Меня не то что бы забавляет... скорее, пугает, что люди или читают по диагонали, или не могут понять прочитанное, хотя я старался излагать мысль свою неглубокую максимально доступно.
Еще раз и более доступно: пейзаж понятен, вектор очевиден.
Я в воздух чепчики не бросал касательно вот этих двух фрагментов, а всего лишь ткнул пальцем в динамику происходящего.
Да, пока это безусловно не человек, но:
1. Уже не та "жесть" (во всех смыслах), что получалась на выходе всего 15 лет назад. Перед нами классическая экспонента. Хотя на линейность процесса я не надеялся, но и не думал, что всё пойдет именно так.
2. Следующий этап мы проскочим максимум за 5 лет.
3. То, что имеем сейчас, уже в полушаге от того, чтобы заменить живую особь во многих случаях, а именно (следим за руками):
a. IVR.
b. "внутряк" в магазинах.
c. видеоинструкции по сборке/использованию чего-либо.
И не надо тут мне про логику, фразировку, интонирование, редукцию и соблюдение пунктуационной партитуры - в этой битве вы заведомо проиграете (скромно напомню про филологическое образование, ага).
Для позиций "a", "b", "c" нужна разборчивость при воспроизведении (никого же не смущает служба поддержки какого-нибудь Амазона с чудовищным индийским или филиппинским акцентом, да?) и оперативность при производстве.
Кстати! Вот вам на подумать про оперативность!
Имеем 4 страницы видеообучалки "как собрать хрень".
Условный Вася выставляет 1000 рублей/страница. (Вася - дешманщик, и это его основное УТП, как дихтура).
Увидя 4 страницы (ай, нанэ-нанэ, какой наваристый заказчик!!! - это был сарказм), Вася делает суперскидку за обЪёмЪ и готов пережевать эти 4 страницы по 600 рублей (Вася - дебил, но не о том сейчас речь).
В итоге:
Вася будет минимум 20 минут в муках рожать результат, хотя уровень Васи таков, что с учетом незнакомых слов, беспорядочного совокупления буквочек во рту и прочих незапланированных дублей времени будет потрачено больше - и запросит за это 2400р.
С железякой вы получите результат через время, равное скорости скачивания готового файла. Прогнозируемая цена вопроса - $5 за 10000 символов, исключая пробелы.
Вася идёт курьером в Яндекс-Хаванину, где, собственно, ему и место (полагаю).
Сообщение отредактировал Леонид Шихов: 01 Июнь 2021 - 01:45
#48
Отправлено 01 Июнь 2021 - 09:47
berau (01 Июнь 2021 - 00:46) писал:
Ну и такие сайты сейчас растут как грибы, особенно англоязычные, реклама их даже достала одно время )
Но мне кажется, что скорее делают это на своих серверах, чтоб тупо не ушло хакерам и не не было потом бесплатно для всех.
Ну а так, это касается вообще всех отраслей, нейросети и ИИ уже пашут за всех и везде. От дикторов и фотографов, до бухгалтеров, аналитиков, игроков на мировых рынках, это пока только начало. В итоге останутся специалисты только с нестандартными подходами и критическим мышлением, который ИИ пока не в состоянии повторить.
Сообщение отредактировал soundstudio: 01 Июнь 2021 - 09:57
#49
Отправлено 01 Июнь 2021 - 11:26
Леонид Шихов (31 Май 2021 - 19:28) писал:
Извините, но на данный момент пока это очень слабо. Очень слышна роботизированность. Для каких-нибудь автоответчиков и генерируемых сообщений вполне допустимо. Во многих случаях будет лучше, чем конструкторы из заранее записанных слов и фраз. А вот для озвучивания даже информационных роликов, а уж тем более чего-то более художественного полностью не годится.
#50
Отправлено 01 Июнь 2021 - 12:24
ZvukNaZakaz.ru (01 Июнь 2021 - 11:26) писал:
Еще раз - это не "ура-ура, вот оно!". Это - направление развития и скорость этого развития.
В 2000м году за вполне ощутимые 50 баксов (3670р по сегодняшнему курсу) продавались USB-флешки.
Назывались они DiskOneKey, если ничего не путаю.
А вот объем помню совершенно точно - 8 (восемь) мегабайт.
Продолжать проводить параллели?
#51
Отправлено 01 Июнь 2021 - 12:40
#52
Отправлено 01 Июнь 2021 - 12:43
Я просто считаю, что о каждой нише озвучивания нужно говорить отдельно.
Почему боты не захватили рынок автоответчиков уже полностью, для меня загадка.
Это их вотчина!
Почему боты должны в ближайшие 5 лет захватить рынок аудиокниг? Для меня еще бОльшая загадка)
Инструкцию по использованию туалетной бумаги отдайте боту, пожалуйста.
Нормальные книги оставьте людям...
То, что вас бесит озвучка от разных горе-чтецов... Хм, то есть их вы где-то послушали. А вот послушать ботов что-то не дошли руки?
Так вы послушайте готовый продукт полностью, чтобы делать выводы)
Так что не верю я, что условно Пелевина, Улицкую или Лукьяненко через 5 лет будут озвучивать боты. А инструкции к туалетной бумаге - уже давно пора)))
И да, есть книги такого уровня, что за их аудио версию вряд ли кто-то заплатит. Их скормят ботам, это да.
У меня есть знакомые писатели, поверьте - ни один из них не мечтает, чтобы его произведения озвучивал бот.
А в целом если говорить про вектор направления, да тут вопросов нет, технологии везде и всюду теснят человечков. Спорить тут не о чем, и дикторы здесь не единственные, кто попадут под удар)
Сообщение отредактировал Вадим Пугачев: 01 Июнь 2021 - 13:00
#53
Отправлено 01 Июнь 2021 - 13:43
Вадим Пугачев (01 Июнь 2021 - 12:43) писал:
Неа, не единственный. Но наше количество таково, что может считаться статистической погрешностью.
Вадим Пугачев (01 Июнь 2021 - 12:43) писал:
Это их вотчина!
Через 1,5-2 года вспомним про этот разговор, ага?
Вадим Пугачев (01 Июнь 2021 - 12:43) писал:
Так вы послушайте готовый продукт полностью, чтобы делать выводы)
Да вряд ли бесит. Иногда это омерзительно до такой степени, что хочется слушать еще и еще :-)
В ситуации с "таблица три запятая одиннадцать" (или что там было?) мы имеем проблему не с ботом, а с тем кретином, что просто скопипастил текст из одного окошка в другое, не проверив, что получается на выходе, а после не откорректировал текст (да, пока что-то приходится править руками, чтобы машина поняла).
Вадим Пугачев (01 Июнь 2021 - 12:43) писал:
Где-то в аду на персональной сковородке улыбается Нед Лудд и просит передать привет.
UPD: символичненько-то как! это же жЪ мое 777 сообщение здесь! Хвала!
Сообщение отредактировал Леонид Шихов: 01 Июнь 2021 - 13:46
#54
Отправлено 01 Июнь 2021 - 13:56
Полагаю и надеюсь, что ещё очень долго будет не под силу.
Всё что должно быть живым, прочувствованным, импровизируемым останется за человеком.
#55
Отправлено 01 Июнь 2021 - 18:27
Алдияр (01 Июнь 2021 - 13:56) писал:
Полагаю и надеюсь, что ещё очень долго будет не под силу.
Всё что должно быть живым, прочувствованным, импровизируемым останется за человеком.
#56
Отправлено 02 Июнь 2021 - 01:20
Алдияр (01 Июнь 2021 - 13:56) писал:
Весь вопрос - в том, насколько слушатель взыскует именно особенности палитры. Ведь только в этом же и вопрос.
А, нет, еще один вопрос - в технике приобретения аудиофайлов. Но если даже вообразить, что он будет как-то решен, и никто не сможет получить аудиокнигу, озвученную, скажем, Мерил Стрип, иначе как купив ее за выставленную цену, а не найти на торрент-трекере, то вот мы и будем иметь чисто рыночный расклад: книга, озвученная уважаемым актером по цене $20, и она же роботом за $3. В итоге, думаю, в такой технически идеальной ситуации нижний слой "живых" аудиокниг вымоется полностью, и останутся "авторские" задорого и ИИ задешево. Может быть, уже не в форме скачиваемых файлов, а в форме более дорогого, или более дешевого подписного стриминга.
О филологическом образовании - ну и у меня филологическое. Ни разу не использовал такую ерунду как аргумент, но если угодно... Филология ж - понятие широкое. Где-то там притаилась и прагмалингвистика. С высот которой видать, что есть получатель информации (слухач), и собссно текст. И слухачу надо получить в себя текст. И он сам будет решать, что ему важно.
Подходов здесь, по сути, два, хотя мало кто это признаёт.
Есть подход "измерителя", который просто констатирует, как оно есть, безотносительно к нашей выгоде, нашим взглядам и воспитанию.
Есть подход "жреца", который апеллирует к авторитетным установкам, и у которого есть по всякому вопросу ясная шкала - "хорошо : плохо".
Вот этот второй подход, мне кажется, помешает принимать адекватные решения, когда речь зайдет о поддержании себя на плаву. Ну, самые раскрученные и диверсифицированные, конечно, выживут. А у кого труба пониже (у меня, увы, в том числе) - тому не до красивых словес и не до брани в адрес непритязательной публики. И не до злобных мечтаний (с) о том, как мы кого-то там "погоним ссаной тряпкой из профессии". Этого не будет, а развитие ИИ-технологий - будет.
#57
Отправлено 02 Июнь 2021 - 11:45
soundstudio (01 Июнь 2021 - 18:27) писал:
Поэтому пока по части художественного чтения надеюсь можно быть спокойным годы вперед.
berau (02 Июнь 2021 - 01:20) писал:
#58
Отправлено 02 Июнь 2021 - 12:06
#59
Отправлено 02 Июнь 2021 - 12:23
Алдияр (02 Июнь 2021 - 11:45) писал:
Поэтому пока по части художественного чтения надеюсь можно быть спокойным годы вперед.
Карабанов Александр (02 Июнь 2021 - 12:06) писал:
#60
Отправлено 03 Июнь 2021 - 03:18
А по роликам - ой, хотел бы я, чтобы живые люди, читающие их сейчас, были менее шаблонны. Но увы.
Когда любого из нас продюсируют в реальном времени, мы не деревенеем в своих особенностях. И мне всегда приходится слегка себя подпихнуть, но и то - время от времени мне нужен взгляд со стороны. А вот тех, кто всё делает в одной манере и всегда дистанционно, и имеет голосовые данные без какой-то особой "фишки", и не раскручен персонально - тех ИИ заменит и не поперхнется.
Я прям здесь тычу в демки некоторых и слышу стереотипный оттяг, типа "слушайте, щас буду читать рекламу". Сами же и придумывают себе люди манэру, шо звучат как под фанэру.
Количество пользователей, читающих эту тему: 2
0 пользователей, 2 гостей, 0 анонимных