Как перевести текст в аудио
Содержание:
- Список синтезаторов речи:
- Программы для озвучки текста
- Альтернативные синтезаторы
- Какие возможности у онлайн сервисов по озвучиванию текста и зачем они нужны?
- Способ №1. Speechpad.ru — ввод текста речью онлайн
- Программа Virtual Audio Cable
- Популярные голосовые движки
- iSpeech — сервис воспроизводит текст в речь
- Ещё немного о стандартах голосовых движков
- Сайт speechpad.ru
- Онлайн сервисы для набора текста голосом
- Заключение
Список синтезаторов речи:
1. Acapela
Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена. Женский голос появился значительно позднее мужского и является более усовершенствованным.
Прослушать, как звучат голоса, можно на официальном сайте программы. Достаточно лишь выбрать язык и голос, и набрать свой небольшой текст.
Кстати, для мужского голоса был разработан отдельный словарь ударений, что позволяет достичь еще большей четкости произношения.
Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.
Программа платная, скачать ее можно с официального сайта Acapela.
2. Vokalizer
Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance. Голос звучит очень естественно, речь чистая
Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно. Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений
Прекрасно подходит для чтения книг.
Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.
3. RHVoice
Синтезатор речи RHVoice был разработан Ольгой Яковлевой. Программа озвучивает русские тексты тремя голосами: Елена, Ирина и Александр. Подробнее об установке и применении, а также прослушать голоса Вы сможете в прошлой статье
Код синтезатора открыт для всех, программы же абсолютно бесплатны. RHVoice выпущена в двух вариантах: как отдельная программа, так и как приложение к NVDA. Все версии можно скачать с официального сайта разработчика.
4. ESpeak
Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.
- Microsoft Windows,
- Mac OS X,
- Linux,
- RISC OS
Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно. А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.
Для разработчиков будет интересно узнать, что C++ код программы доступен в сети. Скачать программу, а также посмотреть ее код можно на официальном сайте.
5. Festival
Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете. Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном сайте университета Эдинбурга.
Русский голос представлен в одном варианте, но звучание довольно хорошее и ясное, без акцента и с правильной расстановкой ударений. К сожалению, программа пока может быть установлена только в среде API, Linux. Также есть модуль для работы в Mac OS, но русский язык пока поддерживается не очень хорошо.
Программы для озвучки текста
Если вам нужно постоянно озвучивать большие объемы текста из электронных документов, то самый удобный вариант — установить специальные приложения, которые умеют работать с файлами разного формата.
Балаболка
Балаболка — бесплатная программа озвучки для Windows от российских разработчиков. Она поддерживает работу с любыми голосовыми движками, установленными в системе. В ее интерфейсе есть стандартные инструменты для управления воспроизведением: пауза, остановка, перемотка, изменение скорости и громкости.
«Балаболка» умеет читать вслух текст из буфера обмена, произносить набираемые на клавиатуре фразы, озвучивать содержимое редактора или загруженных в нее файлов в форматах AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, WPD, XLS, XLSX.
Результат обработки «Балаболка» сохраняет как аудиофайл в форматах WAV, MP3, MP4, OGG и WMA. У нее также есть возможность сохранения текста внутри файлов MP3 для дальнейшего отображения в виде субтитров в медиапроигрывателе.
Govorilka
Govorilka — ещё одна программа для озвучки с минималистичным интерфейсом. Поддерживает голосовые движки устаревшего стандарта SAPI 4, в том числе на иностранных языках.
По умолчанию Govorilka озвучивает текст голосом стандартного движка Microsoft. В ее составе есть инструменты управления, традиционные для программ такого типа: воспроизведение, пауза, остановка, изменение скорости, громкости и высоты голоса. Одновременно в ней можно открыть до 8 вкладок с разными фрагментами текста.
Несмотря на простоту и устаревший интерфейс, «Говорилка» всё еще актуальна. Она умеет распознавать текстовые документы в разных форматах объёмом до 2 Гб и сохранять результат обработки в MP3 и WAV.
eSpeak
eSpeak — бесплатная программа для озвучки текста, доступная на Windows, macOS, Linux и Android. Она использует голосовые движки, установленные в системе, а также добавляет к ним несколько своих.
Версия этого приложения для Windows имеет максимально простой интерфейс и управление. Текст, который нужно прочитать, достаточно вставить в поле посредине окна, а затем нажать “Speak”.
Максимальный размер текста здесь явно не определен, но приложение справляется с большими объёмами. Также у него есть возможность читать тексты из файлов с расширением TXT, другие форматы не поддерживаются.
Для управления скоростью чтения в eSpeak используется ползунок Rate. Если вы хотите сохранить прочитанный текст в аудиофайл, нажмите на кнопку «Save to .wav» и задайте имя записи.
В мобильной версии приложения для Android аналогичная функциональность, разве что нет возможности сохранить текст в аудио.
Acapela TTS
Acapela Group разрабатывает программы для всех популярных операционных систем: Windows, macOS, Linux. Android, iOS. Среди главных достоинств этого софта — поддержка большого количества языков и отличное качество голоса. Мощные движки хорошо обучены и имеют развёрнутую справочную базу, которая позволяет им говорить правильно и выразительно.
Однако все продукты Acapela коммерческие. Установить приложение на компьютер или телефон можно бесплатно, но без купленного голосового движка в них нет никакого смысла. Стоимость одного пакета — 3,99 евро. Прежде чем оплачивать покупку, вы можете прослушать демо голоса с произвольным текстом, чтобы определить, подходит ли вам такое звучание.
ICE Book Reader Professional
Если вы ищите программу, которая будет озвучивать целые книги, то попробуйте ICE Book Reader Professional. Это приложение поддерживает различные форматы текстовых документов: TXT, HTML, XML, RTF, DOC и DOCX, PALM (.PDB и .PRC), PSION/EPOC (.TCR), Microsoft Reader (.LIT), Microsoft HELP files (.CHM) и FictionBook файлы (все версии) (.FB2, .XML). А для чтения в нем используются голосовые движки стандарта SAPI 4 и 5.
Программа умеет превращать книги в MP3/WAV-файлы. Это значит, что вы можете из любого произведения, доступного в текстовом формате, сделать аудиокнигу.
Скорость преобразования текста в голос в этом приложении увеличивается за счёт одновременного использования нескольких модулей синтеза речи.
Альтернативные синтезаторы
Яндекс Переводчик
Как мы уже знаем благодаря боту «Алиса», у софта «Яндекса» все хорошо с распознаванием речи. Преобразование текста в речь в интерфейсе их переводчика тоже работает на ура. Никаких дополнительных настроек и возможностей экспорта не предусмотрено, но это стандартная практика для приложений-переводчиков.
Google Переводчик
Аналогично своему российскому коллеге, этот переводческий инструмент выполняет базовые задачи по озвучке текста. Подходит для сверки ударений. Мобильное приложение этого сервиса нередко выручает в путешествиях: достаточно напечатать или сказать в динамик нужную фразу, чтобы софт тут же озвучил ее перевод вашему иностранному собеседнику.
Какие возможности у онлайн сервисов по озвучиванию текста и зачем они нужны?
Программное обеспечение для озвучки имеют практически одинаковый принцип работы.
Функции сервисов и алгоритм работы:
- Ввод текста или загрузка документа в специальной области.
- После этого запускается установленный Вами движок.
- Далее предлагается выбрать голос.
- Отметьте нужную комфортную скорость чтения
У подобных сервисов есть единственный недостаток – это неправильное произношение, ударение, речевые ошибки. В остальном – они отлично справляются, даже голос уже давно стал максимально похожим на человеческий.
Движки анализа и обработки речи представляют собой специальное программное обеспечение, как драйвера для устройств, подключаемых к компьютеру. Они необходимы для функционирования модуля голоса и запуска читалки, чтобы осуществить преобразование текстовой информации в речь.
Подобное приложение не имеет графического интерфейса взаимодействия и дизайна. Чтобы начать работу с текстом, необходима программа для чтения.
При установке любого сервиса без предварительной загрузки движка информация воспроизводится не будет. Новички зачастую совершают такую ошибку.
Основные стандарты движков:
- SAPI 4 – довольно немолодой, но достаточно надежный стандарт. Качество преобразования и чтения для современного уровня недостаточно хорошее, поэтому на текущий момент практически не используется.
- SAPI 5 – практически самый популярный стандарт, все современные голосовые движки работают под его чутким руководством. Может воспроизводить разные типы голосов и тональности.
- MS Speech Platform – комплекс стандартов и инструментов для функционирования чтения.
Примеры современных движков:
- Тext-to-speech engines (имя — Николай) – это распространенное ПО на русском с мужским голосом, подходит для большого количества сервисов-читалок. Также на сайте есть языковые пакеты для него. Недостаток есть только один – пробный период две недели, поэтому при желании использовать дальше придется оплачивать подписку.
- Acapela (имя – Алена) – это популярный голосовой движок на русском с приятным женским голосом от известной компании. Работает по современному стандарту SAPI-5.
- Катерина 2 – достаточно хорошая реализация речевой функции на русском с приятным женским голосом, который по техническим характеристика сопоставим с TTSE. Постоянно обновляется и происходят доработки голоса. Особенно важным и решающим стало обновление фонетической части и теперь Катя практически не делает ошибок в ударениях.
- RHVoice — современный мультиязычный преобразователь текста в речь с открытым кодом и возможностью самостоятельно настраивать в пользовательском режиме. Используется со всеми операционными системами, действующими на данными момент.
- IVONA Tatyana/Maxim – прогрессивный движок, способный воспроизводить речь как мужским, так и женским голосом. Отличные качество звука, процесс преобразования и отработанная тысячами алгоритмов функция чтения, которая практически никогда не делает речевых и орфографических ошибок. Интонация максимально нероботизирована.
Способ №1. Speechpad.ru — ввод текста речью онлайн
Ресурс speechpad.ru – один из наиболее популярных инструментов для превращения голоса в текстовый файл. Сервис позволяет надиктовывать предложения онлайн как напрямую, так и использовать возможности транскрибации. Последняя позволяет считывать речь из видео и аудио файлов. Сервис поддерживает работу с 11 языками (включая русский и английский), автоматическое управление заглавными буквами. Для работы с сервисом понадобится браузер Google Chrome.
Выполните следующее:
- Перейдите на speechpad.ru;
- Выберите язык голосового ввода, на котором вы будете надиктовывать текст;
- Нажмите на кнопку «Включить запись» (при необходимости предоставьте сервису доступ к микрофону, нажав на «Разрешить»);
- Надиктуйте свой текст;
- В конце нажмите на кнопку «Отключить запись»;
- Сохраните результат, нажав на «Скачать» ниже.
Если вам понадобится провести транскрибацию нужного аудио или видеофайла, нажмите внизу на кнопку «+Транскрибацию», и загрузите нужный файл на ресурс для проведения процедуры.
Программа Virtual Audio Cable
Для некоторых сервисов (например, для speechpad.ru) может понадобиться так называемый виртуальный кабель. Он нужен для того, чтобы напрямую передать аудиофайл в систему распознавания аудио, а не транслировать через микрофон. То есть, чтобы не терялось качество речи и все распознавалось как можно лучше.
Для настройки всего этого дела придется потанцевать с бубнами, то есть повозиться с настройками. Но, как я писал выше, некоторые программы без этой Virtual Audio Cable работать не будут.
К сожалению, проконсультировать по поводу настройки этих виртуальных кабелей я не смогу. У меня базовая система Линукс Минт. А эти программы предназначены для Windows. Впрочем, если будет интересно, скину ссылки на статьи других авторов, где все подробненько расписано.
Популярные голосовые движки
Звучание голоса в синтезаторе речи зависит от того, какой в нем используется движок. Например, в русских версиях Windows установлен “электронный диктор” Microsoft Irina. Если в синтезаторе речи нет другого движка, то по умолчанию будет говорить именно она. При этом выбор голосов на самом деле очень богатый. Среди популярных русских движков можно выделить:
- Alyona от Acapela Group
- Татьяна и Максим от Ivona
- Ольга и Дмитрий от Loquendo
- Милена, Катерина и Юрий от Nuance
- Николай от Speech Cube Elan
Движки отличаются тембром голоса, эмоциональной окраской, количеством встроенных словарей, которые определяют правильность речи. Например, Николай читает текст практически без эмоций, поэтому с ним сложно воспринимать художественные тексты, а Ольга и Дмитрий от Loquendo, наоборот, используют разные стили речи. Все перечисленные движки работают по стандарту SAPI 5, который применяется на Windows, начиная с версии XP.
Большинство движков представлены в двух вариантах — мужской и женский голос. Детских голосов мало. Даже на сайте Acapela Group, одного из лидеров индустрии, меньше 10 языков, для которых доступны голоса детей.
Как сказано выше, голосовые движки облегчают процесс изучения иностранных языков. Например, Lernout&Hauspie предлагает для этого бесплатные голоса с американским и британским акцентами английского,а также голландским, испанским, итальянским и другим произношением. Большое количество движков разработала компания Cepstral. У них также есть бесплатная версия электронного диктора, однако при ее использовании постоянно появляется окно с предложением перейти на платный тариф.
Несмотря на то, что голосовые движки становятся всё более технологичными, добиться 100% совпадения с живой человеческой речью не удалось пока никому. Вам достаточно услышать несколько предложений, чтобы понять, что говорит робот. При изучении иностранных слов не стоит полагаться только на произношение программ — они нередко ошибаются. Но если ваша задача — простое озвучивание информации на русском, то можно использовать любой движок, в базе которого есть этот язык.
Чтобы добавить голосовой движок в Windows, достаточно его скачать и установить как обычную программу. После этого он появится в списке доступных. Но для использования голосов необходима сторонняя программа или веб-сервис, так как сами движки не имеют графического интерфейса.
iSpeech — сервис воспроизводит текст в речь
Ещё один ресурс, под названием iSpeech, обладающий русским голосовым движком довольно хорошего качества. При этом объём воспроизводимого текста также ограничен цифрой в около 200 символов, позволяя озвучить русский текст мужским голосом онлайн.
Для работы с ресурсом перейдите на него, в списке языков слева найдите «Russian Male», в окне справа введите ваш текст и нажмите на кнопку «Play» (придётся подождать несколько секунд, пока система обработать текст).
Выбираем русский язык в голосовом озвучивании текста
Если сервис iSpeech вам не подошёл перейдите на статью об онлайн синтезаторах речи или читайте далее.
Ещё немного о стандартах голосовых движков
Что относится к имеющимся сегодня основным стандартам голосовых движков, то ныне наиболее распространены два из них – SAPI 4 и SAPI 5 («SAPI» это аббревиатура от «Microsoft Speech API» — в переводе «Интерфейс программирования речи от Microsoft»). SAPI 4 является устаревшим стандартом, созданным ещё в 1998 году, ныне применяется мало, SAPI 5 – более современен, обладает более качественным произношением, последняя модификация — SAPI 5.4 (при этом у SAPI 5 бесплатных голосов меньше, нежели у устаревшего SAPI 4).
Что до программ синтеза речи, то одна из наиболее популярных из них — «Govorilka», позволяет довольно качественно озвучивать объёмные тексты, причём различными вариантами голосов (как мужских, так и женских). В инсталляционной версии продукта обычно находится комплект из нескольких встроенных голосов, если же читателю их будет мало, то на сайте программы можно скачать дополнительные голоса к ней (в том числе качественные платные варианты).
Сайт speechpad.ru
Это онлайн-сервис, который позволяет через браузер Google Chrome переводить речь в текст. Сервис работает с микрофоном и с готовыми файлами. Конечно, качество будет значительно выше, если использовать внешний микрофон и диктовать самому. Однако сервис неплохо справляется даже с видеороликами на YouTube.
Нажимаем «Включить запись», отвечаем на вопрос про «Использование микрофона» – для этого кликаем «Разрешить».
Длинную инструкцию про использование сервиса можно свернуть, нажав на кнопку 1 на рис. 3. От рекламы можно избавиться, пройдя несложную регистрацию.
Рис. 3. Сервис speechpad
Готовый результат легко редактируется. Для этого нужно либо вручную исправить выделенное слово, либо надиктовать его заново. Результаты работы сохраняются в личном кабинете, их также можно скачать на свой компьютер.
Список видео-уроков по работе с speechpad:
Можно транскрибировать видео с Youtube или со своего компьютера, правда, понадобится микшер, подробнее:
Видео «Транскрибирование аудио»
Работает сервис с семью языками. Есть небольшой минус. Он заключается в том, что если нужно транскрибировать готовый аудио-файл, то его звучание раздаётся в колонки, что создает дополнительные помехи в виде эха.
Онлайн сервисы для набора текста голосом
На данный момент есть очень большой выбор сервисов и программных приложений для голосового набора команд и управления.
Голосовой блокнот speechpad.ru
Преимущества:
Для использования онлайн версии следует перейти на сайт https://speechpad.ru/, пролистать страницу вниз, включить запись и получить готовый текст. Для браузера потребуется скачать и установить расширение.
Инструкция по использованию:
- Кликните по кнопке «Включить запись». (если Вы первый раз это делаете, то в правом верхнем углу возникнет всплывающее уведомление о том, что нужно разрешить доступ сервису к микрофону).
- Постарайтесь как можно четче и ближе к микрофону произносить слова. Стоит учитывать, что проговариваемый текст будет появляться там, где находится курсор. А если случайно перед этим был выделен текст, то он затрется.
- Можно активировать опцию «Отключить управление заглавными буквами» и тогда Google не будет обновлять регистр в зависимости от пунктуации. А для изменения необходимо будет воспользоваться кнопкой с текстом А/а, она увеличит или уменьшит размер той буквы рядом с курсором.
- Для удаления действия нужно нажать кнопку «Отменить».
- Для расстановки знаков препинания есть специальные кнопки на панели, активировать кликом левой кнопки мыши. Также Вы можете отметить для использования функцию «Заменять слова пунктуации» и тогда сможете голосом расставлять знаки препинания.
- Для того, чтобы поменять язык, необходимо нажать на данное поле и появится выпадающий список, в котором следует найти и выбрать требуемый. При условии, что нет нужного, необходимо зарегистрироваться и добавить в личном кабинете.
- Чтобы давать команды сервису при помощи голоса, активируйте пункт «Выполнять команды».
- Также вывод текста можно делать не только в поле на сайте сервиса, но и в буфер обмена после выбора использования такой функции на странице и установке расширения для блокнота.
Голосовой ввод текста в Гугл документах
Преимущества и возможности:
- Запись, редактирование и форматирование информации голосом.
- Удобство: нет необходимости устанавливать программу на устройство.
- Мультиязычность.
Пошаговая инструкция применения:
- Перейти в браузере в раздел «Инструменты».
- Откройте из предложенных пунктов «Голосовой ввод».
- Активируйте кликом иконку микрофона (разрешите использование).
- Начинайте громко и четко произносить то, что следует записать.
Расширение для браузера Войснот II
Достоинства:
- Удобство.
- Интуитивно понятный интерфейс: достаточно простое управление.
- Есть возможность создать ярлык для быстрого доступа к сервису.
- Мультиязычность.
- Исправление написания слов при нечетком или неправильном произношении.
- Сохранение информации в браузере, кэше, буфере обмена.
Инструкция использования:
- Установка:
- Перейти в магазин расширений Google: http://goo.gl/oMx8Xx;
- Установить и разрешить использование микрофона.
- Создание ярлыка на рабочем столе:
- Перейти на страницу расширений, которые установлены.
- Нажать на иконку Войснот.
- Выбрать в появившемся меню «Создать ярлык».
- Запуск/остановка:
- Нажать на кнопку с изображением микрофона.
- Или активировать сочетание клавиш Ctrl+Пробел.
- Запись текста предполагает расставление знаков препинания с учетом правил русского языка и пауз в процессе диктовки.
- Чтобы отредактировать, следует воспользоваться панелью инструментов: стереть, сохранить, скопировать, исправить регистр букв, добавить недостающие знаки пунктуации, перейти на новую строку.
Распознавание речи в браузере TalkTyper
Преимущества:
- Бесплатный сервис;
- Мультиязычность.
- Исправление написания слов при нечетком или неправильном произношении.
Инструкция:
Голосовой блокнот August4u
Достоинства:
- Простота использования.
- Является уникальной разработкой.
- Высокий уровень качества и скорости распознавания.
- Использовать можно бесплатно.
Инструкция:
- Перейти на страницу сервиса: https://august4u.net/?speech2text.
- Можно выбрать один из 6 языков.
- Нажать на иконку микрофона и разрешить доступ к устройству.
- Автоматически включена расстановка знаков препинания, но нажав на кнопку с текстом «.,!» можно отключить данную функцию.
- По окончании диктовки можно сохранить, копировать, отправить на электронную почту полученный текст и очистить поле, нажав на иконку с крестиком.
Заключение
Большинству пользователей в зарубежных поездках поможет сервис Google Translate, доступный как через веб-интерфейс, так и через мобильное приложение с интеграцией функций перевода в контекстное меню. За счет офлайновых словарей он выручит и там, где нет Интернета.
Если вам требуется локализация программ, быстрый перевод презентаций или чтение лекций для зарубежных студентов, обратите внимание на Microsoft Translator. В этом сервисе доступна интеграция через API и специальные инструменты для образования.. Обладателям старых смартфонов стоит присмотреться к SayHi как самому легковесному приложению
Его функция выбора голоса и настройки скорости озвучки существенно упрощают живое общение.
Обладателям старых смартфонов стоит присмотреться к SayHi как самому легковесному приложению. Его функция выбора голоса и настройки скорости озвучки существенно упрощают живое общение.
По возможности используйте несколько переводчиков для перекрестной проверки результата. Благо, они бесплатные и не занимают много места в памяти смартфона.