Преобразование речи в текст. Введение

Преобразование речи в текст

Содержание

Список всех программ

Редакторы HTML
Редакторы CSS

РАЗНОЕ:
Текстовые редакторы
Чтение текста

Преобразование речи в текст

Введение
Обзор программ
Список программ
С русским интерфейсом
Бесплатные
Поддерживают русский язык
Онлайн-программы
Для мобильных телефонов
Рекомендуемые

Распознавание текста (OCR)
Записные книжки
Работа с изображениями
Создание карты сайта
Создание навигационных панелей (меню)
Создание мультипликации
Создание фотоальбомов
Работа с видео
Создание карты ссылок
Веб - формы
Календари
Снимки экрана
Отборщики цвета
Комплект инструментов
Баннеры и эмблемы
Кнопки
Электронные книги
Формулы
Создание прототипов
Проверка ссылок
Работа с файлами
Работа с PDF
Создание справок
Переводчики

Разное

Введение

Текст, написанный или напечатанный на бумаге, до сих пор является самым привычным, удобным и надежным средством для сохранения информации.
Настоящий документ - текст на бумаге, ибо, как гласит русская пословица, "Что написано пером - того не вырубишь топором. Это правило действует во всех сферах - в делопроизводстве, в деловой сфере, в юридической и правоохранительной системе, в дипломатии и т.д. Речь, даже записанная с помощью различных устройств и сохраненная как звуковой файл, таким документом не является.
В обыденной жизни - аналогично. Человек, услышав какую-то полезную информацию,
спешит зафиксировать ее на бумаге, не надеясь на собственную память.

Поэтому не удивительно, что попытки создать электронные устройства для применения звуковых команд или для преобразования речи в текст делались еще в середине прошлого века. Первые устройства были примитивными и годились только для выполнения узких специализированных задач. Их уровень был, видимо, ниже уровня собак, которые выполняют команды своих хозяев.

Общение человека и первых компьютеров было возможно только через клавиатуру. До сих пор таким основным средством клавиатура и остается.
Но с развитием компьютеров, с ростом их вычислительной мощности стали появляться новые технологии распознавания речи и основанные на этих технологиях новые программы. Как заявляют авторы таких технологий, в них уже просматриваются зачатки искусственного интеллекта.
В 1976 г компьютеры могли понимать около 1000 слов. В 1980 г. - уже 20 тыс. слов.
Компания Dragon в 1990 году выпустила первый продукт для распознавания речи для потребителей (Dragon Dictate - см. Nuance - программы) .
В 1997 году компания IBM представила IBM ViaVoice - первая программа, которая могла распознавать непрерывную речь.
В последующие года отрасль распознавания речи продолжала быстро развиваться. В настоящее время программное обеспечение для распознавания голоса доступно для устройств Windows, Mac, Android, iOS и Windows phone.
Человек сегодня может общаться с компьютером, применяя свой голос (клавиатура как средство общения также остается)..

Современные компьютерные программы для распознавания речи применяются для следующих целей:

- для создания текста путем голосового ввода (диктовки текста) или преобразование аудио или видео-файла в текст. Эта операция называется транскрибацией
- для голосового поиска
- для перевода с одного языка на другой
- для применения голосовых команд (управление компьютером голосовыми командами)

Подробнее см. Википедия о распознавании речи

Преобразование речи в текст может осуществлятся вручную или автоматически.

Ручное преобразование - наиболее простое, качественное и одновременно наиболее трудоемкое. При этом человек слушает диктуемый текст и печатает его на бумаге. Также для этой цели можно прослушивать записанный ранее звукой файл.
Имеются программы, предназначенные для того, чтобы облегчить ручное преобразование текста в речь, например Express Scribe, LossPlay, Transcriber-pro и др.
К ручному преобразованию приходится прибегать, когда программы по автоматическому преобразованию речи не справляются со своей задачей, Например, это может происходить в случаях, когда записанный текст (в виде медиа-файла) низкого качества, имеет посторонние шумы, музыку, когда говорят несколько человек одновременно и пр.

Автоматическое распознавание речи - automatic speech recognition (ASR)
Представляется, что будущее - за программами, способными автоматически распознавать речь и преобразовывать ее в текст. В последнее время это направление быстро развивается.
Обычно человек говорит быстрее, чем печатает. Поэтому применение программ по распознаванию речи позволяет повысить произвоительность создания текста в 3-4 раза.
Кроме этого, возможность создания текста, используя свой голос, может быть лучшим способом для людей с ограниченными возможностями (для людей, которым трудно использовать клавиатуру - страдающих дислексией, судорогами, аутизмом или просто слепым, инвалидам или неграмотным).

Для преобразования речи в текст требуется:

1. Программа, способная преобразовать речь в текст
2. Микрофон соответсвующего качества
3. При записи нужна тишина - компьютерные программы пока не могут качественно отделить человеческую речь от посторонних звуков или шума.
4. Нужно правильно диктовать. Диктуйте, используя более длинные фразы естественным голосом, а не короткие фразы или отдельные слова. Вы должны сделать короткую паузу до и после того, как продиктуете пунктуацию.
5. Человек с хорошей дикцией всегда будет иметь лучшие результаты по сравнению с человеком, имеющим дефекты произношения.

Обзор программ

Список программ

Кроме самостоятельного преобразования аудио-файлов в текст (вручную или с использованием программ) вы, в случае необходимости, можете обратится к людям, которые берут заказы на преобразования речи в текст. Оплата может быть разной (примерно 25 руб за минуту видео или аудио).

Последнее обновление: июнь 2023 г.