Состояние распознавания голоса в Linux

Я трачу много времени на поиск статей и довольно часто думаю о предмете статьи, когда иду на вокзал или когда выхожу на улицу вообще.

Однажды вечером, проходя 1,5 мили до станции от моей работы, я подумал: «Не было бы хорошо, если бы я мог записать то, что я хотел сказать, а затем автоматически транскрибировать это в текстовый файл, который я мог бы отредактировать и отформатировать позже» ,

Я провел много долгих часов, рассматривая различные варианты, доступные для распознавания голоса и диктовки, включая запись непосредственно через микрофон с использованием программного обеспечения для диктовки в Linux, запись файла в формат MP3 или WAV и преобразование его через командную строку, а также использование Chrome. и приложения для Android.

В этой статье освещаются мои выводы после дней тяжелой работы.

Параметры Linux

Попытка найти программное обеспечение для диктовки и распознавания голоса в Linux не так легка, как могла бы быть, и доступные варианты не настолько умны.

На этой странице википедии есть список возможных вариантов, включая CMU Sphinx, Julius и Simon.

Я использую SparkyLinux, который в настоящее время основан на тестировании Debian, и я могу сказать вам, что единственным пакетом распознавания голоса, доступным в репозиториях, является Sphinx.

Родные программы для Linux, которые я в итоге попробовал, были PocketSphinx, который я использовал для преобразования файлов WAV в текст, и Freespeech-VR, представляющая собой приложение на python, которое позволяет вам записывать прямо с микрофона.

Я также попробовал несколько приложений Chrome, включая VoiceNote II и Dictanote.

Наконец я попробовал приложения для Android «Диктовка и электронная почта» и «Диктовка и разговор».

Freespeech-VR

Freespeech-VR недоступен в стандартных репозиториях. Я скачал файлы отсюда.

После загрузки и распаковки содержимого zip-файла я открыл терминал и перешел в папку, в которую были извлечены файлы. Я набрал следующую команду, чтобы открыть freespeech-vr.

sudo python freespeech-vr

У меня есть пара наушников с довольно приличным микрофоном и довольно четким южно-английским акцентом.

В окне freespeech-vr появился следующий текст:

Добро пожаловать в подразделение «Собаки результатов». Сегодня необходимо обеспечить, как проводить тесты. Нужно тестировать. Когда в тексте используется системный способ. Речь I Для каждого из них был только в надежде остаться и для одного цыплята. золотой как система Ea, когда он меня зовет, следующий оф звонит на телефон. Этот файл достаточно скоро, когда дело доходит до телефона. Пространство, сфинкс. Идет. Это не телефоны, которые будут переданы. Обученные и инструменты. Использование речи. Когда вы закончите. file Last a story A И использование by Когда это очень, как успех Этот Linux был таким, как вы избегаете,

Я просто хотел бы сейчас сказать, что это не веб-сайт Unit Of Dogs, и я ни разу не упомянул что-либо связанное с Золотыми цыплятами. Я на самом деле пытался описать процесс использования программного обеспечения для распознавания голоса.

Я пробовал программное обеспечение несколько раз, включая изменение высоты тона и скорости, но точность была низкой.

PocketSphinx

PocketSphinx может взять WAV-файл и преобразовать его в текст с помощью командной строки. PocketSphinx доступен через репозитории Debian и должен быть доступен для большинства дистрибутивов.

Основная проблема, которую я обнаружил в PocketSphinx, заключается в том, что вам практически необходимы знания в области распознавания голоса, языковых файлов, словарей и способов обучения системе.

После установки PocketSphinx вы должны зайти на сайт CMU Sphinx и прочитать как можно больше информации. Вам также необходимо скачать следующий файл модели.

  • Модель родового языка в США

(Если вы не являетесь носителем английского языка, выберите подходящую вам языковую модель).

Документация для PocketSphinx и Sphinx в целом трудна для понимания непрофессионала, но из того, что я мог разглядеть, словарные файлы используются для предоставления списка возможных слов, а языковые модели имеют список потенциальных произношений.

Чтобы протестировать PocketSphinx, я использовал запись собственного голоса, фрагмент из Аль Пачино в «The Devils Advocate» и фрагмент из «Morgan Freeman». Смысл этого состоял в том, чтобы попробовать разные голоса, и для меня нет никого, кто мог бы рассказать историю так же ясно, как Морган Фриман, и никто не выдвинул такую ​​линию, как Аль Пачино.

Чтобы PocketSphinx работал, ему нужен файл WAV, и он должен быть в определенном формате. Если файл в формате MP3, используйте команду ffmpeg, чтобы преобразовать его в формат WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Для запуска PocketSphinx используйте следующую команду:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous берет файл WAV и преобразует его в текст.

В приведенной выше команде pocketsphinx сказано использовать файл словаря с именем “/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic” с языковой моделью “cmusphinx-5.0-en-us.lm”. Файл, преобразуемый в текст, называется voice2.wav (это запись, которую я сделал своим голосом). Наконец, 2> помещает все подробные выходные данные, которые вам не обязательно нужны, в файл с именем voice2.log. Фактические результаты теста отображаются в окне терминала.

Результаты с использованием моего голоса следующие:

добро пожаловать к следующему о том, что на этой неделе нет темы о том, какое программное обеспечение для распознавания в минуту

Результаты не такие ужасные, как с freespeech-vr, но все же не очень полезны. Затем я попытался использовать PocketSphinx с Аль Пачино, но это не дало никаких результатов.

Наконец я попробовал использовать голос Моргана Фримена из фильма «Всемогущий Брюс», и вот результаты:

000000000: мы будем на ней
000000001: все ли тяжело, да, в тот день, который сейчас, да, это самое большее, что мы были живы, я расстался с жарким
000000002: в лифт, который является ключом к бейсбольному часу или знает, что делать в жизни
000000003: какие из них восстановятся
000000004: они этого не написали
000000005: у них есть право на меня
000000006: у тебя должны быть правила
000000007: я ждал тебя
000000008: и он узнал здесь, что иллюстрация была убийственным Рождеством Вечеринка
000000009: получается один из способов написать о. задница, я думал, что немногие всегда носят одну
000000010: как объединенная проблема не даст ему блага, я оценил их в тот момент, когда мы не все, что вы думаете, я в мире, будут дома, и я Я видел, что
000000011: отец, у которого это есть
000000012: что об этом такого?
000000013: делает ли это, учитывая,
000000014: все, что ты не любишь Лот
000000015: прямо осенью
000000016: хорошо, держись только за меня
000000017: это несчастье, если я тоже думаю, что у них будет все, что будет что женился на не было, мы делаем мне нравится в отличие от способа

Мой тест вряд ли можно считать научным, и разработчики PocketSphinx могут заявить, что я неправильно использую программное обеспечение. Существует также метод, называемый голосовой тренинг, который можно использовать для создания лучших словарей и языковых файлов.

Мое главное мнение заключается в том, что это слишком сложно для стандартного повседневного использования.

VoiceNote II

VoiceNote II – это приложение Chrome, которое использует API распознавания Google Voice.

Если вы используете браузеры Chrome или Chromium, вы можете установить VoiceNote II через Интернет-магазин.

Значки на VoiceNote II расположены странным образом, так как вам нужно установить язык внизу окна, а кнопка редактирования также находится внизу, однако кнопка записи находится в верхнем правом углу.

Первое, что вам нужно сделать, это выбрать язык, и это можно сделать, нажав на значок мира.

Чтобы начать запись, нажмите на значок микрофона и начните говорить в микрофон. Для достижения наилучших результатов я обнаружил, что говорение медленно было ключевым моментом, чтобы программное обеспечение имело возможность не отставать.

Результаты не были хорошими, как можно видеть ниже:

Здравствуйте и добро пожаловать на связь. Lifewire.com публикует сегодняшние статьи о преобразовании голоса в текст dunelm farrell recession 2008 в виде конверсий, и в нем говорится, что он хорошо поддерживает лучший способ найти голосовой текстовый аддон, чтобы показать пакет 2014debian или rpm, открыть его голосовой тип в речь, чтобы открыть текст, если вы хотите выбрать Vs выбрал в Эдинбурге Французский немецкий. Вы получите время в Великобритании. Микрофон, на котором вы закончили писать текст в виде текстового файла, так что лучше всего это стандартный английский акцент с юга Англии, но я собираюсь перейти к тексту через этот торренталонг. с фактическим документом, и вы можете увидеть ошибки, которые делают вас благодарными за то, что вы слушаете

Dictanote

Dictanote – это еще одно приложение Chrome, которое можно использовать для диктовки и выглядит более интуитивно понятным, но результаты оказались не лучше, чем в VoiceNote II.

Я использовал только демонстрационную версию Dictanote, которая запрещает вам создавать новые документы, но позволяет обсуждать текст, уже находящийся в редакторе. Мне удалось проверить распознавание голоса, но результаты были не лучше, чем у VoiceNote II, и поэтому я не подписался на профессиональную версию.

Диктовка и почта

«Dictation And Mail» – это приложение для Android, которое использует собственный API распознавания голоса Google.

Результаты «Диктовки и почты» были намного лучше, чем любая другая программа, пытающаяся до этого момента.

привет, добро пожаловать в Linux lifewire.Сегодня мы говорим о преобразовании звука в текст

Хитрость с «Диктовкой и почтой» заключается в том, чтобы говорить медленно и произносить как можно лучше с равномерным акцентом.

После того, как вы закончите говорить, вы можете отправить результаты по электронной почте.

Talk And Talk Dictation

Другое приложение для Android, которое я пробовал, было «Talk And Talk Dictation».

Интерфейс для этого приложения был лучшим из всех, и распознавание голоса работало очень хорошо. После записи диктовки я смог поделиться результатами различными способами, в том числе по электронной почте.

добро пожаловать на linux lifewire.com сегодня мы говорим о преобразовании речи в текст

Как вы можете видеть, текст выше настолько ясен, насколько это возможно. Говорить медленно – это ключ.

Резюме

У Native Linux есть какой-то путь в отношении распознавания голоса и, в частности, диктовки. Есть некоторые приложения, которые используют Google Voice API, но они еще не перечислены в репозиториях.

Приложения ChromeOS немного лучше, но лучшие результаты были достигнуты с моим телефоном на Android. Возможно, у телефона лучший микрофон, и поэтому у программы распознавания голоса больше шансов на конвертацию.

Чтобы распознавание голоса стало действительно удобным, оно должно быть более интуитивно понятным с меньшими затратами на настройку. Вам не нужно возиться с языковыми моделями и словарями, чтобы сделать их понятными.

Однако я ценю то, что искусство распознавания голоса очень сложное, потому что у всех разные голоса, и в одной стране очень много диалектов от региона к региону, и не волнуйтесь о сотнях языков, используемых во всем мире.

Поэтому мой анализ заключается в том, что программное обеспечение для распознавания голоса все еще находится в стадии разработки.

Оцените статью
Solutics.ru
Добавить комментарий