Авторы
Худойбердиев Х.А. – кандидат физико-математических наук, доцент кафедры программирования и информационных технологий, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г. Худжанд, Республика Таджикистан, tajlingvo@gmail.com
Воситов Р.М. – докторант, преподаватель кафедры программирования и информационных технологий, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г. Худжанд, Республика Таджикистан, ravshan488889@gmail.com
Аннотация
В статье проведен сравнительный анализ CMU Sphinx и Mozilla speech recognition, созданный на основе Deep Speech 0.6. Сегодня пользователям компьютерных систем доступно множество систем и программных продуктов для распознавания речи. Каждая из них основана на базе существующих технологий. Наиболее часто используемыми технологиями являются искусственный интеллект и машинное обучение. Распознавание человеческой речи реализуется на базе изучения грамматики, синтаксиса, структуры звуковых элементов. CMU Sphinx можно применять в коммерческих проектах. Так, предлагаемая система в виде API может использоваться в автономных программных продуктах. Система поддерживает множество платформ, в том числе операционную систему Android. Система распознавания речи Mozilla работает на базе движка DeepSpeech, который использует технологию машинного обучения. Систему Mozilla можно использовать как дополнительную платформу для своих программных продуктов. Обе системы являются популярными, имеют открытый исходный код. При сравнении использовалось множество критериев, включая структуры систем, наличие подробной документации, поддерживаемые языки распознавания, ограничения, накладываемые лицензией. Также были проведены эксперименты на нескольких речевых корпусах для определения скорости и точности распознавания. В результате для каждой из рассмотренных систем были выработаны рекомендации по применению с дополнительным указанием сферы деятельности.
Ключевые слова
распознавания речи, метрика, глубокое обучение, Word Recognition Rate (WRR), Word Error Rate (WER), Speed Factor (SF), открытый код, машинное обучение.
Язык русский |
Тип технический |
Год 2021 |
Страница 7-11 |
Список использованной литературы
- Модель анализа и сегментации речевого сигнала для послогового распознавания таджикской речи. Худойбердиев Х.А. – 2017.
- Сравнительный анализ систем распознавания речи с открытым кодом. Беленко М.В., Балакшин П.В. [Электронный ресурс]. Url: https://research–journal.org/technical/sravnitelnyj–analiz–sistem–raspoznavaniya–rechi–s–otkrytym–kodom (дата обращения: 12.02.2021).
- Arkhipov A. M.1, Polyak M. D.1. Автоматическое распознавание речи с предварительным разделением говорящих – 2020.
- CMU Sphinx – Википедия [Электронный ресурс]. – URL: http://cmusphinx.sourceforge.net/wiki/ (дата обращения: 09.01.2021).
- Gaida C. Сравнение наборов инструментов для распознавания речи с открытым исходным кодом [Электронный ресурс]. / C. Gaida et al. // Technical Report of the Project OASIS. – URL: http://suendermann.com/su/pdf/oasispdf (дата обращения: 12.02.2021).
- Hannun A., et. al Deep speech: Scaling up end-to-end speech recognition // arXiv preprint arXiv:1412.5567. — 2014.
- Jha M. Улучшенная система распознавания речи без учителя с использованием адаптации динамика MLLR и измерения достоверности / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – P. 255-258.
- Kaldi [Электронный ресурс]. – URL: http://kaldi-asr.org/doc (дата обращения: 19.12.2021).
- Luján-Mares M. iATROS: Система распознавания речи и письма / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla – 2008. – P. 75-58
Дата публикация
2023-09-25