ТАҲЛИЛИ МУҚОИСАВИИ СИСТЕМАҲОИ ШИНОХТИ ОВОЗИ SPHINX ВА MOZILLA DEEPSPEECH

Муаллифон

   Худойбердиев Х.А. – номзади илмҳои физика ва математика, дотсент, кафедраи барномарезӣ ва низомҳои иттилоотӣ, Донишкадаи политехникии Донишгоҳи техникии Тоҷикистон ба номи академик М.С. Осимӣ, ш.Хуҷанд, Ҷумҳурии Тоҷикитсон,tajlingvo@gmail.com

    Воситов Р.М. – докторант, муаллими кафедраи барномарезӣ ва низомҳои иттилоотӣ, Донишкадаи политехникии Донишгоҳи техникии Тоҷикистон ба номи академик  М.С. Осимӣ, ш.Хуҷанд, Ҷумҳурии Тоҷикитсон, ravshan488889@gmail.com

 

Чакида

  Дар мақола таҳлили муқоисавии шинохти нутқи CMU Sphinx ва Mozilla дар асоси Deep Speech 0.6 оварда шудааст. Имрӯзҳо бисёр системаҳои шинохти нутқ ва маҳсулоти нармафзор барои корбарони системаҳои компютерӣ дастрасанд. Ҳар кадоми онҳо ба технологиям мавҷуда асос ёфтаанд. Технологияҳои маъмултарин интеллекти сунъӣ ва омӯзиши мошинсозӣ мебошанд. Шинохти нутқи инсон дар асоси омӯзиши грамматика, синтаксис ва сохтори унсурҳои садо амалӣ карда мешавад. CMU Sphinx-ро дар лоиҳаҳои тиҷоратӣ истифода бурдан мумкин аст, зеро система ҳамчун API пешниҳод карда мешавад, ки метавонад дар маҳсулоти нармафзори мустақил истифода шавад. Ва инчунин система бисёр платформаҳоро дастгирӣ мекунад, аз ҷумла системаи оператсионии Android. Системаи шинохти нутқи Mozilla бо муҳаррики DeepSpeech кор мекунад, ки технологияи омӯзиши мошинро истифода мебарад. Системаи Mozilla метавонад ҳамчун платформаи иловагӣ барои маҳсулоти нармафзори онҳо истифода шавад. Ҳар ду система маъмул ва манбаи кушода мебошанд. Дар муқоиса меъёрҳои зиёде истифода шуданд, аз ҷумла сохторҳои система, мавҷудияти ҳуҷҷатҳои муфассал, забонҳои эътирофи дастгирӣ ва маҳдудияти иҷозатнома. Барои муайян кардани суръат ва дурустии шинохтан дар якчанд корпуси нутқ таҷрибаҳо низ гузаронида шуданд. Дар натиҷа, барои ҳар як системаҳои баррасишаванда тавсияҳо оид ба истифода бо зикри иловагии доираи фаъолият таҳия карда шуданд.

Калидвожаҳо

шинохти нутқ, метрикӣ, омӯзиши амиқ, меъёри шинохти калима (WRR), сатҳи хатогиҳои калима (WER), омили суръат (SF), манбаи кушода, омӯзиши мошин.

Забон

тоҷикӣ

Намуд

техникӣ

Сол

2021

Саҳифа

12

Рӯйхати адабиётҳои истифодашуда

  1. Модель анализа и сегментации речевого сигнала для послогового распознавания таджикской речи. Худойбердиев Х.А. – 2017.
  2. Сравнительный анализ систем распознавания речи с открытым кодом. Беленко М.В., Балакшин П.В. [Электронный ресурс]. Url: https://researchjournal.org/technical/sravnitelnyjanalizsistemraspoznavaniyarechisotkrytymkodom (дата обращения: 12.02.2021).
  3. Arkhipov A. M.1, Polyak M. D.1. Автоматическое распознавание речи с предварительным разделением говорящих – 2020.
  4. CMU Sphinx – Википедия [Электронный ресурс]. – URL: http://cmusphinx.sourceforge.net/wiki/ (дата обращения: 09.01.2021).
  5. Gaida C. Сравнение наборов инструментов для распознавания речи с открытым исходным кодом [Электронный ресурс]. / C. Gaida et al. // Technical Report of the Project OASIS. – URL: http://suendermann.com/su/pdf/oasispdf (дата обращения: 12.02.2021).
  6. Hannun A., et. al Deep speech: Scaling up end-to-end speech recognition // arXiv preprint arXiv:1412.5567. — 2014.
  7. Jha M. Улучшенная система распознавания речи без учителя с использованием адаптации динамика MLLR и измерения достоверности / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – P. 255-258.
  8. Kaldi [Электронный ресурс]. – URL: http://kaldi-asr.org/doc (дата обращения: 19.12.2021).
  9. LujánMares M. iATROS: Система распознавания речи и письма / M. LujánMares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla – 2008. – P. 75-58.
  10.  

 

Таърихи нашр

2023-09-25