Авторы
Худойбердиев Х.А. – кандидат физика-математических наук, доцент, кафедрапрограммирования и информационных систем, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г.Худжанд, Республика Таджикистан, tajlingvo@gmail.com
Музафаров Д.З. – кандидат физика-математических наук, доцент, кафедрапрограммирования, Худжандский государственный университет имени академика Б.Гафурова, г.Худжанд, Республика Таджикистан, muzafarov.dilshod@gmail.com
Ашурова Ш.Н. – старший преподаватель, кафедра программирования и информационных систем, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г.Худжанд, Республика Таджикистан, shnurulloevna@gmail.com
Аннотация
В статье предложена научная концепция и этапы планирования раз-работки звукового корпуса таджикского языка. Цель создания такого корпуса – решение актуальных задач компьютерной лингвистики, связанных с голосовым управлением, син-тезом и распознаванием речи. Авторы отмечают недостаточную проработанность этих вопросов для таджикского языка в отличие от английского и русского. Основные предлагаемые методы включают автоматическую обработку элементов текста, пред-варительный анализ звуковых данных, формирование базы данных корпуса. Планируется создать корпус объемом 1000 часов речевых записей, полученных от разных дикторов с учетом возраста и пола. Далее на базе корпуса будут разработаны программные модули для его обработки, включая модули для голосового управления компьютерными сред-ствами и автоматического синтеза, и распознавания речи. Предложенные подходы ба-зируются на современных методах математического моделирования, анализа данных и технологиях искусственного интеллекта. Результаты исследования могут найти широ-кое применение в научных исследованиях, образовании и промышленности Республики Таджикистан. Отмечается, что реализация предложенного подхода позволит решить важные задачи обработки таджикской речи, такие как голосовое управление, автома-тический синтез и распознавание. Разработанный корпус может стать фундамен-тальной базой для исследований и разработок в области компьютерной лингвистики применительно к таджикскому языку
Ключевые слова
таджикский язык, языковый корпус, звуковой корпус, анализ зву-ковых данных, синтез речи, распознавание речи, речевые технологии.
Язык русский |
Тип технический |
Год 2023 |
Страница 7-12 |
Список использованной литературы
- Таджикский языковой пакет для проверки орфографии в Microsoft Office. Усма-нов З.Д., Солиев О.М., Худойбердиев Х.А., Довудов Г.М. // Патент зарегистрирован 4201200235 от 04.10.2012. НПИЦ Министерства экономического развития и торговли РТ.
- Усманов З.Д., Довудов Г.М. Формирование базы морфов таджикского языка. Монография. – Душанбе: «Дониш», 2014. -110 с.
- Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной кла-виатуре. Монография. Технологический университет Таджикистана. –Душанбе: «Ир-фон», 2010. -104 с.
- Усманов З.Д., Солиев О.М., Худойбердиев Х.А., Довудов Г.М. Автоматическая система TajSpell-2.0. для проверки орфографии таджикского языка в офисном пакете приложений MS Office 2010-2019. – Свидетельство о государственной регистрации ин-формационного ресурса, Республика Таджикистан. №4202000456 от 30.07.2020
- Усманов З.Д., Худойбердиев Х.А., Опыт компьютерного синтеза таджикской речи по тексту. Монография. Технологический университет Таджикистана Худжанд-ский филиал. Монография. –Душанбе. «Ирфон», 2010, -145 с.
- Усмонов З.Ҷ., Худойбердиев Х.А. Низомҳои худкори коркарди маълумот бо забо-ни тоҷикӣ. Монография. –Хуҷанд. «Ирфон», 2022. -186 с.
- Худойбердиев Х.А. Web-приложение “Автоматические системы обработки ин-формации на таджикском языке” www.tajlingvo.tj. – Свидетельство о государственной регистрации информационного ресурса, Республика Таджикистан. №4202200496 от 28.04.2022.
- Худойбердиев Х.А., Солиев О.М., Солиев П.А., Довудов Г.М., Назаров А.А. Web-приложение таджикский переводчик www.tarjumon.tj. – Свидетельство о государствен-ной регистрации информационного ресурса, Республика Таджикистан. №4202100482 от 03.12.2021.
Дата публикация
2023-10-11