Авторы
Худойбердиев Х.А. – кандидат физико – математических наук, доцент, кафедра программирования и информационных технологий, Политехнический институт Таджикского технического университета имени академика М.С.Осими.
Назаров А.А. – старший преподаватель, кафедра программирования и информационных технологий, Политехнический институт Таджикского технического университета имени академика М.С. Осими.
Аннотация
Представлен первый этап разработки таджикско-русского параллельного корпуса для машинного перевода текста с таджикского языка на русский. Рассматрены общая структура корпуса, структура текстовых данных, алгоритмы, а также автоматическое управление корпусом с использованием авторской программы Taj-Rus-Corp. Выполнен анализ задач разработки параллельного корпуса: выбор правильных текстов; предварительная обработка текста; анализ источника текста; сравнение текстов; создание алгоритмов обработки данных; создание программы Taj-Rus-Corp с возможностями поиска текста; ввод готовых текстов в параллельный корпус; статистический анализ данных; создание экспериментальных модулей машинного перевода. В заключении автор приходит к выводу, что развитие параллельного корпуса в будущем облегчит машинный перевод текста с таджикского языка на русский.
Ключевые слова
таджикский язык, русский язык, параллельный корпус, анализ текста, программное обеспечение, база данных, машинный перевод.
Язык русский |
Тип течнические |
Год 2019 |
Страница 11-12 |
Список использованной литературы
- Расторгуева В.С. Очерки по таджикской диалектологии. – Сталинабад: Изд-во Акад. наук Таджикской ССР, 1956. – 80 с.
- Захаров В.П. Корпусная лингвистика. – СПб: СПбГУ. – 2005.
- Усманов З.Д. Об упорядоченном алфавитном кодировании слов естественных языков. Доклады Академии наук Республики Таджикистан. – 2012. т. 55, № 7, С. 545 – 548.
- Худойбердиев Х.А. Об автоматическом конвертировании таджикского текста к стандартной графике. Доклады Академии наук Республики Таджикистан, 2014. т. 57, № 3. С. 210 – 214.
- Усманов З.Д., Довудов Г.М. Морфологический анализ словоформ таджикского языка (монография). Душанбе, “Дониш”, 2015. – 130 с.
- Худойбердиев Х.А., Солиев О.М. Лингвистический тезаурус таджикского языка. Новые информационные технологии в автоматизированных системах. МИЭМ НИУ ВШЭ. Москва, 2017. – C. 103 – 106.
- Худойбердиев Х.А., Рахмонов З.А. Логическая структура и анализ артефактов машинного перевода. Вестник ХПИТТУ имени академика М.С. Осимӣ, № 2 (7), Худжанд, 2018. – C. 7 – 11
Дата публикации
09/21/2023