Авторы: Косимов А.А Зульфикарова П.Э
Авторы
Косимов А.А. –кандидат технических наук,старший преподаватель, кафедра программирования и информационных систем, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г.Худжанд, Республика Таджикистан, abdunabi_kbtut@mail.ru.
Зульфикарова П.Э. – старший преподаватель, кафедра программирования и
информационных систем, Политехнический институт Таджикского технического
университета имени академика М.С. Осими, г.Худжанд, Республика Таджикистан, zulfikarova.p@gmail.com.
Аннотация
Рассматривается модельная коллекция текстов узбекского языка, составленная из произведений классической поэзии и современной прозы на кириллической графике. Каждому произведению сопоставлен цифровой портрет – распределение частотностей буквенных триграмм. Для решения проблемы идентификации авторов текстов триграммы являются вполне приемлемыми количественными характеристиками. Учёт пробелов в триграммах повышает точность классификации. В качестве инструмента реализации задачи используется классификатор З.Д. Усманова, позволяющий по частотности элементов алфавитно-буквенных триграмм с достаточно высокой степенью эффективности идентифицировать авторов текстовой информации. Также установлено, что с помощью классификатора З.Д.Усманова по цифровому портрету удаётся идентифировать авторов произведений на узбекском языке.
Ключевые слова
узбекский язык, триграмма, частотность, классификатор текста, статистика, эффективность.
Язык
русскый
Тип
экономика
Год
2020
Страницы
34-46
Список использованной литературы
- Косимов А.А. – Оценка эффективности использования триграмм при идентификации текста // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2017, № 1(166), С. 51-57.
- Косимов А.А., Косимов О.А. – Об идентификации текста с помощью символьных триграмм // Вестник Технологического Университета Таджикистана, Душанбе, 2018, С. 37-42.
- Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста. – В-Спектр, Томск, 2011, 188 с.
- Усманов З.Д. N-граммы в распознавании однородных текстов // Материалы 20 научно-практического семинара “Новые информационные технологии в автоматизированных системах”. – М., 2017, С. 52-54.
- Усманов З.Д. Алгоритм настройки кластеризатора дискретных случайных величин // Доклады Академии наук Республики Таджикистан, 2017, т. 60, № 9, С. 392-397.
- Усманов З.Д. Классификатор дискретных случайных величин // Доклады Академии наук Республики Таджикистан, 2017, т. 60, № 7-8, С. 291-300.
- Усманов З.Д., Косимов А.А. – К вопросу об автоматическом распознавании авторства и стилей произведений таджикско-персидской художественной литературы // Доклады Академии наук Республики Таджикистан, 2019, т. 62, № 5-6.
- Усманов З.Д., Косимов А.А. – О применимости γ-классификатора к распознаванию авторства и тематики художественных произведений // Материалы двадцать второго научно-практического семинара “Новые информационные технологии в автоматизированных системах”, М., 2019, С. 174-178.
- Усманов З.Д., Косимов А.А. – О распознавании авторства таджикского текста // Доклады Академии наук Республики Таджикистан, 2016, т. 59, № 3-4, С. 114-119.
- Oʻzbek adabiyoti. [Электронный ресурс]. – Электрон. текстовые дан. // Режим доступа: http://kutubxona.com/wiki/index.php?page=Bosh_sahifa, (дата обращения 15.12.2019).