О РАСПОЗНАВАНИИ АВТОРА ТЕКСТА НА ОСНОВЕ ЧАСТОТНОСТИ СЛОВЕСНЫХ УНИГРАММ

Авторы

       Ашурова Ш.Н. старший преподаватель, кафедра программирования и информационных систем, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г.Худжанд,  Республика Таджикистан, sh.nurulloevna@gmail.com.

Аннотация

          Решается задача распознавания авторов произведений по отдельности для классической и современной поэзий, а также современной прозы таджикской литературы. Рассматриваемая модельная коллекция текстов состоит из 30 произведений 15 авторов. Произведениям сопоставляется цифровой портрет, характеризуемый распределением в них частотности словесных униграмм. В качестве инструмента решения задачи используется классификатор З.Д. Усманова, позволяющий по частотности словесных униграмм идентифицировать авторов текстовой информации. Устанавливается эффективность применения классификатора. Сделан вывод, что идентификация автора текста по цифровому портрету, т.е. распределению частотности словесных униграмм, для поэтических произведений более успешно в сравнении с прозаическими. Этот метод можно применить как альтернативу другим методам распознавания авторства текста на таджикском языке в случае, если рассматривается текст, относящийся к существующему в базе данных автору и его произведениям.

Ключевые слова

         таджикский язык, текст, поэзия, проза, частотность, словоформ, классификатор, идентификация.

 

Язык

русский

Год

2020

Тип

технические науки

Страницы

7-14

 

Список использованной литературы

  1. Ашурова Ш.Н. Оценка эффективности использования словесных биграмм при идентификации текста – Материалы международной научно-практической конференции ТУТ «Роль ИКТ в инновационном развитии экономики Республики Таджикистан» – Душанбе: Баҳманрӯд, 2017, с. 292-297.
  2. Ашурова Ш.Н. Оценка эффективности использования словесных триграмм при идентификации текста – Вестник Технологического университета Таджикистана. 2017. № 4 (31). С. 51-58.
  3. Ашурова Ш.Н., Косимов А.А. Оценка эффективности использования словесных униграмм при идентификации текста – Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. 2017. № 2 (167). С. 49-54.
  4. Каримов А.А. О цифровом портрете текстовой информации – Политехнический вестник, 2019, 1 (45), Серия: интеллект, инновации, инвестиции, с.7-10.
  5. Каюмов М.М. О цифровом портрете текстовой информации, основанном на частотности знаков пунктуации– Политехнический вестник, 2019, 1 (45), Серия: интеллект, инновации, инвестиции, с.20-23.
  6. Косимов А.А., Бахтеев К.С. О распознавании автора текстового фрагмента // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2019.
  7. Косимов А.А., Бахтеев К.С. Применение специфичного цифрового портрета для идентификации авторов произведений // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2019.
  8. Усманов З.Д. Алгоритм настройки кластеризатора дискретных случайных величин Доклады Академии наук Республики Таджикистан, 2017, т.60, № 9, с. 392-397.
  9. Усманов З.Д. Классификатор дискретных случайных величин Доклады Академии наук Республики Таджикистан, 2017, т.60, № 7-8, с. 291-300.
  10. Усманов З.Д. Об одном цифровом портрете текста и его приложении– Политехнический вестник, 2019, 3 (47). Серия: интеллект, инновации, инвестиции.
  11. Усманов З.Д., Косимов А.А. К вопросу об автоматическом распознавании авторства и стилей произведений таджикско-персидской художественной литературы // Доклады Академии наук Республики Таджикистан, 2019.
  12. Усманов З.Д., Косимов А.А. О применимости γ-классификатора к распознаванию авторства и тематики художественных произведений // Материалы двадцать второго научно-практического семинара “Новые информационные технологии в автоматизированных системах”, Москва, 2019, с. 174-178.
  13. Усманов З.Д., Косимов А.А. О распознавании авторства таджикского текста – Доклады Академии наук Республики Таджикистан, 2016, т.59, № 3-4, с. 114-119.
  14. Усманов З.Д., Косимов А.А. Цифровой образ “Шахнаме” (“Книги царей”) А.Фирдауси – Доклады Академии наук Республики Таджикистан, 2014, т.57, № 6, с. 471-476.
  15. Усманов З.Д., Косимов А.А. Частотность биграмм в таджикской литературе – Доклады Академии наук Республики Таджикистан, 2016, т.59, № 1-2, с. 28-32.
  16. Усманов З.Д., Косимов А.А. Частотность букв таджикской литературы –Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112-115.
  17. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре. – Душанбе: Ирфон, 2010, 104 с.
  18. Худойбердиев Х.А., Косимов А.А. О распознавании автора текста на основе частотности слогов // Доклады Академии наук Республики Таджикистан, 2019.

 

Дата публикации

09/15/2023