О РАСПОЗНАВАНИИ АВТОРА ТЕКСТА НА ОСНОВЕ ЧАСТОТНОСТИ БУКВЕННЫХ ТРИГРАММ

Авторы

 

 Косимов А.А. кандидат технических наук, старший преподаватель кафедры программирования и информационных технологий, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г.Худжанд, Республика Таджикистан, abdunabi_kbtut@mail.ru

 

Аннотация

 

 Решается задача распознавания авторов произведений по отдельности для классической и современной поэзии, а также современной прозы. Произведениям сопоставляется цифровой портрет, характеризуемый распределением в них частотности буквенных триграмм. Устанавливается эффективность применения классификатора для идентификации авторов произведений. Устанавливается, что распределение частотности триграмм в произведениях таджикского языка является идентификатором авторства. Исследованы возможности классификатора З.Д. Усманова распознавать автора текста по частотности буквенных триграмм. Сконструированы цифровой портрет и метрическое пространство произведений. В предположении уникальности авторского творчества устанавливаются пороговые значения метрики, на основе которых определяются классы “однородных” произведений. -классификатор дискретных случайных величин, подтвердивший высокую эффективность при идентификации авторства текстовых фрагментов в произведениях классической и современной поэзии, а также в современной прозе таджикского языка, тестируется на предмет приспособляемости к распознаванию авторства по отдельности. Для решения проблемы идентификации авторов текстов триграммы являются вполне приемлемыми количественными характеристиками. А также установлено, что с помощью классификатора З.Д. Усманова по цифровому портрету удаётся идентифировать авторов произведений на таджикском языке.

 

Ключевые слова

 

таджикский язык, текст, поэзия, проза, частотность, триграмм, классификатор, идентификация

 

Список использованной литературы

 

  1. Каримов А.А. О цифровом портрете текстовой информации – Политехнический вестник, 2019, 1 (45), Серия: интеллект, инновации, инвестиции, С. 7-10.
  2. Каюмов М.М. О цифровом портрете текстовой информации, основанном на частотности знаков пунктуации – Политехнический вестник, 2019, 1 (45), Серия: интеллект, инновации, инвестиции, С. 20-23.
  3. Косимов А.А., Бахтеев К.С. О распознавании автора текстового фрагмента // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2019, № 4 (177).
  4. Косимов А.А., Бахтеев К.С. Применение специфичного цифрового портрета для идентификации авторов произведений // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2019, № 3 (176), С. 7-11.
  5. Усманов З.Д. Алгоритм настройки кластеризатора дискретных случайных величин Доклады Академии наук Республики Таджикистан, 2017, т. 60, № 9, С. 392-397.
  6. Усманов З.Д. Классификатор дискретных случайных величин Доклады Академии наук Республики Таджикистан, 2017, т. 60, № 7-8, С. 291-300.
  7. Усманов З.Д. Об одном цифровом портрете текста и его приложении – Политехнический вестник, 2019, 3 (47). Серия: интеллект, инновации, инвестиции.
  8. Усманов З.Д., Косимов А.А. К вопросу об автоматическом распознавании авторства и стилей произведений таджикско-персидской художественной литературы // Доклады Академии наук Республики Таджикистан, 2019, т. 62, № 9.
  9. Усманов З.Д., Косимов А.А. О применимости γ-классификатора к распознаванию авторства и тематики художественных произведений // Материалы двадцать второго научно-практического семинара “Новые информационные технологии в автоматизированных системах”, Москва, 2019, С. 174-178.
  10. Усманов З.Д., Косимов А.А. О распознавании авторства таджикского текста – Доклады Академии наук Республики Таджикистан, 2016, т.59, № 3-4, С. 114-119.
  11. Усманов З.Д., Косимов А.А. Цифровой образ “Шахнаме” (“Книги царей”) А.Фирдауси – Доклады Академии наук Республики Таджикистан, 2014, т. 57, № 6, С. 471-476.
  12. Усманов З.Д., Косимов А.А. Частотность биграмм в таджикской литературе – Доклады Академии наук Республики Таджикистан, 2016, т. 59, № 1-2, С. 28-32.
  13. Усманов З.Д., Косимов А.А. Частотность букв таджикской литературы – Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, С. 112 – 115.
  14. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре. – Душанбе: Ирфон, 2010, 104 с.
  15. Худойбердиев Х.А., Косимов А.А. О распознавании автора текста на основе частотности слогов // Доклады Академии наук Республики Таджикистан, 2019, т. 62, № 11.

 

Дата публикация

2023-10-26