Авторы
Косимова Н.О. – докторант, кафедра информационных систем и технологий, Технологический университет Таджикистана, г.Душанбе, Республика Таджикистан,nilufar_k@inbox.ru
Мирзоев С.Х. – доктор технических наук, доцент, кафедра информатики, Таджикский национальный университет, г. Душанбе, Республика Таджикистан,saidalo.mirzoev.1967@mail.ru
Аннотация
я выявления и сравнения похожих текстов. Методика может быть эффективно использована для изучения текстов других авторов и других языков. Для проведения анализа однородности, в качестве модельной коллекции были выбраны случайным образом по два различных произведений пяти русских писателей, итого 10 текстов. Проведена предварительная обработка выбранных произведений для проведения вычислений. Для каждого из произведений сформированы по два цифровых портрета текста, основанные на распределении частотности, соответственно, буквенных униграмм и буквенных биграмм. С помощью специфической формулы рассчитаны парные расстояния между цифровыми портретами произведений авторов отдельно для униграмм и биграмм. Из полученных вычислений сформированы 2 отдельные таблицы с 45 парными расстояниями между цифровыми портретами. Дальнейший анализ однородности произведений авторов проведен на основе данных этих таблиц. Основываясь на результатах вычисленных расстояний, проведена проверка гипотезы «однородности» двух произведений одного автора и «неоднородности» двух произведений разных авторов. Методика, предложенная в исследовании, в будущем будет полезна для выявления авторов произведений или для сравнения похожих произведений.
Ключевые слова
текст, цифровой портрет, расстояния, сравнения, перспективность применения
Список использованных источников
- Усманов З.Д. Алгоритм настройки кластеризатора дискретных случайных величин – ДАН РТ, т.60, № 9, с. 392-397.
- Усманов З.Д. Классификатор дискретных случайных величин – ДАН РТ, 2017, т.60, № 7-8, с. 291-300.
- Усманов З.Д. Оценка эффективности применения -классификатора для атрибуции печатного текста // ДАН РТ – 2020. – Т.63, № 3-4 – С.172-179.
- Rudman J. The state of authorship attribution studies: Some problems and solutions //Computers and Humanities. – 1998. – Vol.31. – p. 351-365.
Дата публикация
2023-10-28