МУЛЬТИМОДАЛЬНАЯ СИСТЕМА РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ НА ОСНОВЕ CLIP VIT-B/32 С АНАЛИЗОМ СХОДСТВА И ВИЗУАЛИЗАЦИЕЙ

Авторы

Садриддинзода Некрузджон – докторант PhD, кафедра цифровой экономики, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г. Худжанд, Республика Таджикистан, nekruzjons2000@gmail.com

Аннотация

В статье представлена разработанная система автоматического распознавания и поиска товаров, основанная на технологии машинного обучения. Система использует предобученную многомодальную модель CLIP (Contrastive Language-Image Pre-training) для генерации векторных представлений (эмбеддингов) изображений товаров. Реализованное веб-приложение на Python/Flask позволяет индексировать товарные позиции по визуальным признакам, осуществлять поиск по изображению, управлять базой данных товаров и магазинов, а также проводить визуальный анализ пространства признаков. Система демонстрирует высокую точность в задачах поиска схожих товаров и может быть использована для автоматизации процессов инвентаризации, логистики и клиентского сервиса в розничной торговле. Проведён анализ метрик схожести и предложены пороговые значения для фильтрации результатов. Ключевыми особенностями системы являются модульность, масштабируемость и наличие REST API для интеграции со сторонними сервисами. В работе исследована интеллектуальная система распознавания изображений товаров на основе методов машинного обучения и векторных представлений (embeddings). Система использует мультимодальную нейросетевую модель CLIP для извлечения признаков изображений и реализована в виде веб-приложения с REST API на основе фреймворка Flask. Предложенное решение обеспечивает автоматическое сравнение изображений, поиск наиболее похожих объектов, визуализацию пространства признаков и возможность масштабирования для практического применения в торговых и рекомендательных системах.

Ключевые слова

машинное обучение, распознавание изображений, компьютерное зрение, поиск по изображению, контрастное обучение, CLIP, векторные представления, Flask, embeddings.

Список литературы

1. Власов И.М., Рогов А.А. Глубокие нейросетевые модели в задачах обработки изображений // Научно-технический вестник информационных технологий, 2022, №5, с. 34-47.

2. Кириллов С.А., Петров В.В. Методы глубокого обучения в задаче классификации изображений // Информационные технологии и вычислительные системы, 2021, №3, с. 12-23.

3. Chollet F. Deep Learning with Python. — Manning, 2024.

4. Goodfellow I., Bengio Y., Courville A. Deep Learning. — MIT Press, 2024.

5. Grinberg G., M. (2023). Flask Web Development: Developing Web Applications with Python. O’Reilly Media.

6. LeCun, Y., Bengio, Y., & Hinton, G. (2021). Deep learning. Nature, 521(7553), 436-444.

7. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2024). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

8. Radford A. et al. Learning Transferable Visual Models From Natural Language Supervision. — 2021.

9. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. An Incremental Improvement. (2022).

10. Reimers, N., & Gurevych, I. (2021). Sentence-BERT: Sentence embeddings using Siamese BERT-networks. arXiv preprint arXiv:1908.10084.

11. Van der Maaten, L., & Hinton, G. (2025). Visualizing data using t-SNE. Journal of machine learning research, 9(11).

Дата публикации

2026-04-03