ДАТАСЕТ — ОСНОВА АНАЛИЗА И ОБУЧЕНИЯ НЕЙРОСЕТЕЙ

Авторы

Ашурова Шабнам Нуруллоевнастарший преподаватель, кафедра программирования и информационных систем, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г. Худжанд, Республика Таджикистан, sh.nurulloevna@gmail.com
Солиева Мехрангез ТолибовнаPhD докторант, Политехнический институт Таджикского технического университета имени академика М.С. Осими, г. Худжанд, Республика Таджикистан, smehrangez92@gmail.com

Аннотация

В данной статье рассматриваются понятие «датасет», основные виды датасетов, способы их использования, бесплатные источники данных, методы сбора и их применения. Подвергаются разбору также вопросы изучения и использования датасетов в сфере анализа и автоматизации данных, их роль в формировании систем искусственного интеллекта и моделей машинного обучения. В работе датасет определяется как совокупность структурированных и обработанных данных. В статье подробно описываются основные типы датасетов — простые записи, графовые структуры и упорядоченные наборы данных, анализируются методы их сбора (ручные и автоматизированные) и этапы обработки данных — от очистки ошибок до разделения информации на обучающие, тестовые и проверочные выборки. Подчеркивается важность объема и качества данных для повышения эффективности обучения нейронных сетей. В современных условиях рост мультимодальных датасетов, объединяющих текстовые, визуальные, аудиоданные и цифровые параметры, становится ключевой тенденцией в развитии цифровых технологий и искусственного интеллекта. Знание структуры, свойств и методов формирования таких наборов данных имеет высокое практическое и теоретическое значение для аналитиков, программистов и инженеров ИИ. Статья полезна для исследователей, аналитиков и специалистов, поскольку представленные методы и принципы работы с датасетами и обучение нейросетям позволяют эффективно выполнять анализ и моделирование.

Ключевые слова

датасет, графа данных, открытые данные, предсказательная модель, нейросети, информация.

Дата публикации

2026-03-31