Вход
Регистрация

Поиск однородных группировок в массиве данных

Хотелось бы узнать, какова последовательность решения задачи разделения массива данных на однородные элементы по нескольким признакам (например для товаров, которые продает компания):

цена (например, от 50 до 1000 руб),
сумма проданного (например, от 10 тысяч до 1 млн)
остатки (например, от 10 тысяч до 1 млн)
артикул (цифры, буквы и цифры, иногда только буквы)
наименование (русские и латинские буквы).
Таких товаров (позиций) может быть несколько тысяч.
Как я понял, Deductor очень негативно относится к столбцам данных в виде артикул (много ячеек различного формата, букв и цифр вместе).
Опытным путем установил, что два столбца – артикул и наименование - следует отнести в крайнюю правую часть таблицы. Крайним левым столбцом будет тогда столбец «цена». После этого при попытке перейти сразу к вкладке «Карта Кохонена» во вкладке «Настройка назначений столбцов» рядом с названиями столбцов в окне «Назначение» возникает (автоматически) указание «Непригодны», то есть эти данные не могут быть использованы для анализа.
Какова причина, при импорте они не были правильно обозначены, тип и вид данных был указан неправильно?
Далее, во вкладках «Очистка данных» проводим «Парциальную обработку», во вкладке «Трансформация данных» проводим «Настройку набора данных» и «Квантование», при этом в графе «Тип данных» для столбцов «цена», «продажи» и «остатки» указываем «тип данных – целое», «назначение» - «входное», для столбцов «артикул» и «наименование» - назначение «информационные», «строковые».
После этого карта Кохонена создается, но по ее виду понятно, что хотя и указано примерное количество кластеров как 3 (что рекомендуют многие монографии как первичное входное значение, например программа Statistica), карта построена не совсем корректно, отдельные части кластеров разбросаны по карте и единой картины не образуют, таким же образом распределены высокие и низкие значения массива по признакам (столбцам).
Если же не указывать количество кластеров, то Deductor строит автотматически до 10-12 кластеров, что совсем не поддается никакому логическому толкованию.
При попытке вычислить значения коэффициентов корреляции между, например, ценой и продажами диаграмма рассеяния значений некорректна, много значений факторов-признаков находится вне поля допуска.
Где в этих рассуждениях скрыта ошибка?
Программы Statistica, SPSS и другие предлагают нормирование (стандартизацию) значений, в Deductor она также есть, но каким бы образом указанные данные (цена, продажи, остатки) не были бы обозначены (тип и вид данных), вкладка «нормализация» недоступна.
И еще один вопрос, после получения схемы нейронной сети, примем, что она правильно обучена, какие действия далее возможны, внизу схемы указаны коэффициенты для узлов нейронной сети, как я понимаю, это коэффициенты уравнения, но каков его вид и как далее применять обученную нейронную сеть, каким образом подставлять эти коэффициенты и в какое уравнение?
Я считаю, именно с такими и им подобными данными сталкивается большинство пользователей, работающих в коммерции, и сталкиваются они с теми же проблемами.
Вид данных я указал, цели анализа указал, все этапы работы также указал. Как мне кажется, вопросы достаточно ясные – в каком виде эти данные должны быть введены в Data Mining и что поможет оценить корректность результатов?