Первичная обработка данных и работа с ними
Алексей Юрьевич8 октября 2010Предобработка данных2 комментария

В случае работы с обычным коммерческим набором данных – цена, продажи в рублях, остатки в рублях, каким образом следует их преобразовать для работы в Deductor?
Например, после импорта данных имеем несколько столбцов – цена, продажи в рублях и остатки в рублях. Пробовал такой так:
обозначить цену и остатки как «входное», продажи обозначить как «выходное», артикул и наименование – как информационное значение.
Причем крайним левым столбцом стоит как раз «Наименование».
После этого, в случае немедленного перехода во вкладку Data Mining «Линейная корреляция» все столбцы высвечены как «Непригодные», то есть работать с ними невозможно.
Далее при обращению к любой вкладке результат тот же. То есть, программа не воспринимает данные в виде текста в ячейке.
При попытке изменения набора данных во вкладке «Трансформация данных» в вид – наименование и артикул – в строковые, остальное – в выходные, непрерывный вид. Все равно, при обращении к вкладке «Линейная корреляция» данные непригодны.
Квантование также не дает результата, данные разделяются по группам «от… до …», но в Data Mining выглядят как непригодные.
Только когда убираем столбец «Наименование», а столбец «Артикул» ставим крайним справа, в этом случае программа допускает обработку в Data Mining, но на диаграмме рассеяния во вкладке «Линейная регрессия» выходные значения (признаки-факторы в корреляционно-регрессионном уравнении) располагаются параллельно эталонным (признакам-результатам в том же уравнении), что говорит о некорректности полученных результатов.
При использовании вкладки «Факторный анализ» один из факторов признан малозначимым, соглашаемся с этим и следуем далее. В результате данные не понижаются, а увеличиваются в десятки раз, то, что было в виде «цена – 122 рубля», выглядит теперь в столбце «фактор 1» уже как число в несколько миллионов. Если вкладка «Факторный анализ», как указано, понижает размерность, то этого не происходит на практике.
Если, например, в Statistica попробовать нормализовать данные, то значения и десятков и миллионов после z-преобразования (в нажатие одной только кнопки) тут же преобразуются в диапазон от 0 до 1.
Причем в Deductor существует процедура нормализации. Но, что бы я ни делал с данными, как бы их не обозначал, высвечена стандартная надпись «Нормализация данных недоступна».
Но далее в Deductor, уже после вкладки «Факторный анализ», данные все равно непригодны для обработки в Data Mining.
И только когда перед импортом таблицы из Excel проведешь сортировку (по возрастанию) нескольких столбцов, обозначишь как «входные», «целые», «непрерывные» цену, остатки, а продажи как «выходные», «целые» и «непрерывные», вот только тогда заработают вкладки Data Mining, но, как мне кажется, и в этом случае результат не вполне корректен, судя по диаграмме рассеяния.
Возможно, хорошо бы поместить на сайте развернутую информацию, каким образом программа реагирует на те или иные входные данные, импортируемые из других приложений. Как мне кажется, наборы данных в столбцах «цена», «продажи», «остатки», «наименование» и «артикул» достаточно стандартны и часто применяются.

На вашу электронную почту отправлено письмо, в котором ссылка для подверждения регистрации

Восстановление пароля

Первичная обработка данных и работа с ними Алексей Юрьевич8 октября 2010Предобработка данных2 комментария

Комментарии

На вашу электронную почту отправлено письмо,
в котором ссылка для подверждения регистрации

Первичная обработка данных и работа с ними
Алексей Юрьевич8 октября 2010Предобработка данных2 комментария