Вход
Регистрация

Применение PCA с целью отбора черт для дальнейшей SVM-классификации

Помогите пожалуйста советом... Планируется построение SVM-классификатора с дальнейшей реализации функции прогноза. Есть две группы испытуемых: больные и здоровые (по 23 в каждой группе). Матрица данных - 46х100 (100 переменных). Проблема, собственно, в том, что выборки значимо различаются по полу и возрасту. Как правильно в данном случае использовать PCA для выбора черт с целью последующего построения kernel-matrix и классификации?

Правильно ли я понял, что, скажем, можно, проанализировав график нагрузок, исключить те переменные, которые имеют сильную корреляцию с полом и возрастом и, соответственно, отобрать для классификации те, которые имеют максимальную связь с переменной "диагноз"???

И правильно ли я понимаю, что после такой селекции черт я все равно могу использовать любое ядро ("linear", "radial basis function")? Или же в случае rbf-ядра мне нужно предварительно выполнить kernel-PCA?

Заранее извиняюсь, если некоторые формулировки покажутся неуместными (технического образования не имею)...