Вход
Регистрация

балансировка выборки

Добрый день. Есть вопрос, который не могу для себя никак уяснить и теряюсь в догадках, может на пальцах сможете объяснить мне. Использовал логистическую регрессию для прогноза возможного статуса клиента в будущем, а если точнее, то вероятность его ухода в отток. В реальности миноритарная категория составляет не более 2-3%, поэтому выборка перед обучением была сбалансирована 50%-50%. После обучения общий % верно классифицированных случаев составил 79% а по прогнозной категории (отток) – 75%. Допустим модель по всем характеристикам пригодна для прогнозирования, проверена на контрольной, проверена на аналогичных данных других периодов. Вопрос такой, на реальных данных, когда уровень пенетрации прогнозной категории составляет 2-3% можно ли достичь уровня верно классифицированных случаев, который был при обучении ( 75%)? И если нет, то каким этот уровень должен быть и как его определять? Объясните, пожалуйста, кто сталкивался с таким вопросом.