Вход
Регистрация

Коэффициент скорости обучения и количество примеров учебной последовательности

Еще с момента моего первого знакомства с backprop возник вопрос о влиянии величины пресловутого коэффициента "k" (скорость обучения) на "забывчивость" сетки при обработке длинных учебных последовательностей. Т.е. как бы я не тасовал примеры перед каждой эпохой, при большом "k" веса будут все же тяготеть к последним в эпохе примерам. Это заставило меня перейти к batch-модификации весов, где такой вопрос не возникает. Однако, последняя найденная информация заставляет усомниться, что зависимость от количества примеров вообще существует - значения "k" варьируются у экспериментаторов от 0,1 до 0,001 при многих тысячах примеров... Так действительно ли не стоит беспокоиться, что при 300000 примеров и k=0,01 сеть к 300000-му примеру напрочь не забудет первый?