Вход
Регистрация

Re(2): Сверточные НС

Для этого алгоритма шаг должен быть один (на каждой эпохе) вообще для всей сети. Если рассматривать выражение коррекции сети W(t+1)=W(t)-s(T)D(t), где D - вектор весов, D - вектор поправок (градиент или построенное на его основе направление), то шаг s(T) не является скаляром только для алгоритма темперирования (и при темперировании действительно меняется от слоя к слою) и для метода обучения RPROP (а здесь шаг свой для каждого синапса/порога и, фактически, подменяет собой поправку D(t), и корректируется на её основе).
При онлайн-обучении к тому же шаг s(T) будет один на всей эпохе, поэтому и обозначил номер эпохи через T в противоположность номеру примера t