Проясните, пожалуйста, два вопроса:
1. В пакетных методах обучения идет накапливание градиента по каждому весу от каждого обучающего примера или вычисляется средний градиент? Т.е. накопленная сумма делится на количество обучающих примеров?
2. Почему в методе наискорейшего спуска обычно используется онлайновый метод обучения, а при использовании метода Левенберга-Марквардта (например), только пакетный? Теоретически, можно же и наоборот. Это вопрос принципа или вопрос эффективности?