Везде обсуждается обратное распространение, как чуть ли не единственный
способ обучения MLP. А я вот прочитал статейку с конференции, а потом и
в FAQ нашел, что другие градиентные методы в применении к обучению MLP работают быстрее - особенно алгоритм Левенберга-Марквардта. У меня лично большие сомнения, что какой-то определенный алгоритм всегда будет давать лучший результат. Кто знает, в каких случаях (в зависимости от размеров сети)
какой алгоритм оптимальнее?