В общем, сделал я прогу обучения многослойного перцептрона классическим обратным распространением. В целом, последние результаты неплохие, в выигрыше по сравнению с ГА и по скорости, и по результатам. Хотя из "наворотов" и спользовано только приращение "момента" с коэффициентом 0.5; Что интересно, для больших учебных последовательностей коэффициент скорости обучения более 0,001 приводит к "разносу" сети, когда отклонение начинает быстро расти, вместо того, чтобы уменьшаться. Серьезный минус один - часто значение ошибки стабилизируется на довольно высоком уровне, и изменение коэффициента скорости обучения не влияет в лучшую сторону на нее. Значит ли это, что данный минимум является глобальным, или возможна ситуация, когда любое увеличение коэффициента скорости обучения неспособно "выбить" сеть из локального минимума?
И еще, последний(выходной) слой не обрабатывается сжимающей функцией (у меня - логарифмической) и при обратном распространении значение производной от суммы входов всегда равно "1.0"; Насколько это может влиять на качество обучения?