А почему все так гоняются за глобальным минимумом при обучении нейросети? У меня получалось уменьшить ошибку обучения на пару порядков с помощью тех же ГА, но ошибка обобщения при этом не уменьшается или растет. Т.е. скажем в задаче аппроксимации функции смысла искать глобальный минимум нет.
Вообще, если кто-нибудь подскажет какие-нибудь публикации по теме, буду признателен