Вход
Регистрация

Использование нейронных сетей для задачи распознавания голоса

Здравствуйте!

Интересуюсь возможностью использования нейронных сетей для распознавания голосовых данных. Задача с большими объемами словарей - тысячи и десятки тысяч слов. Качество входных голосовых данных высокое. Не телефоннная линия и очень низкий уровень шума во входных данных - - 50-60 дБ. Речь идет о распознавании отдельных слов, но их от тысяч и до десятков тысяч.

Скажите какие сети здесь можно использовать? Сети использующие алгоритм обратного распространения ошибок, сети Хопфильда, самоорганизующиеся сети Кохонена, сеть со встречным распространением (CPN Counterpropagation Network), ортогональные тензорные (многочастичные) сети, может быть можно попытаться использовать варианты генетических алгоритмов, которые хорошо описаны здесь на форуме, нейронные сети ассоциативной памяти и т. д.

Какую стратегию можно выбрать при решении такой проблемы при выборе подходящей сети, чтобы не ошибиться сильно в начале?

Большинство сетей используются для распознавания визуальных образов (зрение робота, распознавание символов), но для звуковых (голосовых) образов наверное будут свои особенности.

Может знаете соответствующую л-ру за последние 3-5 лет или может быть имеется опыт?

Я знаю, что сейчас уже достаточно давно для обучения студентов в университетах используются стандартные пакеты НС (нейронная сеть) + HDD (hidden Markov's models) для показа того, как все можно сделать и получения результата для обучения и распознавания 200-400 слов (как правило для сотовых телефонов, смартфонов, наладонников и так далее), но это не очень интересно.

Спасибо.

Валентин