Обучение с подкреплением (Reinforcement learning)

Раздел машинного обучения, изучающий поведение интеллектуальных агентов, действующих в некоторой среде и принимающих решения. Наряду с обучением с учителем, обучением без учителя и глубоким обучением, является одной из четырёх парадигм машинного обучения.

Откликом среды на принятые решения являются сигналы подкрепления, на основе которых производится обучение агента. Поэтому такое обучение является частным случаем обучения с учителем, где учителем является среда или ее модель (экспериментальная система).

Системой подкрепления называется любой набор правил, на основании которых можно изменять с течением времени состояние модели.