“Large-Scale Deep Learning for Intelligent Computer Systems,” по состоянию на 26 января 2017 года, .
201
Обучение с подкреплением связано с созданием программных агентов, которые могут предпринимать эффективные действия в какой-либо среде, чтобы максимизировать вознаграждение. Первой публичной демонстрацией DeepMind своих возможностей была система deep Q-network (DQN), созданная для игры в классические видеоигры Atari 2600, например Space Invaders, Pong, Breakout и Battlezone. Программисты не сообщали системе DQN, в какую игру она играет, какие есть правила, какие стратегии эффективны или какие средства управления и действия ей доступны. Фактически ей даже не сообщали, что она играет в какую-то игру. Ей просто показывали экран каждой игры и просили максимизировать набор очков с помощью перемещения какого-либо контроллера. DQN смогла быстро превзойти результат игроков-людей более чем в половине из 49 представленных ей игр (Volodymyr Mnih et al., “Human-Level Control through Deep Reinforcement Learning,” Nature 518 (February 28, 2015): 529–33, ).