# 使用强化学习玩乒乓球游戏

`2013`年伦敦的一家人工智能公司`Deep Mind`发表了一篇论文`“Playing Atari with Deep Reinforcement Learning”`，一个月后`Google`就收购了这家公司。从那之后，`Reinforcement Learning`在人工智能领域就火了起来。`2016`年`AlphaGo`赢了与人类的围棋比赛，它也是用的强化学习。

在本章中就不下围棋了，我们尝试使用`Policy Gradient`(强化学习中的一种算法)让计算机程序自己玩雅达利的乒乓球游戏。本章主要涉及的知识点有：

- 什么是强化学习
- `Policy Gradient`原理
- 使用`Policy Gradient`玩乒乓球游戏