670 B

Raw Blame History

使用强化学习玩乒乓球游戏

2013年伦敦的一家人工智能公司Deep Mind发表了一篇论文“Playing Atari with Deep Reinforcement Learning”，一个月后Google就收购了这家公司。从那之后，Reinforcement Learning在人工智能领域就火了起来。2016年AlphaGo赢了与人类的围棋比赛，它也是用的强化学习。

在本章中就不下围棋了，我们尝试使用Policy Gradient(强化学习中的一种算法)让计算机程序自己玩雅达利的乒乓球游戏。本章主要涉及的知识点有：

什么是强化学习
Policy Gradient原理
使用Policy Gradient玩乒乓球游戏

670 B Raw Blame History

使用强化学习玩乒乓球游戏

670 B

Raw Blame History