master
aolingwen 5 years ago
parent d10d721550
commit 8981b96dfa

@ -8,6 +8,6 @@
"pageNumbers": false,
"fontSize": 14,
"paperSize": "a4"
}
},
"plugins": ["katex"]
}

@ -76,7 +76,7 @@ $$
所以,梯度下降的伪代码如下:
<div align=center><img src="./img/19.jpg", height="250" width="350"/></div>
<div align=center><img src="./img/19.jpg", height="150" width="250"/></div>
循环干的事情就相当于我下山的时候在迈步子,代码里的 $$\alpha$$ 高端点叫学习率,实际上就是代表我下山的时候步子迈多大。值越小就代表我步子迈得小,害怕一脚下去掉坑里。值越大就代表我胆子越大,步子迈得越大,但是有可能会越过山谷的谷底。

@ -29,7 +29,7 @@ $$
$$sigmoid$$ 函数的公式为:$$\sigma(t)=1/1+e^{-t}$$。函数图像如下图所示:
<div align=center><img src="./img/20.jpg", height=250/></div>
<div align=center><img src="./img/20.jpg", width=250, height=250/></div>
从$$sigmoid$$函数的图像可以看出当$$t$$趋近于$$-\infty$$时函数值趋近于$$0$$,当$$t$$趋近于$$+\infty$$时函数值趋近于$$1$$。可见$$sigmoid$$函数的值域是$$(0,1)$$,满足我们要将$$(-\infty,+\infty)$$的实数转换成$$(0,1)$$的概率值的需求。因此**逻辑回归**在预测时可以看成$$\hat p=1/(1+e^{-Wx+b})$$,如果$$\hat p>0.5$$时预测为一种类别,否则预测为另一种类别。

@ -15,7 +15,7 @@
那么为什么采样而不是直接选取概率最大的呢?因为这样很有灵性。可以想象一下,我们和别人下棋的时候,如果一直按照套路来下,那么对手很可能能够猜到我们下一步棋会怎么走,从而占据主动。如果我们时不时地不按套路出牌,但是这种不按套路的动作不会降低太多对于我们能够赢下这一局棋的几率。那么对手很可能会不知所措,主动权就掌握在我们手里。就像《天龙八部》中虚竹大破珍珑棋局时一样,可能有灵性一点,会有意想不到的效果。
<div align=center><img src="../img/1005.jpg", width=250, height=150/></div>
<div align=center><img src="../img/1005.jpg", width=150, height=150/></div>
## Policy Gradient 的原理

Loading…
Cancel
Save