From 8981b96dfae64b835ba7154450e1c6e798a3a283 Mon Sep 17 00:00:00 2001 From: aolingwen <747620155@qq.com> Date: Fri, 12 Jul 2019 14:16:59 +0800 Subject: [PATCH] werwer --- book.json | 2 +- linear_regression.md | 2 +- logistic_regression.md | 2 +- pingpong/Policy Gradient.md | 2 +- 4 files changed, 4 insertions(+), 4 deletions(-) diff --git a/book.json b/book.json index e51bcdd..185af5e 100644 --- a/book.json +++ b/book.json @@ -8,6 +8,6 @@ "pageNumbers": false, "fontSize": 14, "paperSize": "a4" - } + }, "plugins": ["katex"] } \ No newline at end of file diff --git a/linear_regression.md b/linear_regression.md index fae40a3..89bfd83 100644 --- a/linear_regression.md +++ b/linear_regression.md @@ -76,7 +76,7 @@ $$ 所以,梯度下降的伪代码如下: -
+ 循环干的事情就相当于我下山的时候在迈步子,代码里的 $$\alpha$$ 高端点叫学习率,实际上就是代表我下山的时候步子迈多大。值越小就代表我步子迈得小,害怕一脚下去掉坑里。值越大就代表我胆子越大,步子迈得越大,但是有可能会越过山谷的谷底。 diff --git a/logistic_regression.md b/logistic_regression.md index e2c1f95..4ad9c03 100644 --- a/logistic_regression.md +++ b/logistic_regression.md @@ -29,7 +29,7 @@ $$ $$sigmoid$$ 函数的公式为:$$\sigma(t)=1/1+e^{-t}$$。函数图像如下图所示: - + 从$$sigmoid$$函数的图像可以看出当$$t$$趋近于$$-\infty$$时函数值趋近于$$0$$,当$$t$$趋近于$$+\infty$$时函数值趋近于$$1$$。可见$$sigmoid$$函数的值域是$$(0,1)$$,满足我们要将$$(-\infty,+\infty)$$的实数转换成$$(0,1)$$的概率值的需求。因此**逻辑回归**在预测时可以看成$$\hat p=1/(1+e^{-Wx+b})$$,如果$$\hat p>0.5$$时预测为一种类别,否则预测为另一种类别。 diff --git a/pingpong/Policy Gradient.md b/pingpong/Policy Gradient.md index dae1345..83f747f 100644 --- a/pingpong/Policy Gradient.md +++ b/pingpong/Policy Gradient.md @@ -15,7 +15,7 @@ 那么为什么采样而不是直接选取概率最大的呢?因为这样很有灵性。可以想象一下,我们和别人下棋的时候,如果一直按照套路来下,那么对手很可能能够猜到我们下一步棋会怎么走,从而占据主动。如果我们时不时地不按套路出牌,但是这种不按套路的动作不会降低太多对于我们能够赢下这一局棋的几率。那么对手很可能会不知所措,主动权就掌握在我们手里。就像《天龙八部》中虚竹大破珍珑棋局时一样,可能有灵性一点,会有意想不到的效果。 - + ## Policy Gradient 的原理