You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
1.5 KiB
1.5 KiB
6.3 决策树构建流程
接下来将通过使用上一节中客户流失的数据来描述一下ID3
算法构建决策树的过程。
一开始我们已经算过信息增益最大的是活跃度,所以决策树的根节点是活跃度 。所以这个时候树是这样的:
然后发现训练集中的数据表示当我活跃度低的时候一定会流失,活跃度高的时候一定不流失,所以可以先 在根节点上接上两个叶子节点。
但是活跃度为中的时候就不一定流失了,所以这个时候就可以把活跃度为低和为高的数据屏蔽掉,屏蔽掉 之后 5 条数据,接着把这 5 条数据当成训练集来继续算哪个特征的信息增益最高,很明显算完之后是性别 这个特征,所以这时候树变成了这样:
这时候呢,数据集里没有其他特征可以选择了(总共就两个特征,活跃度已经是根节点了),所以就看我 性别是男或女的时候那种情况最有可能出现了。此时性别为男的用户中有 1 个是流失,1 个是不流失,五五开。所以可以考虑随机选个结果当输出了。性别为女的用户中有全部都流失,所以性别为女时输出是流失。所以呢,树就成了这样:
好了,决策树构造好了。从图可以看出决策树有一个非常好的地方就是模型的解释性非常强!!很明显, 如果现在来了一条数据 (男, 高) 的话,输出会是不流失。