This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.
# 6.3 决策树构建流程
接下来将通过使用上一节中客户流失的数据来描述一下`ID3`算法构建决策树的过程。
一开始我们已经算过信息增益最大的是活跃度,所以决策树的根节点是活跃度 。所以这个时候树是这样的:
![](1.jpg)
然后发现训练集中的数据表示当我活跃度低的时候一定会流失,活跃度高的时候一定不流失,所以可以先 在根节点上接上两个叶子节点。
![](2.jpg)
但是活跃度为中的时候就不一定流失了,所以这个时候就可以把活跃度为低和为高的数据屏蔽掉,屏蔽掉 之后 5 条数据,接着把这 5 条数据当成训练集来继续算哪个特征的信息增益最高,很明显算完之后是性别 这个特征,所以这时候树变成了这样:
![](3.jpg)
这时候呢,数据集里没有其他特征可以选择了(总共就两个特征,活跃度已经是根节点了),所以就看我 性别是男或女的时候那种情况最有可能出现了。此时性别为男的用户中有 1 个是流失,1 个是不流失,五五开。所以可以考虑随机选个结果当输出了。性别为女的用户中有全部都流失,所以性别为女时输出是流失。所以呢,树就成了这样:
![](4.jpg)
好了,决策树构造好了。从图可以看出决策树有一个非常好的地方就是模型的解释性非常强!!很明显, 如果现在来了一条数据 (男, 高) 的话,输出会是不流失。