我们重新看一下整个训练集:
色泽 | 敲声 | 纹理 | 好瓜 |
青绿 | 浊响 | 清晰 | 是 |
乌黑 | 沉闷 | 清晰 | 是 |
乌黑 | 浊响 | 清晰 | 是 |
青绿 | 沉闷 | 清晰 | 是 |
浅白 | 浊响 | 清晰 | 是 |
乌黑 | 沉闷 | 模糊 | 否 |
青绿 | 清脆 | 清晰 | 否 |
浅白 | 清脆 | 模糊 | 否 |
浅白 | 浊响 | 模糊 | 否 |
青绿 | 浊响 | 模糊 | 否 |
“色泽”、“敲声”、“纹理”三个特征的香农熵分别为:
色泽 = 1.571
敲声 = 1.4855
纹理 = 0.97095
所以我们将训练集按最大香农熵的“色泽”特征来划分,将它们划分为3个子集:
色泽 | 敲声 | 纹理 | 好瓜 |
青绿 | 浊响 | 清晰 | 是 |
青绿 | 沉闷 | 清晰 | 是 |
青绿 | 清脆 | 清晰 | 否 |
青绿 | 浊响 | 模糊 | 否 |
色泽 | 敲声 | 纹理 | 好瓜 |
乌黑 | 沉闷 | 清晰 | 是 |
乌黑 | 浊响 | 清晰 | 是 |
乌黑 | 沉闷 | 模糊 | 否 |
色泽 | 敲声 | 纹理 | 好瓜 |
浅白 | 浊响 | 清晰 | 是 |
浅白 | 清脆 | 模糊 | 否 |
浅白 | 浊响 | 模糊 | 否 |
然后将这三种分类做为决策树的三个分支,并用递归的方式继续划分子集。例如:对于色泽为青绿的子集,我们再对剩余的两个特征分别计算其香农熵:
敲声 = 1.5
纹理 = 0.81128
显然我们需要用“敲声 ”对训练集再做划分:
色泽 | 敲声 | 纹理 | 好瓜 |
青绿 | 浊响 | 清晰 | 是 |
青绿 | 浊响 | 模糊 | 否 |
色泽 | 敲声 | 纹理 | 好瓜 |
青绿 | 沉闷 | 清晰 | 是 |
色泽 | 敲声 | 纹理 | 好瓜 |
青绿 | 清脆 | 清晰 | 否 |
于是训练集中只存在最后一个特征“纹理”,我们只需要对这个特征进行划分即可找出最终的结果。
对于按“色泽”划分之后的其它两个子集“乌黑”、“浅白”同样要对它们剩下的特征进行划分,并构建出相应的分支。
Copyright © 2015-2023 问渠网 辽ICP备15013245号