我们还是用房屋问题来看看决策树的分类原理,现在我们来看看让机器来判断西瓜好坏的办法,训练样本如下:
色泽 | 敲声 | 纹理 | 好瓜 |
青绿 | 浊响 | 清晰 | 是 |
乌黑 | 沉闷 | 清晰 | 是 |
乌黑 | 浊响 | 清晰 | 是 |
青绿 | 沉闷 | 清晰 | 是 |
浅白 | 浊响 | 清晰 | 是 |
乌黑 | 沉闷 | 模糊 | 否 |
青绿 | 清脆 | 清晰 | 否 |
浅白 | 清脆 | 模糊 | 否 |
浅白 | 浊响 | 模糊 | 否 |
青绿 | 浊响 | 模糊 | 否 |
决策树的基本思想是按特征对训练样本进行判断,先将训练样本分成部分子集,再对每一个子集进行另外一个特征的分类。比如:可以先看西瓜的色泽,是青绿、乌黑还是浅白?第二步再看看敲声,是浊响、沉闷还是清脆?最后在看看纹理是清晰还是模糊?决策的过程实际上就是对训练样本分类的过程,并将它们构建成一棵决策树:
对整个训练集进行决策的过程也就是对数据的分类过程,这是一个递归的过程,每次选择了分类特征,然后再对余下的训练集继续使用决策树划分直到所有属性都被使用为止。
然而,对于有n个特征的训练集我们如何来选取首要的分支特征呢?答案是使用信息增益。
Copyright © 2015-2023 问渠网 辽ICP备15013245号