机器学习笔记

    返回首页    发表留言
本文作者:李德强
          第三节 划分训练集
 
 

        我们重新看一下整个训练集:

色泽 敲声 纹理 好瓜
青绿 浊响 清晰
乌黑 沉闷 清晰
乌黑 浊响 清晰
青绿 沉闷 清晰
浅白 浊响 清晰
乌黑 沉闷 模糊
青绿 清脆 清晰
浅白 清脆 模糊
浅白 浊响 模糊
青绿 浊响 模糊

        “色泽”、“敲声”、“纹理”三个特征的香农熵分别为:

        色泽 = 1.571

        敲声 = 1.4855

        纹理 = 0.97095

        所以我们将训练集按最大香农熵的“色泽”特征来划分,将它们划分为3个子集:

色泽 敲声 纹理 好瓜
青绿 浊响 清晰
青绿 沉闷 清晰
青绿 清脆 清晰
青绿 浊响 模糊

 

色泽 敲声 纹理 好瓜
乌黑 沉闷 清晰
乌黑 浊响 清晰
乌黑 沉闷 模糊

 

色泽 敲声 纹理 好瓜
浅白 浊响 清晰
浅白 清脆 模糊
浅白 浊响 模糊

        然后将这三种分类做为决策树的三个分支,并用递归的方式继续划分子集。例如:对于色泽为青绿的子集,我们再对剩余的两个特征分别计算其香农熵:

        敲声 = 1.5

        纹理 = 0.81128

        显然我们需要用“敲声 ”对训练集再做划分:

色泽 敲声 纹理 好瓜
青绿 浊响 清晰
青绿 浊响 模糊

 

色泽 敲声 纹理 好瓜
青绿 沉闷 清晰

 

色泽 敲声 纹理 好瓜
青绿 清脆 清晰

        于是训练集中只存在最后一个特征“纹理”,我们只需要对这个特征进行划分即可找出最终的结果。

        对于按“色泽”划分之后的其它两个子集“乌黑”、“浅白”同样要对它们剩下的特征进行划分,并构建出相应的分支。 

    返回首页    返回顶部
  看不清?点击刷新

 

  Copyright © 2015-2018 问渠网 辽ICP备15013245号