决策树相关基础知识

核心思想：

样本集D,属性集A

setTree(D,A):
    生成结点node
    if(样本最终分类相同)
        node标记为该分类的叶结点
        return
    if(样本在A的某一个属性上取值相同 || 属性集合A已经是空集)
        node标记为叶结点并标记为数目最多的属性取值
    #选取最佳划分属性
    for features in A:
        计算每一个属性划分得到的指标数值(香农熵/信息熵,基尼指数...)
    选取出指标最优的属性a
    for values in a:
        为该取值的样本D'分配一个子结点
        #if 若该取值样本不存在，分配一个标记为父节点样本最多属性取值的子节点(?)
        else
            setTree(D',A-valus)
    return

相关概念及公式
共有D组数据
K表示数据的某一种属性的一种样式，如西瓜色泽的：浅白，青绿，乌黑。
表示某一种属性的第k个取值所占的比例