连续特征离散化

1. Entropy-Based Discretization 基于熵的离散化

用熵对连续数据进行离散化,其基本思想是利用熵的大小来表示划分后数据集的纯度,熵越小,数据纯度越大,得到的离散数据可用性就更高

具体做法是:先把数据集划分为两部分,计算两部分的熵的和,在熵最小的地方划分,然后对熵最大的那部分重复此步骤,直到满足用户需要的数据集个数

posted @ 2018-10-21 16:53  肉松松鼠  阅读(962)  评论(0编辑  收藏  举报