摘要:
划分选择 决策树中,最关键的是判断选择一个什么样的标准来划分样本来区分正负样本。也就是说我们希望划分后的样本尽量一致。下面将介绍如何描述一个样本集合中样本尽量一致的量化概念。 信息增益 信息熵:假设样本集合D中第k类元素所占比例为$p_k$,则D的信息熵为: $$ Ent(D)=-\sum_{k=1 阅读全文
posted @ 2023-02-18 17:40
青山新雨
阅读(49)
评论(0)
推荐(0)
摘要:
k匿名性 在上一篇文章差分隐私进阶-去标识和重标识攻击中使用重标识攻击来获取隐私数据,这篇文章就介绍了使用k-匿名性来解决这个问题。 属性定义:令$B(A_1, A_2, ..,A_n)$是一个有限数据的元组(一行数据称为元组)表格,其中表格B的有限属性集为$Q_T={A_1, A_2, ...,A 阅读全文
posted @ 2023-02-18 10:42
青山新雨
阅读(802)
评论(0)
推荐(0)
摘要:
去标识 去标识:是指从数据集中删除标识信息的过程。 标识信息的模糊定义:凡是能够根据信息序列精确定位到某个具体事物的信息序列。比如,每个人的身份证号,每个人的(家庭住址,姓名)的信息元组等等。 import pandas as pd import numpy as np import matplot 阅读全文
posted @ 2023-02-18 10:40
青山新雨
阅读(271)
评论(0)
推荐(0)

浙公网安备 33010602011771号