摘要:特征挖掘的框架 频繁特征挖掘基本概念 1.频繁项集、频繁子序列、频繁子结构 2.关联规则: 购物篮问题:电脑-->反病毒软件[支持度support=2%, 置信读confidence=60%],表示所有交易数据中有2%的记录在购买了电脑与反病毒软件被同时购买,而所有购买了电脑的用户中,有60%的用户
阅读全文
随笔分类 - 数据挖掘
摘要:特征挖掘的框架 频繁特征挖掘基本概念 1.频繁项集、频繁子序列、频繁子结构 2.关联规则: 购物篮问题:电脑-->反病毒软件[支持度support=2%, 置信读confidence=60%],表示所有交易数据中有2%的记录在购买了电脑与反病毒软件被同时购买,而所有购买了电脑的用户中,有60%的用户
阅读全文
摘要:数据清洗 数值缺失 1.略去该组数据 2.数值填充:1)随机数;2)统一的全局常量,如:UNKNOWN;3)均值、中值;4)按类别的中值、均值;5)回归、决策树等得到的预测值; 噪声数据的平滑:随机噪声或偏差引起噪声 1.装箱法:按邻值实现 2.拟合回归函数以平滑数据 3.异常数据分析:在聚合后簇外
阅读全文
摘要:数据类型 特征属性类别:名词性(无序性,红、黄、蓝)、二元特征(正、负)、有序特征(大中小) 、数值性特征(量化数据,可计算:1.interval-scaled;2.ratio-scaled)、有/无序 数据的基本统计学描述 数据整体趋势描述 1.(加权)均值: 2.中值:快速近似计算,对数据按大小
阅读全文
|