三类核心的特征添加手段:“组合”“泛化”“相关性”
在特征工程中,“组合”“泛化”“相关性” 是三类核心的特征添加手段,它们从不同角度挖掘数据中的信息,帮助模型更好地学习规律。以下分别详细解释:
一、组合特征(Combination Features)
定义:将多个原始特征通过数学运算、逻辑关联等方式融合成新特征,捕捉特征间的交互关系。
核心目的:挖掘单一特征无法表达的 “协同效应”,例如 “两个特征共同作用对目标的影响”。
核心目的:挖掘单一特征无法表达的 “协同效应”,例如 “两个特征共同作用对目标的影响”。
常见形式:
-
数学运算组合:
- 数值特征间的加减乘除(如 “人均消费 = 总消费 ÷ 人数”“价格波动 = 最高价 - 最低价”)。
- 交叉乘积(如 “面积 × 单价 = 总价”“时长 × 速率 = 距离”)。
- 比例关系(如 “转化率 = 成交数 ÷ 点击数”“男性用户占比 = 男性用户数 ÷ 总用户数”)。
-
类别特征交叉:
- 拼接多个类别特征(如 “城市 + 年龄段” 得到 “北京_25-30 岁”“上海_30-35 岁”,捕捉不同城市的同年龄段用户差异)。
- 逻辑组合(如 “是否为新用户且首次购买”,判断用户的生命周期阶段)。
示例:
在电商销量预测中,原始特征有 “商品价格” 和 “促销折扣”。单独看价格或折扣,可能无法准确反映用户购买意愿,但组合成 “折后价格 = 价格 × 折扣”,能更直接体现用户实际支付成本,与销量的关联更紧密。
在电商销量预测中,原始特征有 “商品价格” 和 “促销折扣”。单独看价格或折扣,可能无法准确反映用户购买意愿,但组合成 “折后价格 = 价格 × 折扣”,能更直接体现用户实际支付成本,与销量的关联更紧密。
二、泛化特征(Generalization Features)
定义:对原始特征进行抽象、归纳或聚类,将细粒度特征转化为更通用、更具代表性的特征,减少噪声和冗余。
核心目的:降低特征维度,提炼共性规律,避免模型过度拟合细枝末节(如罕见值、特殊情况)。
核心目的:降低特征维度,提炼共性规律,避免模型过度拟合细枝末节(如罕见值、特殊情况)。
常见形式:
-
离散特征分组:
- 将连续值分段(如 “年龄” 从具体数值 [18,22,25,...] 分为 “青少年(12-18)”“青年(19-35)”“中年(36-55)” 等区间)。
- 将低频类别合并(如 “职业” 中 “医生”“教师” 等低频类别合并为 “专业技术人员”,减少稀疏性)。
-
语义抽象:
- 文本特征的主题归纳(如将用户评论 “物流快、包装好、性价比高” 抽象为 “用户满意度高”)。
- 时空特征的聚合(如 “具体日期” 转化为 “星期几”“是否节假日”,捕捉周期性规律)。
-
聚类衍生:
- 用聚类算法(如 K-Means)将用户分为 “高活跃”“低活跃” 等群体,用 “群体标签” 替代原始的用户行为特征。
示例:
在交通流量预测中,原始特征是 “具体时间(如 8:05、8:10)”,泛化后可转化为 “早高峰(7:30-9:00)”“平峰(9:00-17:00)” 等时段标签,更能体现不同时段的流量共性模式。
在交通流量预测中,原始特征是 “具体时间(如 8:05、8:10)”,泛化后可转化为 “早高峰(7:30-9:00)”“平峰(9:00-17:00)” 等时段标签,更能体现不同时段的流量共性模式。
三、相关性特征(Correlation Features)
定义:基于特征与目标变量、或特征之间的统计相关性(如相似度、关联规则)构建新特征,强化对目标有显著影响的信息。
核心目的:突出 “与预测目标强相关” 的信号,或挖掘特征间的潜在关联(如 “共生关系”“替代关系”)。
核心目的:突出 “与预测目标强相关” 的信号,或挖掘特征间的潜在关联(如 “共生关系”“替代关系”)。
常见形式:
-
与目标变量的相关性:
- 特征的目标均值(如 “该商品类别过去 30 天的平均销量”,反映类别整体畅销程度)。
- 历史表现特征(如 “用户过去 7 天的购买次数”,与未来购买概率正相关)。
-
特征间的相关性:
- 相似度特征(如 “用户浏览商品与历史购买商品的相似度”,衡量兴趣匹配度)。
- 共现特征(如 “同时购买面包和牛奶的频率”,反映商品组合的关联强度)。
-
统计量特征:
- 相关系数衍生(如 “某特征与目标变量的皮尔逊相关系数”,直接量化线性关联)。
- 条件概率(如 “在用户点击广告的条件下,购买商品的概率”,即点击率到转化率的关联)。
示例:
在信贷风控中,原始特征有 “用户收入”“负债金额”,通过计算 “收入负债率 = 负债金额 ÷ 收入”,可直接反映用户的还款能力(与违约风险高度相关);再结合 “该收入水平用户的平均违约率”,能进一步强化特征的预测能力。
在信贷风控中,原始特征有 “用户收入”“负债金额”,通过计算 “收入负债率 = 负债金额 ÷ 收入”,可直接反映用户的还款能力(与违约风险高度相关);再结合 “该收入水平用户的平均违约率”,能进一步强化特征的预测能力。
总结
- 组合特征:聚焦 “特征间的交互”,挖掘 1+1>2 的协同信息;
- 泛化特征:聚焦 “抽象归纳”,提炼共性规律以增强模型通用性;
- 相关性特征:聚焦 “关联强度”,强化与目标或其他特征的显著关系。
三者结合使用,能从多维度丰富特征空间,帮助模型更全面地学习数据规律,提升预测性能。