摘要: 独热编码应用于有许多类的列时,会导致并行性和多重共线性问题。 解决方式有: ①限制n个最常见的类别(可覆盖约95%的数量) ②频率编码:用其计数或者频率代替某个类别(最常用)。缺点:若计数相同,则模型做相同处理导致信息丢失 ③目标编码:用该类别的平均目标值作为一维数值向量 ④嵌入:对于文本数据类型或 阅读全文
posted @ 2021-06-22 14:03 柒久酒 阅读(510) 评论(0) 推荐(0) 编辑