zourui4271

博客园 首页 新随笔 联系 订阅 管理

2018年9月5日 #

摘要: 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 0. 离散特征的增加和减少都很容易,易于模型的快速迭代; 1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 2. 离散化后的特征对异常数据有很强的鲁棒 阅读全文
posted @ 2018-09-05 19:49 zourui4271 阅读(664) 评论(0) 推荐(0)

摘要: 特征分类 对特征进行分类,对于不同的特征应该有不同的处理方法。 根据不同的分类方法,可以将特征分为 (1)Low level特征和High level特征。 Low level特征——较低级别的特征,主要是原始特征,不需要或者需要非常少的人工处理和干预。 例如文本特征中的词向量特征,图像特征中的像素 阅读全文
posted @ 2018-09-05 19:46 zourui4271 阅读(3232) 评论(0) 推荐(0)

摘要: 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种 阅读全文
posted @ 2018-09-05 19:25 zourui4271 阅读(451) 评论(0) 推荐(0)