用户画像系统

用户标签和标签的数学描述:

标签是特征空间中的纬度

每个标签都是特征空间中的基向量,基向量之间有关联,不一定是正交的

用户画像是特征空间中的高维向量

 

 特征工程:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

特征:对所需解决问题有用的属性

特征的提取、选择和构造

  针对锁解决的问题选择最有用的特征集合

  通过相关系数等方式来计算特征的重要性

    人工筛选,有些算法输出特性:Random Forest维度过多,PCA自动降维

算法和模型:

LR:只要认为问题时线性可分的,就可采用LR

模型比较抗噪,而且可以通过L1,L2范数来做参数选择

效率高,可以应用于数据特别大的场景

很容易分布式实现

Ensemble方法:

根据训练集训练多个分类器,然后综合多个分类器的结果,做出预测

 

算法和模型评价:

 

posted @ 2019-09-07 14:20  hotMemo  阅读(953)  评论(0编辑  收藏  举报