关于高维稀疏数据处理的一些思考和记录

做广告算法时间不断了,花些时间对machine learning中的高维稀疏数据处理技术做个总结。

假设数据的特征数为k,训练实例数目为n,当$k\gg n$时,相同于要求解不定方程,即问题有多组解,那么其中哪组解是最好的呢?

这个问题目前在很多研究领域都要面对,比如压缩感知、nonparametric statistics和机器学习等,它们大都采用regularization技术。

常见机器学习模型中提出相关解决方案的好像是CART algorithm. 

1.2 概率挑战 

 

$Y_{i}=\mu+\sum_{j=1}^{P}\beta_{j}X_{i}^{(j)}+\varepsilon_{i}(i=1,...,n)$

 

 计算有效性的先决条件为$log(p)\cdot(sparsity(\beta))\ll n$


 

posted @ 2013-12-28 20:34  enyun  阅读(843)  评论(0)    收藏  举报