关于高维稀疏数据处理的一些思考和记录

做广告算法时间不断了，花些时间对machine learning中的高维稀疏数据处理技术做个总结。

假设数据的特征数为k,训练实例数目为n，当$k\gg n$时，相同于要求解不定方程，即问题有多组解，那么其中哪组解是最好的呢？

这个问题目前在很多研究领域都要面对，比如压缩感知、nonparametric statistics和机器学习等，它们大都采用regularization技术。

常见机器学习模型中提出相关解决方案的好像是CART algorithm.

$Y_{i}=\mu+\sum_{j=1}^{P}\beta_{j}X_{i}^{(j)}+\varepsilon_{i}(i=1,...,n)$

计算有效性的先决条件为$log(p)\cdot(sparsity(\beta))\ll n$

posted @ 2013-12-28 20:34 enyun 阅读(843) 评论(0) 收藏举报

刷新页面返回顶部