关于高维稀疏数据处理的一些思考和记录
做广告算法时间不断了,花些时间对machine learning中的高维稀疏数据处理技术做个总结。
假设数据的特征数为k,训练实例数目为n,当$k\gg n$时,相同于要求解不定方程,即问题有多组解,那么其中哪组解是最好的呢?
这个问题目前在很多研究领域都要面对,比如压缩感知、nonparametric statistics和机器学习等,它们大都采用regularization技术。
常见机器学习模型中提出相关解决方案的好像是CART algorithm.
1.2 概率挑战
$Y_{i}=\mu+\sum_{j=1}^{P}\beta_{j}X_{i}^{(j)}+\varepsilon_{i}(i=1,...,n)$
计算有效性的先决条件为$log(p)\cdot(sparsity(\beta))\ll n$
浙公网安备 33010602011771号