太平洋网络推荐系统开发实习生学习笔记
机器学习分类,回归排序不同算法
分类(全是监督学习)
- 距离判别法,即最近邻算法KNN
KNN 是指看邻近的三个点的分类,占多数的类别就是未知点的类别
- 贝叶斯分类器;
主要是通过公式P(a|b)=P(b|a)*P(a)/P(b)
如果谁的概率大,谁就是正确的
- 线性判别法,即逻辑回归算法;
假设一条w1x1+w2x2的线,然后把先验数据带进去,得到权重,最后用sigmoid函数将区间置于01中

- 决策树;
根据先验数据做出一个决策树,根据决策判断
- 支持向量机;SVM
找到一个样本空间上的一条线,划分出一个超平面,使不同类的分开。所以要选择扰动性最小,最好的线。
所以线性可分超平面的线是间隔最大的线。wx+b=y原则上w是任意的话,总能找到一个w使y=1。那些点就是支持向量。这几个点之间的距离,就是间隔。我们要使间隔最大。
凸二次规划问题,可以采用拉格朗日乘子法对其对偶问题求解。训练完成后,大部分样本都不需要保留,最终模型只与支持向量有关
- 神经网络
回归
线性回归。多变量线性回归
y=w1x1+w2x2,,,
用梯度随机下降处理权重。但是处理不当会产生过拟合
岭回归
这种回归在放弃了一定无偏度的情况下,是一些病态的数组会扰乱结果,岭回归可以换取数值稳定性
如果高共线性不适用与岭回归
排序
单文档
单文档方法的处理对象是单独的一篇文档,将文档转换为特征向量后,机器学习系统根据从训练数据中学习到的分类或者回归函数对文档打分,打分结果即是搜索结果。下面我们用一个简单的例子说明这种方法。
人工标注的训练集合,在这个例子中,我们对于每个文档采用了3个特征: 査询与文档的Cosme相似性分值、査询词的Proximity值及页面的PageRank数值,而相关性判断是二元的,即要么相关要么不相关,当然,这里的相关性判断完全可以按照相关程度扩展为多元的,本例为了方便说明做了简化。
文档对方法

文档列表方法,是用一个列表的方式来学习
无监督模型(监督学习就是通过训练样本学习到知识再对后面的数据进行处理,无监督模型就是我们实现不知道这些数据,对数据直接建模。不需要知道类别是什么,只需要相似的聚类就可以)
降维
1主成分分析(PCA)
用少量特征概括主要特性,使用正交变换将一组分量相关的变量转为不相关的变量,从而达到减少变量的效果
2,非负矩阵分解
分量系数非负 只能用于正系数。与pca不同的是可以创造一组完全不同的分量,每一组分量都是平等的。
聚类
1,k均值聚类(k means)
每个数据点都分到簇中心
2,凝聚聚类
每个点都是簇,然后两个相似的合并
3.DBSCAN
具有噪声的,定一些密集点作为核心样本,否则标记为噪声(核心点边界点噪声)
优点:可以检测噪声,自动判断簇的质量
 
                     
                    
                 
                    
                
 
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号