随笔分类 - 机器学习
摘要:来源:http://blog.csdn.net/han_xiaoyang/article/details/52665396 xgboost实战:http://www.jianshu.com/p/5709fa18cdb4 4. XGBoost的优势 XGBoost算法可以给预测模型带来能力的提升。当我
阅读全文
摘要:如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。这里可以将特征值为负,特征向量旋转180度,也可看成方向不变,伸缩比为负值。所以特征向量也叫线性不变量 PCA的物理意义: 各种不同的信号(向量)进入这个系统中后,系
阅读全文
摘要:通过对所有的决策树进行加总来预测新的数据(在分类时采用多数投票,在回归时采用平均)。
阅读全文
摘要:六、分类树 VS 回归树 提到决策树算法,很多想到的就是上面提到的ID3、C4.5、CART分类决策树。其实决策树分为分类树和回归树,前者用于分类,如晴天/阴天/雨天、用户性别、邮件是否是垃圾邮件,后者用于预测实数值,如明天的温度、用户的年龄等。 作为对比,先说分类树,我们知道ID3、C4.5分类树
阅读全文
摘要:泰勒展开2介,求f'(x)=0的值 牛顿法,是已经知道f(x),f’(x),f”(x)三个值,就可以用二次抛物线去拟合,取得下次的最小值,就是二次抛物线的最小值 改进的牛顿法:如果搜索方向和负梯度方向的夹角岛屿90,就用梯度公式代替牛顿 BFGS是对Hessen矩阵逆的一个近似 B0=I,sk是两个
阅读全文
摘要:首先是DATA类 SVM类: 用线性核函数实现的SVM的到的分类结果 画图,是用python代码 用高斯核,当C=6,sigma=1时候 高斯核,当c=0.5,sigma=1时候 当C=0.5,sigma=12时候 说明C的大小和sigma的大小对高斯核影响是很大的 sigma是高斯核函数的参数
阅读全文
摘要:解释SMO算法比较好的文档 http://wenku.baidu.com/view/aeba21be960590c69ec3769e.html 参考博客: http://myjuno.blogbus.com/logs/242581064.html SMO算法 http://cs229.stanfor
阅读全文
摘要:blockDim.x*gridDim.x 跳过一个grid int <<<参数1,参数2>>>(int *a,int * b,int * c); 如果是一维的,参数1表示一个grid里面有多少个block块,参数2表示一个block块里面有多少个thread线程 namespace caffe {
阅读全文
摘要:w权值的初始化,之前最好的方法是 也就是输入神经元和输出神经元中随机一个数,然后除以输入神经元的个数开根号 因为全连接层波动较大,所以加在FC后面 这里Y,b是为了对信息的一个还原
阅读全文
摘要:Reference: https://blog.csdn.net/u013385925/article/details/80385873 之前实习的时候一直见公司里面的人说什么AUC, 实际AUC就是ROC曲线的面积 2针对一个二分类问题,将实例分成正类(postive)或者负类(negative)
阅读全文
摘要:GBDT算法推导过程 m次迭代,n个类别,那么就意味着学习了m*n棵回归树 train过程:假设有8个训练样本,3个类别 步骤一、假设所有样本的F矩阵,F矩阵是8*3的,F矩阵刚开始全为0,而实际每个样本都有一个属于的类别y,y能组成一个实际的矩阵也是8*3的 步骤二、决策树是不断学习残差的过程,这
阅读全文
摘要:没有正则化项的时候的二分类 加上正则化后的损失函数和公式(不想再写代码了,意会就可以了 ,逃。。。。
阅读全文
摘要:RF随着树的增加不会过拟合 GBDT随着树的增加会过拟合 RF还会对特征进行random,例如特征的个数m=sqrt(原特征个数) RF的每个树都是随机选择m个样本(有放回的)和n个特征来进行构建
阅读全文
摘要:牛顿法推导 牛顿法相当于已知一点的函数值,一介函数值,二阶函数值,可以拟合出一个二次方程的曲线,然后二次方程的最低点也就是下一次更新的x值 但是会面对二阶导非正定的情况,加上hessen矩阵求非常麻烦,所以就有了拟牛顿BFGS B0的初始值,工程上不是I,取为yk/sk,也就是近似的二阶导
阅读全文
摘要:利用学习曲线判断是否过拟合和欠拟合 过拟合和欠拟合的处理: 其实不全啊,不想补了 过拟合原因: 1、数据N太小 2、噪声数据 3、模型过于复杂 过拟合:1)找更多的数据来学习,2)增大正则化系数 3)减少特征的个数(不太推荐) 欠拟合:1)找更多的特征 2)减少正则化系数
阅读全文
摘要:L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) L1稀疏,L2平滑作用 L1的稀疏化性质去掉无关特征,只留下相关特征 L2如果特征有些是共线性的,L1会扔掉这些特征,导致模型误差较大 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数
阅读全文

浙公网安备 33010602011771号