随笔分类 - 机器学习
使用机器学习来分析大数据
摘要:python的scope不包括块(block),namespace是变量逻辑上存在的地方
阅读全文
摘要:偏差-方差分解,数据集及其产生,混淆矩阵+F1;P-R+ROC曲线。
阅读全文
摘要:bagging(随机森林)和boosting(关注偏差,adaboost,xgboost,GBDT)
阅读全文
摘要:原型聚类:聚类结构能通过一组原型刻画。KMEANS+GMM.
基于密度的聚类:DBSCAN.
层次聚类:在不同层次上对数据集进行分类。从N到1。
阅读全文
摘要:决策树的生成过程,核心问题是属性如何选择,ID3的标准是最大化信息增益。ID4.5,最大化信息增益率。CART树是最小化基尼指数(衡量2个样本,其类别标记不一致的概率)。随机森林引入2个随机性(1.boostrap,样本随机,b.属性子集)
阅读全文
摘要:线性SVM=线性分类器+最大间隔
间隔的形式化描述
SVM通过最大化`M`来求解参数`W`和`b`的,目标函数如下
拉格朗日乘数法,
软间隔:加入容错量
非线性SVM:特征空间。
常用的核函数
阅读全文

浙公网安备 33010602011771号