随笔分类 -  机器学习

使用机器学习来分析大数据
摘要:python的scope不包括块(block),namespace是变量逻辑上存在的地方 阅读全文
posted @ 2020-05-21 14:07 justisme 阅读(390) 评论(0) 推荐(0)
摘要:偏差-方差分解,数据集及其产生,混淆矩阵+F1;P-R+ROC曲线。 阅读全文
posted @ 2020-05-06 15:06 justisme 阅读(143) 评论(0) 推荐(0)
摘要:bagging(随机森林)和boosting(关注偏差,adaboost,xgboost,GBDT) 阅读全文
posted @ 2020-05-06 11:30 justisme 阅读(160) 评论(0) 推荐(0)
摘要:原型聚类:聚类结构能通过一组原型刻画。KMEANS+GMM. 基于密度的聚类:DBSCAN. 层次聚类:在不同层次上对数据集进行分类。从N到1。 阅读全文
posted @ 2020-05-06 08:41 justisme 阅读(935) 评论(0) 推荐(0)
摘要:决策树的生成过程,核心问题是属性如何选择,ID3的标准是最大化信息增益。ID4.5,最大化信息增益率。CART树是最小化基尼指数(衡量2个样本,其类别标记不一致的概率)。随机森林引入2个随机性(1.boostrap,样本随机,b.属性子集) 阅读全文
posted @ 2020-05-05 23:06 justisme 阅读(328) 评论(0) 推荐(0)
摘要:线性SVM=线性分类器+最大间隔 间隔的形式化描述 SVM通过最大化`M`来求解参数`W`和`b`的,目标函数如下 拉格朗日乘数法, 软间隔:加入容错量 非线性SVM:特征空间。 常用的核函数 阅读全文
posted @ 2020-04-28 00:39 justisme 阅读(293) 评论(0) 推荐(0)