随笔分类 -  机器学习

不平衡分类学习方法 --Imbalaced_learn
摘要:最近在进行一个产品推荐课题时,由于产品的特性导致正负样本严重失衡,远远大于3:1的比例(个人认为3:1是建模时正负样本的一个临界点),这样的样本不适合直接用来建模,例如正负样本的比例达到了50:1,就算算法全部预测为另一样本,准确率也会达到51/50=98%.具有很大的局限性. 处理不平衡样本的方法 阅读全文

posted @ 2018-05-21 19:30 波比12 阅读(3265) 评论(0) 推荐(0)

sklearn中的metrics模块中的Classification metrics
摘要:metrics是sklearn用来做模型评估的重要模块,提供了各种评估度量,现在自己整理如下: 一.通用的用法:Common cases: predefined values 1.1 sklearn官网上给出的指标如下图所示: 1.2除了上图中的度量指标以外,你还可以自定义一些度量指标:通过skle 阅读全文

posted @ 2018-04-17 19:29 波比12 阅读(4833) 评论(0) 推荐(0)

sklearn中的model_selection模块(1)
摘要:sklearn作为Python的强大机器学习包,model_selection模块是其重要的一个模块: 1.model_selection.cross_validation: (1)分数,和交叉验证分数 众所周知,每一个模型会得出一个score方法用于裁决模型在新的数据上拟合的质量。其值越大越好。 阅读全文

posted @ 2018-04-10 21:19 波比12 阅读(2827) 评论(0) 推荐(0)

Keras学习笔记1--基本入门
摘要:""" 1、30s上手keras """ #keras的核心数据结构是“模型”,模型是一种组织网络层的方式,keras 的主要模型是Sequential模型,Sequential是一系列网络层按顺序构成的栈 from keras.models import Sequential model=Sequential() ###将一些网络层通过.add()叠加起来,就构成了一个模型 from kera... 阅读全文

posted @ 2017-11-20 13:48 波比12 阅读(1493) 评论(0) 推荐(0)

Sklearn库例子——决策树分类
摘要:Sklearn上关于决策树算法使用的介绍:http://scikit-learn.org/stable/modules/tree.html 1、关于决策树:决策树是一个非参数的监督式学习方法,主要用于分类和回归。算法的目标是通过推断数据特征,学习决策规则从而创建一个预测目标变量的模型。如下如所示,决 阅读全文

posted @ 2016-12-08 12:55 波比12 阅读(7249) 评论(0) 推荐(0)

大神写的东西
摘要:大神准备面试整理的一些资料,里面有很多算法以及面试问题 http://download.csdn.NET/detail/bryan__/9640531 大量算法题参考资料 http://blog.csdn.Net/v_july_v/article/details/6543438 http://blo 阅读全文

posted @ 2016-12-01 11:11 波比12 阅读(323) 评论(0) 推荐(0)

【转载】编辑距离及编辑距离算法
摘要:转载在:http://www.cnblogs.com/biyeymyhjob/archive/2012/09/28/2707343.html 编辑距离概念描述: 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一 阅读全文

posted @ 2016-11-28 13:09 波比12 阅读(397) 评论(0) 推荐(0)

单因素特征选择--Univariate Feature Selection
摘要:An example showing univariate feature selection. Noisy (non informative) features are added to the iris data and univariate feature selection(单因素特征选择) 阅读全文

posted @ 2016-11-24 16:57 波比12 阅读(1463) 评论(0) 推荐(1)

Sklearn库例子4:分类——Lasso分类例子
摘要:Lasso回归: 输出: 阅读全文

posted @ 2016-09-06 14:11 波比12 阅读(8279) 评论(1) 推荐(0)

Sklearn库例子3:分类——岭回归分类(Ridge Regression )例子
摘要:为了解决数据的特征比样本点还多的情况,统计学家引入了岭回归。 岭回归通过施加一个惩罚系数的大小解决了一些普通最小二乘的问题。回归系数最大限度地减少了一个惩罚的误差平方和。 这里是一个复杂的参数,用来控制收缩量,其值越大,就有更大的收缩量,从而成为更强大的线性系数。 Ridge和Line_Model一 阅读全文

posted @ 2016-09-05 13:54 波比12 阅读(7900) 评论(0) 推荐(0)

Sklearn库例子2:分类——线性回归分类(Line Regression )例子
摘要:线性回归:通过拟合线性模型的回归系数W =(w_1,…,w_p)来减少数据中观察到的结果和实际结果之间的残差平方和,并通过线性逼近进行预测。 从数学上讲,它解决了下面这个形式的问题: LinearRegression()模型在Sklearn.linear_model下,他主要是通过fit(x,y)的 阅读全文

posted @ 2016-09-02 14:22 波比12 阅读(11109) 评论(0) 推荐(0)

Sklearn库例子1:Sklearn库中AdaBoost和Decision Tree运行结果的比较
摘要:DisCrete Versus Real AdaBoost 关于Discrete 和Real AdaBoost 可以参考博客:http://www.cnblogs.com/jcchen1987/p/4581651.html 本例是Sklearn网站上的关于决策树桩、决策树、和分别使用AdaBoost 阅读全文

posted @ 2016-09-01 15:10 波比12 阅读(7270) 评论(1) 推荐(0)

[机器学习之13]降维技术——主成分分析PCA
摘要:始终贯彻数据分析的一个大问题就是对数据和结果的展示,我们都知道在低维度下数据处理比较方便,因而数据进行简化成为了一个重要的技术。对数据进行简化的原因: 1.使得数据集更易用使用。2、降低很多算法的计算开销。3、去除噪音、4.使得结果易懂 这里我们关心的数据降维技术为主成分分析(PCA)。在PCA中, 阅读全文

posted @ 2016-08-22 21:01 波比12 阅读(1656) 评论(0) 推荐(0)

导航