随笔分类 -  数据挖掘

不平衡分类学习方法 --Imbalaced_learn
摘要:最近在进行一个产品推荐课题时,由于产品的特性导致正负样本严重失衡,远远大于3:1的比例(个人认为3:1是建模时正负样本的一个临界点),这样的样本不适合直接用来建模,例如正负样本的比例达到了50:1,就算算法全部预测为另一样本,准确率也会达到51/50=98%.具有很大的局限性. 处理不平衡样本的方法 阅读全文

posted @ 2018-05-21 19:30 波比12 阅读(3265) 评论(0) 推荐(0)

Sklearn库例子——决策树分类
摘要:Sklearn上关于决策树算法使用的介绍:http://scikit-learn.org/stable/modules/tree.html 1、关于决策树:决策树是一个非参数的监督式学习方法,主要用于分类和回归。算法的目标是通过推断数据特征,学习决策规则从而创建一个预测目标变量的模型。如下如所示,决 阅读全文

posted @ 2016-12-08 12:55 波比12 阅读(7249) 评论(0) 推荐(0)

大神写的东西
摘要:大神准备面试整理的一些资料,里面有很多算法以及面试问题 http://download.csdn.NET/detail/bryan__/9640531 大量算法题参考资料 http://blog.csdn.Net/v_july_v/article/details/6543438 http://blo 阅读全文

posted @ 2016-12-01 11:11 波比12 阅读(323) 评论(0) 推荐(0)

【转载】编辑距离及编辑距离算法
摘要:转载在:http://www.cnblogs.com/biyeymyhjob/archive/2012/09/28/2707343.html 编辑距离概念描述: 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一 阅读全文

posted @ 2016-11-28 13:09 波比12 阅读(397) 评论(0) 推荐(0)

单因素特征选择--Univariate Feature Selection
摘要:An example showing univariate feature selection. Noisy (non informative) features are added to the iris data and univariate feature selection(单因素特征选择) 阅读全文

posted @ 2016-11-24 16:57 波比12 阅读(1463) 评论(0) 推荐(1)

Python scikit-learn机器学习工具包学习笔记:feature_selection模块
摘要:sklearn.feature_selection模块的作用是feature selection,而不是feature extraction。 Univariate feature selection:单变量的特征选择 单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些 阅读全文

posted @ 2016-11-24 15:03 波比12 阅读(4030) 评论(0) 推荐(0)

简单移动平均线、加权移动平均线、指数平滑移动平均
摘要:移动平均线的种类 移动平均线可分为“算术移动平均线”、“加权移动平均线”、“指数平滑移动平均线”三种。 1.算术移动平均线(MA) 算术移动平均线是简单而普遍的移动平均线。平均线是指算术平均数,计算方法为一组数字相加,除以该组数据的组成个数。 以5天移动平均线为便,计算方法如下: MA=(C1+C2 阅读全文

posted @ 2016-11-17 16:42 波比12 阅读(10281) 评论(0) 推荐(0)

【转载】使用LFM(Latent factor model)隐语义模型进行Top-N推荐
摘要:最近在拜读项亮博士的《推荐系统实践》,系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结。 隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始 阅读全文

posted @ 2016-09-08 10:01 波比12 阅读(725) 评论(0) 推荐(0)

Sklearn库例子4:分类——Lasso分类例子
摘要:Lasso回归: 输出: 阅读全文

posted @ 2016-09-06 14:11 波比12 阅读(8279) 评论(1) 推荐(0)

Sklearn库例子3:分类——岭回归分类(Ridge Regression )例子
摘要:为了解决数据的特征比样本点还多的情况,统计学家引入了岭回归。 岭回归通过施加一个惩罚系数的大小解决了一些普通最小二乘的问题。回归系数最大限度地减少了一个惩罚的误差平方和。 这里是一个复杂的参数,用来控制收缩量,其值越大,就有更大的收缩量,从而成为更强大的线性系数。 Ridge和Line_Model一 阅读全文

posted @ 2016-09-05 13:54 波比12 阅读(7900) 评论(0) 推荐(0)

Sklearn库例子2:分类——线性回归分类(Line Regression )例子
摘要:线性回归:通过拟合线性模型的回归系数W =(w_1,…,w_p)来减少数据中观察到的结果和实际结果之间的残差平方和,并通过线性逼近进行预测。 从数学上讲,它解决了下面这个形式的问题: LinearRegression()模型在Sklearn.linear_model下,他主要是通过fit(x,y)的 阅读全文

posted @ 2016-09-02 14:22 波比12 阅读(11109) 评论(0) 推荐(0)

Sklearn库例子1:Sklearn库中AdaBoost和Decision Tree运行结果的比较
摘要:DisCrete Versus Real AdaBoost 关于Discrete 和Real AdaBoost 可以参考博客:http://www.cnblogs.com/jcchen1987/p/4581651.html 本例是Sklearn网站上的关于决策树桩、决策树、和分别使用AdaBoost 阅读全文

posted @ 2016-09-01 15:10 波比12 阅读(7269) 评论(1) 推荐(0)

利用KMeans聚类进行航空公司客户价值分析
摘要:准确的客户分类的结果是企业优化营销资源的重要依据,本文利用了航空公司的部分数据,利用Kmeans聚类方法,对航空公司的客户进行了分类,来识别出不同的客户群体,从来发现有用的客户,从而对不同价值的客户类别提供个性化服务,指定相应的营销策略。 一、分析方法和过程 1.数据抽取——>2.数据探索与预处理— 阅读全文

posted @ 2016-07-21 15:29 波比12 阅读(13276) 评论(0) 推荐(1)

导航