博客:https://www.cnblogs.com/enhaofrank/,公众号:生信AI区块链科技前沿,github:https://github.com/enhaofrank

功不唐捐 玉汝于成

随笔分类 -  数据挖掘

分享一些关于数据挖掘、数据分析的内容
非常全面详细的Sklearn介绍
摘要:参考文章: 1、非常全面详细的Sklearn介绍 (qq.com) 阅读全文

posted @ 2022-05-20 08:57 enhaofrank 阅读(268) 评论(0) 推荐(0)

消费金融场景下的用户购买预测【冠军方案】分享
摘要:消费金融场景下的用户购买预测【冠军方案】分享 (qq.com) 特征选择wrapper: 【067】特征工程之 Wrapper 法_小麦粒的博客-CSDN博客 https://github.com/sunwantong/China-Merchants-Bank-credit-card-Cente-U 阅读全文

posted @ 2022-04-26 10:19 enhaofrank 阅读(112) 评论(0) 推荐(0)

车辆贷款违约预测 Top1(2021科大讯飞)
摘要:参考资料: 1、xunfei2021_car_loan_top1/user_data at main · WangliLin/xunfei2021_car_loan_top1 (github.com) 2、车辆贷款违约预测 Top1(2021科大讯飞) (qq.com) 3、2021科大讯飞-车辆贷 阅读全文

posted @ 2022-04-19 09:46 enhaofrank 阅读(318) 评论(0) 推荐(0)

类别不均衡问题与损失函数loss
摘要:1、样本不均衡问题 主要分为以下几类:1)每个类别的样本数量不均衡2)划分样本所属类别的难易程度不同 2、Focal loss focal loss用来解决难易样本数量不均衡,重点让模型更多关注难分样本,少关注易分样本。假设正样本(label=1)少,负样本多,定义focal loss如下 Loss 阅读全文

posted @ 2022-04-15 09:05 enhaofrank 阅读(1319) 评论(0) 推荐(0)

机器学习之分类模型
摘要:这次博客准备写一系列有关机器学习的分类模型,大家都知道分类模型有很多,有KNN,SVM,逻辑回归,决策树,随机森林,朴素贝叶斯等。 下面一一介绍这些算法的思想以及优缺点: KNN(K近邻法) K-近邻是一种分类算法,其思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数 阅读全文

posted @ 2021-12-26 19:43 enhaofrank 阅读(4163) 评论(0) 推荐(0)

分类模型之K-近邻算法
摘要:首先,K-近邻算法(KNN)主要用于分类问题,是采用测量不同特征值之间的距离方法进行分类。 原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算 阅读全文

posted @ 2021-12-26 16:13 enhaofrank 阅读(234) 评论(0) 推荐(0)

大数据与MapReduce
摘要:实际生活中的数据量是非常庞大的,采用单机运行的方式可能需要若干天才能出结果,这显然不符合我们的预期,为了尽快的获得结果,我们将采用分布式的方式,将计算分布到不同的机器上。Mapreduce就是一个典型的分布式框架,Hadoop则是用java编写的一个Mapreduce实现。 分布式和并行的区别在于分 阅读全文

posted @ 2021-12-25 08:56 enhaofrank 阅读(170) 评论(0) 推荐(0)

交叉验证
摘要:from sklearn.model_selection import cross_val_score clf = svm.SVC(kernel='linear',C=1) scores = cross_val_score(clf,X,y,cv=5) #confusion matrix from s 阅读全文

posted @ 2021-12-24 17:33 enhaofrank 阅读(52) 评论(0) 推荐(0)

回归模型
摘要:回归模型可以用来预测人的生理年龄,之前在上一家公司的时候,有些同事就是做了这方面的一些工作。当然,回归模型还可以干很多事,例如预测二手车的价格,预测汽车销量等等。 回归模型研究的是因变量和自变量之间的关系。常见的回归方法有: 1、线性回归 2、逻辑回归 3、岭回归 4、套索回归 5、弹性网络回归 回 阅读全文

posted @ 2021-12-24 17:08 enhaofrank 阅读(633) 评论(0) 推荐(0)

数据挖掘模型总结
摘要:对于机器学习问题来说,或许找到一个正确的模型是相当重要的,不同的模型对于数据集的大小以及解决的问题都不一样,sklearn官网有一张图可以清晰的告诉我们,如何选择一个适合的模型: 参考资料: 1、https://scikit-learn.org/stable/tutorial/machine_lea 阅读全文

posted @ 2021-12-23 20:36 enhaofrank 阅读(138) 评论(0) 推荐(0)

机器学习算法——降维
摘要:降维是机器学习中很重要的一种思想。在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为“ 维度灾难 ”。另外在高维特征中容易出现特征之间的线性相关,这也就意味着有的特征是冗余存在的。基于这些问题,降维思想就 阅读全文

posted @ 2021-12-23 20:35 enhaofrank 阅读(697) 评论(0) 推荐(0)

欠采样和过采样
摘要:什么是样本不平衡 对于二分类问题,如果两个类别的样本数目差距很大,那么训练模型的时候会出现很严重的问题。举个简单的例子,猫狗图片分类,其中猫有990张,狗有10张,这时候模型只需要把所有输入样本都预测成猫就可以获得99%的识别率,但这样的分类器没有任何价值,它无法预测出狗。 类别不平衡(class- 阅读全文

posted @ 2021-12-23 14:32 enhaofrank 阅读(7966) 评论(0) 推荐(0)

机器学习算法优缺点总结
摘要:以下四篇文章从不同的角度总结了大多数机器学习算法的优缺点,值得一看! 参考资料 1、https://mp.weixin.qq.com/s/oEWg08sGsrrhYFNI8bdWBg 2、https://mp.weixin.qq.com/s/9_wnblNwOA23dM4Cz8QM9w 3、http 阅读全文

posted @ 2021-12-22 20:41 enhaofrank 阅读(206) 评论(0) 推荐(0)

机器学习4个常用超参数调试方法!
摘要:传统的手工调参 网格搜索 随机搜索 贝叶斯搜索 参考文献: 1、https://mp.weixin.qq.com/s/V3HzYBlOsMo3C_Hf4r2OqA 2、https://www.jianshu.com/p/5378ef009cae 3、https://www.cnblogs.com/w 阅读全文

posted @ 2021-12-22 20:32 enhaofrank 阅读(179) 评论(0) 推荐(0)

adaboost
摘要:前面介绍了几种不同的分类算法,它们各有优缺点,我们可以将不同的分类器组合起来,这种组合的结果被称为集成方法(ensemble method)或者元算法(meta-algorithm)。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不 阅读全文

posted @ 2021-12-22 15:03 enhaofrank 阅读(360) 评论(0) 推荐(0)

集成学习算法
摘要:Bagging是并行的学习算法,思想很简单,即每一次从原始数据中根据均匀概率分布有放回的抽取和原始数据集一样大小的数据集合。样本点可以出现重复,然后对每一次产生的数据集构造一个分类器,再对分类器进行组合。 Boosting的每一次抽样的样本分布是不一样的,每一次迭代,都是根据上一次迭代的结果,增加被 阅读全文

posted @ 2021-12-22 15:02 enhaofrank 阅读(180) 评论(0) 推荐(0)

聚类算法之DBSCAN
摘要:DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点 阅读全文

posted @ 2021-12-21 21:22 enhaofrank 阅读(1578) 评论(0) 推荐(0)

上市公司财务造假分析和财务困境预测分析
摘要:参考资料: 1、回归五式第二式:0-1回归——上市公司ST状态预测和分析(内含报告和Python代码) - 知乎 (zhihu.com) 2、上市公司财务造假预测模型研究 3、财务困境预测模型 - MBA智库百科 (mbalib.com) 4、特别推荐:上市公司盈、亏预测模型分析_网易财经频道 (1 阅读全文

posted @ 2021-12-21 10:17 enhaofrank 阅读(275) 评论(0) 推荐(0)

学习kafka的内容总结
摘要:kafka的基本介绍: Kafka 是linkedin 公司用于日志处理的分布式消息队列,同时支持离线和在线日志处理。kafka 对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka 集群有多个kafka 实例组成,每个实例(server 阅读全文

posted @ 2021-01-15 11:30 enhaofrank 阅读(129) 评论(0) 推荐(0)

风控模型---贷后催收模型
摘要:做过风控模型或者有过这方面基础的同学们应该都知道评分卡其实也分很多种,按照时间线来划分的有: 申请评分卡—> 欺诈评分卡—> 行为评分卡—> 市场评分卡—> 催收评分卡(又分为失联模型、还款率模型、是否还款模型、迁徙率模型) 本文主要介绍的是催收评分卡: 一、目标变量定义: 衡量还款能力客户为正负样 阅读全文

posted @ 2020-06-03 16:18 enhaofrank 阅读(4396) 评论(0) 推荐(0)

导航