机器学习 - 随笔分类(第2页) - tan_2810

python平台下实现xgboost算法及输出的解释

摘要：python平台下实现xgboost算法及输出的解释 1. 问题描述近来, 在python环境下使用xgboost算法作若干的机器学习任务, 在这个过程中也使用了其内置的函数来可视化树的结果, 但对leaf value的值一知半解; 同时, 也遇到过使用xgboost 内置的predict 对阅读全文

posted @ 2019-06-11 15:31 tan_2810 阅读(1475) 评论(0) 推荐(0)

XGBoost算法原理小结

摘要：在两年半之前作过梯度提升树(GBDT)原理小结，但是对GBDT的算法库XGBoost没有单独拿出来分析。虽然XGBoost是GBDT的一种高效实现，但是里面也加入了很多独有的思路和方法，值得单独讲一讲。因此讨论的时候，我会重点分析和GBDT不同的地方。本文主要参考了XGBoost的论文和陈天奇的P 阅读全文

posted @ 2019-06-11 15:28 tan_2810 阅读(217) 评论(0) 推荐(0)

scikit-learn决策树算法类库使用小结

摘要：对决策树的算法原理做了总结，包括决策树算法原理(上)和决策树算法原理(下)。今天就从实践的角度来介绍决策树算法，主要是讲解使用scikit-learn来跑决策树算法，结果的可视化以及一些参数调参的关键点。 1. scikit-learn决策树算法类库介绍 scikit-learn决策树算法类库内部实阅读全文

posted @ 2019-06-11 15:26 tan_2810 阅读(269) 评论(0) 推荐(0)

基于Python的信用评分卡模型分析（二）

摘要：上一篇文章基于Python的信用评分卡模型分析（一）已经介绍了信用评分卡模型的数据预处理、探索性数据分析、变量分箱和变量选择等。接下来我们将继续讨论信用评分卡的模型实现和分析，信用评分的方法和自动评分系统。六、模型分析证据权重（Weight of Evidence,WOE）转换可以将Logist 阅读全文

posted @ 2019-04-17 11:17 tan_2810 阅读(1099) 评论(0) 推荐(0)

基于Python的信用评分卡模型分析（一）

摘要：信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成，其中主体评级模型可用“四张卡”来表示，分别是A卡、B卡、C卡和F卡；债项评级模型通常按照主体的融资用途，分为企业融资模型、现金流融资模型和项目融资模型等。我们主要讨论主体评级模型的开发过程。一、项目流程阅读全文

posted @ 2019-04-17 11:16 tan_2810 阅读(1693) 评论(0) 推荐(0)

FICO（费埃哲）评分系统有什么优缺点？在国内的发展怎么样？

摘要：权威回答： FICO的优点很明显：在美国数据库较全面。一般存储有最近7-10年的个人信用记录，包括银行信用、商业信用甚至保险等。客观性。计算机自动完成评估工作，克服人为操作的失误。快捷性。出结果很快 FICO的缺点，尤其是拿到中国使用的缺点更加明显：存储数据的缺失或者错误。在中国想做点定量研阅读全文

posted @ 2019-04-03 17:54 tan_2810 阅读(1679) 评论(0) 推荐(0)

信用评分如何应用在风控策略中（二）

摘要：上一期主要说了ABC三卡的功能和作用，并没有具体阐述信用评分的实际应用过程，这次就这个问题，进行了搜索并思考，归结如下：风险策略是什么，风险策略是由很对信审风控规则所组成的一个用以实现金融机构风险控制目标的一个规则集合这个图，大概就一般审批风险政策的整个决策流（这个描述其实不是很精准，在审批授信阅读全文

posted @ 2019-04-03 17:53 tan_2810 阅读(213) 评论(0) 推荐(0)

多重共性和VIF检验

摘要：图片来源https://wenku.baidu.com/view/7008df8383d049649b66581a.html 和 https://wenku.baidu.com/view/6acdf95e52ea551811a68721.html 阅读全文

posted @ 2019-04-02 19:02 tan_2810 阅读(1003) 评论(0) 推荐(0)

sklearn中的交叉验证（Cross-Validation）

摘要：这个repo 用来记录一些python技巧、书籍、学习链接等，欢迎stargithub地址sklearn是利用python进行机器学习中一个非常全面和好用的第三方库，用过的都说好。今天主要记录一下sklearn中关于交叉验证的各种用法，主要是对sklearn官方文档 Cross-validation 阅读全文

posted @ 2019-03-25 18:35 tan_2810 阅读(500) 评论(0) 推荐(0)

scikit-learn 0.18中的cross_validation模块被移除

摘要：环境：scikit-learn 0.18 , python3 报出如下警告： from sklearn.grid_search import GridSearchCV /usr/lib/python3.4/site-packages/sklearn/cross_validation.py:44: D 阅读全文

posted @ 2019-03-25 18:31 tan_2810 阅读(1113) 评论(0) 推荐(0)

python logging模块

摘要：原文：http://www.cnblogs.com/dahu-daqing/p/7040764.html 1 logging模块简介 logging模块是Python内置的标准模块，主要用于输出运行日志，可以设置输出日志的等级、日志保存路径、日志文件回滚等；相比print，具备如下优点： 2 log 阅读全文

posted @ 2019-03-25 16:57 tan_2810 阅读(167) 评论(0) 推荐(0)

随机森林参数理解与调优

摘要：首先理解随机森林模型各参数的含义： class sklearn.ensemble.RandomForestRegressor(n_estimators=10, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf 阅读全文

posted @ 2019-03-25 16:54 tan_2810 阅读(1507) 评论(0) 推荐(0)

评分卡系列（一）：讲讲评分系统的构建

摘要：我想通过几篇文章，给评分卡的全流程一个中等粒度的介绍。另外我的本职工作不是消费金融的数据分析，所以本系列的文章会偏技术一些。数据分析工具主要有Python3及pandas、sklearn等科学计算包，另外也会有自己的工具包reportgen。信用记录数据采用Lending Club的公开数据，特阅读全文

posted @ 2019-03-25 16:31 tan_2810 阅读(1292) 评论(0) 推荐(0)

互联网金融风控模型大全

摘要：一、市场调研目前市面主流的风控模型1、互联网金融前10名排行榜(数据截止日期2017-09-12)互联网金融公司排名分别是蚂蚁金服、陆金所、京东金融、苏宁金融、百度金融、腾讯理财通、宜信、钱大掌柜、万达金融和网易理财。1.1 蚂蚁金服1.1.1 大数据技术对接第三方征信公司芝麻信用分，通过用户信用阅读全文

posted @ 2019-03-25 16:24 tan_2810 阅读(691) 评论(0) 推荐(0)

用PMML实现机器学习模型的跨平台上线

摘要：在机器学习用于产品的时候，我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型，但是有时候其他的产品和项目想把这个模型集成进去，但是这些产品很多只支持某些特定的生产环境比如Java，为了上一个机器学习模型去大动干戈修改环境配置很不划算，此时我们就可以考虑用预测模型标阅读全文

posted @ 2019-03-25 16:22 tan_2810 阅读(231) 评论(0) 推荐(0)

随笔分类 - 机器学习