摘要: scorecardpy的使用总结 常用函数及参数 Statsmodels中的Logit和Sklearn.linear_model的LogitsticRegression的对比 主要区别是前者建模的功能更大,可以有l1惩罚项,实现特征筛选;后者对建模结果的统计描述更方便,像模型的系数、P值等 阅读全文
posted @ 2019-02-17 20:39 mango_lee 阅读(818) 评论(0) 推荐(0) 编辑
摘要: matplotlib.pyplot as plt 该module是用来作图的,有两个大的对象,一个是figure,一个是subplot,前者是画布,后者是在画布上作的图,一个画布可以画多个图,实际作图时应用的对象是图,关于图的配置常用属性有: plt.plot()图形每运行一次相当于是在原有图形上加 阅读全文
posted @ 2018-11-09 18:51 mango_lee 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 爬虫的原理 先利用requests的get或者post从网页上获取请求,返回一个response对象,通过contents或text读取response文本内容形成html文档,然后利用beautifulsoup对html文档进行解析。 Reuqests库 requests支持两种网页获取方式,一种 阅读全文
posted @ 2018-10-22 11:29 mango_lee 阅读(182) 评论(0) 推荐(0) 编辑
摘要: format格式化字符串,将字符串以某种格式化形式输出,基本形式是"***{}***{}***".format(col1,col2)。其中format有两种指定形式,一种是按照index,一种是按照名称。 按照index进行赋值: 按照名称进行赋值: 另外是对数字按照某种格式显示 http://ww 阅读全文
posted @ 2018-10-15 21:33 mango_lee 阅读(271) 评论(0) 推荐(0) 编辑
摘要: random中随机数包括主要类型有: 生成随机数和随机选择,其中随机选择可以不单是数字也可以是文本等其他类型。 随机选择的接口是numpy.random.choice(a,size=None,replace=True,p=None),a为一维数组类似数据,如果是整数,对应的一维数组为np.arang 阅读全文
posted @ 2018-10-11 17:51 mango_lee 阅读(496) 评论(0) 推荐(0) 编辑
摘要: 帖子:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/18/2595410.html 阅读全文
posted @ 2018-09-27 16:03 mango_lee 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 模型选择或者模型优劣判断的标准主要参考两个指标,一是模型精度,一是模型复杂度,两者通常情况是相互矛盾的,增加变量个数可以提升模型精度,但也会增加模型复杂度,使模型出现过拟合危险。我们的目标是在精度和复杂度之间找到平衡,通常以精度有第一考虑点,其次是复杂度。 评价模型精度的方法有: 评价模型复杂度的方 阅读全文
posted @ 2018-09-27 15:29 mango_lee 阅读(931) 评论(0) 推荐(0) 编辑
摘要: Python class介绍:http://www.runoob.com/python/python-object.html 类(class):用来描述具有相同属性和方法的对象的集合。定义了该集合中每个对象所共有的属性和方法。对象是类的实例。类的好处之一是代码的重用。 类变量:类变量在整个实例化的对 阅读全文
posted @ 2018-09-26 16:56 mango_lee 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 在讲__init__函数前要理解python 包和模块的关系,包(package)是一个包含__init__文件的文件夹,模块(module)是一个.py的文件,一个package可以包含多个module。 如果没有__init__则那么文件夹仅仅是文件夹,并不是package,如果包含__init 阅读全文
posted @ 2018-09-26 09:55 mango_lee 阅读(194) 评论(0) 推荐(0) 编辑
摘要: pandas取子集有两个操作,一个是view,一个是copy,见下图: 阅读全文
posted @ 2018-09-18 11:45 mango_lee 阅读(175) 评论(0) 推荐(0) 编辑