随笔分类 -  Python

Python相关学习介绍
摘要:scorecardpy的使用总结 常用函数及参数 Statsmodels中的Logit和Sklearn.linear_model的LogitsticRegression的对比 主要区别是前者建模的功能更大,可以有l1惩罚项,实现特征筛选;后者对建模结果的统计描述更方便,像模型的系数、P值等 阅读全文
posted @ 2019-02-17 20:39 mango_lee 阅读(904) 评论(0) 推荐(0)
摘要:matplotlib.pyplot as plt 该module是用来作图的,有两个大的对象,一个是figure,一个是subplot,前者是画布,后者是在画布上作的图,一个画布可以画多个图,实际作图时应用的对象是图,关于图的配置常用属性有: plt.plot()图形每运行一次相当于是在原有图形上加 阅读全文
posted @ 2018-11-09 18:51 mango_lee 阅读(299) 评论(0) 推荐(0)
摘要:爬虫的原理 先利用requests的get或者post从网页上获取请求,返回一个response对象,通过contents或text读取response文本内容形成html文档,然后利用beautifulsoup对html文档进行解析。 Reuqests库 requests支持两种网页获取方式,一种 阅读全文
posted @ 2018-10-22 11:29 mango_lee 阅读(200) 评论(0) 推荐(0)
摘要:format格式化字符串,将字符串以某种格式化形式输出,基本形式是"***{}***{}***".format(col1,col2)。其中format有两种指定形式,一种是按照index,一种是按照名称。 按照index进行赋值: 按照名称进行赋值: 另外是对数字按照某种格式显示 http://ww 阅读全文
posted @ 2018-10-15 21:33 mango_lee 阅读(285) 评论(0) 推荐(0)
摘要:random中随机数包括主要类型有: 生成随机数和随机选择,其中随机选择可以不单是数字也可以是文本等其他类型。 随机选择的接口是numpy.random.choice(a,size=None,replace=True,p=None),a为一维数组类似数据,如果是整数,对应的一维数组为np.arang 阅读全文
posted @ 2018-10-11 17:51 mango_lee 阅读(507) 评论(0) 推荐(0)
摘要:模型选择或者模型优劣判断的标准主要参考两个指标,一是模型精度,一是模型复杂度,两者通常情况是相互矛盾的,增加变量个数可以提升模型精度,但也会增加模型复杂度,使模型出现过拟合危险。我们的目标是在精度和复杂度之间找到平衡,通常以精度有第一考虑点,其次是复杂度。 评价模型精度的方法有: 评价模型复杂度的方 阅读全文
posted @ 2018-09-27 15:29 mango_lee 阅读(1085) 评论(0) 推荐(0)
摘要:Python class介绍:http://www.runoob.com/python/python-object.html 类(class):用来描述具有相同属性和方法的对象的集合。定义了该集合中每个对象所共有的属性和方法。对象是类的实例。类的好处之一是代码的重用。 类变量:类变量在整个实例化的对 阅读全文
posted @ 2018-09-26 16:56 mango_lee 阅读(144) 评论(0) 推荐(0)
摘要:在讲__init__函数前要理解python 包和模块的关系,包(package)是一个包含__init__文件的文件夹,模块(module)是一个.py的文件,一个package可以包含多个module。 如果没有__init__则那么文件夹仅仅是文件夹,并不是package,如果包含__init 阅读全文
posted @ 2018-09-26 09:55 mango_lee 阅读(206) 评论(0) 推荐(0)
摘要:目的:为了解决dataframe中批量操作,同时又避免使用低效率的循环迭代函数,出现了apply,applymap和map函数。 场景: 针对dataframe中每行或每列的操作,并且将行或列当作Series,应用的是apply函数 dataframe.apply(func,axis=0) 针对da 阅读全文
posted @ 2018-09-11 16:54 mango_lee 阅读(602) 评论(0) 推荐(0)
摘要:作用:crosstab和pivot_table都是做统计分析,类似于excel中的表格形式,通常分为行、列 参数:关键的参数有三个,分别是index,columns,values,其中index相当于是行,columns相当于列,values相当于要做统计的对象 函数:pandas.crosstab 阅读全文
posted @ 2018-08-22 10:21 mango_lee 阅读(826) 评论(0) 推荐(0)
摘要:value_counts(normalize=False,sort=True,ascending=False,bins=None,dropna=True) 作用:用来统计dataframe中某列有多少个不同的取值,并且每个取值出现的次数,类似SQL中的select score,count(*) as 阅读全文
posted @ 2018-08-16 18:30 mango_lee 阅读(950) 评论(0) 推荐(0)
摘要:作用:在对象中筛选出符合where条件的项 两种用法: 阅读全文
posted @ 2018-08-15 10:36 mango_lee 阅读(594) 评论(0) 推荐(0)
摘要:通过loc,iloc,ix可以实现dataframe的分块,做slice处理常用到,依据是行或列,行和列有两个属性,一个是标签,一个是号。 loc --行标签或列标签进行检索 iloc --行号或列号进行检索 ix --行标签或行号进行检索 他们统一的格式是dataframe.loc[['行标签1' 阅读全文
posted @ 2018-08-15 09:54 mango_lee 阅读(248) 评论(0) 推荐(0)
摘要:功能:split-apply-combine,是分割,应用(count,sum,mean,mean,median),再聚合的应用,类似于sql中的group by 分割:分为分割对象和分割条件,分割对象是需要去统计的值,类似于sql中的count(user_id);分割条件是分割的依据,依据可以有多 阅读全文
posted @ 2018-08-10 18:25 mango_lee 阅读(277) 评论(0) 推荐(0)
摘要:根据变量类型选取变量 用到的函数:dataframe.select_dtypes(include=None,exclude=None) 需要注意的是 选择所有数值型变量用np.number 选择字符型变量用object 阅读全文
posted @ 2018-08-09 18:10 mango_lee 阅读(839) 评论(0) 推荐(0)
摘要:感慨片,可以省略不看 Xgboost的安装为什么不可以像其他模块一样,另人很头大!在网上找了各种教程,安装各种软件,然后各种bug,各种error,坚持到快要放弃的时刻,一个简明的教程突然映入我的眼帘,抱着死马当做活马医的心态试了下,就试了下,然后就TM成功了,一分钟都不到!一分钟都不到!一分钟都不 阅读全文
posted @ 2018-08-03 17:54 mango_lee 阅读(1091) 评论(0) 推荐(0)
摘要:Python的三种基本数据类型,列表list,元祖tuple和字典dict 列表List:python最基础的数据类型,列表内的数据项不需要具有相同的类型,可以包含重复值。列表包括两个模块,元素及对应的索引,其中索引正值表示从头开始取,负值表示倒项取数。 操作:索引、切片、加、减、乘、检查成员 索引 阅读全文
posted @ 2018-05-09 18:07 mango_lee 阅读(166) 评论(0) 推荐(0)
摘要:Time.sleep(秒数):可以让程序休眠多少秒,爬虫时设置休眠的时间间隔,可以减少服务器的压力,避免被反爬虫。 阅读全文
posted @ 2017-07-06 17:56 mango_lee 阅读(101) 评论(0) 推荐(0)
摘要:当遇到解析出来的代码和html中显示的不同时,注意headers参数的设置 阅读全文
posted @ 2017-07-05 21:32 mango_lee 阅读(224) 评论(0) 推荐(0)
摘要:创建list 方式一: new_list=[function(item) for item in set],其中set表示可循环对象,function(item)表示item的函数 阅读全文
posted @ 2017-07-05 15:39 mango_lee 阅读(184) 评论(0) 推荐(0)