Python - 随笔分类 - mango_lee

机器学习

摘要：scorecardpy的使用总结常用函数及参数 Statsmodels中的Logit和Sklearn.linear_model的LogitsticRegression的对比主要区别是前者建模的功能更大，可以有l1惩罚项，实现特征筛选；后者对建模结果的统计描述更方便，像模型的系数、P值等阅读全文

posted @ 2019-02-17 20:39 mango_lee 阅读(904) 评论(0) 推荐(0)

Python使用

摘要：matplotlib.pyplot as plt 该module是用来作图的，有两个大的对象，一个是figure，一个是subplot，前者是画布，后者是在画布上作的图，一个画布可以画多个图，实际作图时应用的对象是图，关于图的配置常用属性有： plt.plot()图形每运行一次相当于是在原有图形上加阅读全文

posted @ 2018-11-09 18:51 mango_lee 阅读(299) 评论(0) 推荐(0)

爬虫

摘要：爬虫的原理先利用requests的get或者post从网页上获取请求，返回一个response对象，通过contents或text读取response文本内容形成html文档，然后利用beautifulsoup对html文档进行解析。 Reuqests库 requests支持两种网页获取方式，一种阅读全文

posted @ 2018-10-22 11:29 mango_lee 阅读(200) 评论(0) 推荐(0)

python 字符format格式化应用

摘要：format格式化字符串，将字符串以某种格式化形式输出，基本形式是"***{}***{}***".format(col1,col2)。其中format有两种指定形式，一种是按照index，一种是按照名称。按照index进行赋值：按照名称进行赋值：另外是对数字按照某种格式显示 http://ww 阅读全文

posted @ 2018-10-15 21:33 mango_lee 阅读(285) 评论(0) 推荐(0)

numpy random中随机数

摘要：random中随机数包括主要类型有：生成随机数和随机选择，其中随机选择可以不单是数字也可以是文本等其他类型。随机选择的接口是numpy.random.choice(a,size=None,replace=True,p=None)，a为一维数组类似数据，如果是整数，对应的一维数组为np.arang 阅读全文

posted @ 2018-10-11 17:51 mango_lee 阅读(507) 评论(0) 推荐(0)

模型选择准则

摘要：模型选择或者模型优劣判断的标准主要参考两个指标，一是模型精度，一是模型复杂度，两者通常情况是相互矛盾的，增加变量个数可以提升模型精度，但也会增加模型复杂度，使模型出现过拟合危险。我们的目标是在精度和复杂度之间找到平衡，通常以精度有第一考虑点，其次是复杂度。评价模型精度的方法有：评价模型复杂度的方阅读全文

posted @ 2018-09-27 15:29 mango_lee 阅读(1085) 评论(0) 推荐(0)

Python Class

摘要：Python class介绍：http://www.runoob.com/python/python-object.html 类（class）：用来描述具有相同属性和方法的对象的集合。定义了该集合中每个对象所共有的属性和方法。对象是类的实例。类的好处之一是代码的重用。类变量：类变量在整个实例化的对阅读全文

posted @ 2018-09-26 16:56 mango_lee 阅读(144) 评论(0) 推荐(0)

python __init__函数

摘要：在讲__init__函数前要理解python 包和模块的关系，包(package)是一个包含__init__文件的文件夹，模块(module)是一个.py的文件，一个package可以包含多个module。如果没有__init__则那么文件夹仅仅是文件夹，并不是package，如果包含__init 阅读全文

posted @ 2018-09-26 09:55 mango_lee 阅读(206) 评论(0) 推荐(0)

python dataframe apply，applymap，map，aggregate函数的区别和联系

摘要：目的：为了解决dataframe中批量操作，同时又避免使用低效率的循环迭代函数，出现了apply,applymap和map函数。场景：针对dataframe中每行或每列的操作，并且将行或列当作Series，应用的是apply函数 dataframe.apply(func,axis=0) 针对da 阅读全文

posted @ 2018-09-11 16:54 mango_lee 阅读(602) 评论(0) 推荐(0)

python crosstab和pivot_table

摘要：作用：crosstab和pivot_table都是做统计分析，类似于excel中的表格形式，通常分为行、列参数：关键的参数有三个，分别是index,columns,values,其中index相当于是行，columns相当于列，values相当于要做统计的对象函数：pandas.crosstab 阅读全文

posted @ 2018-08-22 10:21 mango_lee 阅读(826) 评论(0) 推荐(0)

python value_counts

摘要：value_counts(normalize=False,sort=True,ascending=False,bins=None,dropna=True) 作用：用来统计dataframe中某列有多少个不同的取值，并且每个取值出现的次数，类似SQL中的select score,count(*) as 阅读全文

posted @ 2018-08-16 18:30 mango_lee 阅读(950) 评论(0) 推荐(0)

python numpy where函数

摘要：作用：在对象中筛选出符合where条件的项两种用法：阅读全文

posted @ 2018-08-15 10:36 mango_lee 阅读(594) 评论(0) 推荐(0)

python loc iloc ix的区别和联系

摘要：通过loc,iloc,ix可以实现dataframe的分块，做slice处理常用到，依据是行或列，行和列有两个属性，一个是标签，一个是号。 loc --行标签或列标签进行检索 iloc --行号或列号进行检索 ix --行标签或行号进行检索他们统一的格式是dataframe.loc[['行标签1' 阅读全文

posted @ 2018-08-15 09:54 mango_lee 阅读(248) 评论(0) 推荐(0)

python dataframe groupby

摘要：功能：split-apply-combine，是分割，应用(count，sum，mean，mean，median)，再聚合的应用，类似于sql中的group by 分割：分为分割对象和分割条件，分割对象是需要去统计的值，类似于sql中的count(user_id)；分割条件是分割的依据，依据可以有多阅读全文

posted @ 2018-08-10 18:25 mango_lee 阅读(277) 评论(0) 推荐(0)

python dataframe根据变量类型选取变量

摘要：根据变量类型选取变量用到的函数：dataframe.select_dtypes(include=None,exclude=None) 需要注意的是选择所有数值型变量用np.number 选择字符型变量用object 阅读全文

posted @ 2018-08-09 18:10 mango_lee 阅读(839) 评论(0) 推荐(0)

史上最简单的Xgboost安装教程 for Python3.7 on Win10！亲测有效！

摘要：感慨片，可以省略不看 Xgboost的安装为什么不可以像其他模块一样，另人很头大！在网上找了各种教程，安装各种软件，然后各种bug，各种error，坚持到快要放弃的时刻，一个简明的教程突然映入我的眼帘，抱着死马当做活马医的心态试了下，就试了下，然后就TM成功了，一分钟都不到！一分钟都不到！一分钟都不阅读全文

posted @ 2018-08-03 17:54 mango_lee 阅读(1091) 评论(0) 推荐(0)

Python三种基础数据类型:列表list，元祖tuple和字典dict

摘要：Python的三种基本数据类型，列表list，元祖tuple和字典dict 列表List：python最基础的数据类型，列表内的数据项不需要具有相同的类型，可以包含重复值。列表包括两个模块，元素及对应的索引，其中索引正值表示从头开始取，负值表示倒项取数。操作：索引、切片、加、减、乘、检查成员索引阅读全文

posted @ 2018-05-09 18:07 mango_lee 阅读(166) 评论(0) 推荐(0)

Time 模块

摘要：Time.sleep(秒数)：可以让程序休眠多少秒，爬虫时设置休眠的时间间隔，可以减少服务器的压力，避免被反爬虫。阅读全文

posted @ 2017-07-06 17:56 mango_lee 阅读(101) 评论(0) 推荐(0)

Requests Get Headers

摘要：当遇到解析出来的代码和html中显示的不同时，注意headers参数的设置阅读全文

posted @ 2017-07-05 21:32 mango_lee 阅读(224) 评论(0) 推荐(0)

Python List操作

摘要：创建list 方式一： new_list=[function(item) for item in set]，其中set表示可循环对象，function(item)表示item的函数阅读全文

posted @ 2017-07-05 15:39 mango_lee 阅读(184) 评论(0) 推荐(0)

随笔分类 - Python

公告