摘要: 目的:为了解决dataframe中批量操作,同时又避免使用低效率的循环迭代函数,出现了apply,applymap和map函数。 场景: 针对dataframe中每行或每列的操作,并且将行或列当作Series,应用的是apply函数 dataframe.apply(func,axis=0) 针对da 阅读全文
posted @ 2018-09-11 16:54 mango_lee 阅读(597) 评论(0) 推荐(0)
摘要: 作用:crosstab和pivot_table都是做统计分析,类似于excel中的表格形式,通常分为行、列 参数:关键的参数有三个,分别是index,columns,values,其中index相当于是行,columns相当于列,values相当于要做统计的对象 函数:pandas.crosstab 阅读全文
posted @ 2018-08-22 10:21 mango_lee 阅读(822) 评论(0) 推荐(0)
摘要: value_counts(normalize=False,sort=True,ascending=False,bins=None,dropna=True) 作用:用来统计dataframe中某列有多少个不同的取值,并且每个取值出现的次数,类似SQL中的select score,count(*) as 阅读全文
posted @ 2018-08-16 18:30 mango_lee 阅读(917) 评论(0) 推荐(0)
摘要: 作用:在对象中筛选出符合where条件的项 两种用法: 阅读全文
posted @ 2018-08-15 10:36 mango_lee 阅读(591) 评论(0) 推荐(0)
摘要: 通过loc,iloc,ix可以实现dataframe的分块,做slice处理常用到,依据是行或列,行和列有两个属性,一个是标签,一个是号。 loc --行标签或列标签进行检索 iloc --行号或列号进行检索 ix --行标签或行号进行检索 他们统一的格式是dataframe.loc[['行标签1' 阅读全文
posted @ 2018-08-15 09:54 mango_lee 阅读(246) 评论(0) 推荐(0)
摘要: 功能:split-apply-combine,是分割,应用(count,sum,mean,mean,median),再聚合的应用,类似于sql中的group by 分割:分为分割对象和分割条件,分割对象是需要去统计的值,类似于sql中的count(user_id);分割条件是分割的依据,依据可以有多 阅读全文
posted @ 2018-08-10 18:25 mango_lee 阅读(275) 评论(0) 推荐(0)
摘要: 根据变量类型选取变量 用到的函数:dataframe.select_dtypes(include=None,exclude=None) 需要注意的是 选择所有数值型变量用np.number 选择字符型变量用object 阅读全文
posted @ 2018-08-09 18:10 mango_lee 阅读(838) 评论(0) 推荐(0)
摘要: 感慨片,可以省略不看 Xgboost的安装为什么不可以像其他模块一样,另人很头大!在网上找了各种教程,安装各种软件,然后各种bug,各种error,坚持到快要放弃的时刻,一个简明的教程突然映入我的眼帘,抱着死马当做活马医的心态试了下,就试了下,然后就TM成功了,一分钟都不到!一分钟都不到!一分钟都不 阅读全文
posted @ 2018-08-03 17:54 mango_lee 阅读(1081) 评论(0) 推荐(0)
摘要: Python的三种基本数据类型,列表list,元祖tuple和字典dict 列表List:python最基础的数据类型,列表内的数据项不需要具有相同的类型,可以包含重复值。列表包括两个模块,元素及对应的索引,其中索引正值表示从头开始取,负值表示倒项取数。 操作:索引、切片、加、减、乘、检查成员 索引 阅读全文
posted @ 2018-05-09 18:07 mango_lee 阅读(162) 评论(0) 推荐(0)
摘要: Time.sleep(秒数):可以让程序休眠多少秒,爬虫时设置休眠的时间间隔,可以减少服务器的压力,避免被反爬虫。 阅读全文
posted @ 2017-07-06 17:56 mango_lee 阅读(100) 评论(0) 推荐(0)