随笔分类 -  数据挖掘/数据处理

摘要:参考:ROC与AUC 1. 总结:绘制ROC曲线时,横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate),ROC曲线上的每一个点由一个分类器(例如逻辑回归分类器)取某一个概率阈值(例如取0.8作为阈值,则预测的概率大于0.8视为正样本,否则 阅读全文
posted @ 2021-12-07 11:56 morein2008
摘要:Say you have one feature and a target with 3 possible values X = np.array([3.4, 3.4, 3. , 2.8, 2.7, 2.9, 3.3, 3. , 3.8, 2.5]) y = np.array([0, 0, 0, 1 阅读全文
posted @ 2021-12-06 21:10 morein2008
摘要:1、collect(): print(dataframe.collect()[index]) 2、dataframe.first() 3、dataframe.head(num_rows)、dataframe.tail(num_rows),head、tail配合使用可以取得中间指定位置的行 4、dat 阅读全文
posted @ 2021-10-28 16:54 morein2008
摘要:在PySpark中,对DataFrame新增一列有几种写法: df=spark.createDataFrame([('p1',56),('p2',23),('p3',11),('p4',40),('p5',29)],['name','age']) df.show() >> + + + |name|a 阅读全文
posted @ 2021-10-27 16:50 morein2008
摘要:https://www.cnblogs.com/liaowuhen1314/p/12792202.html https://zhuanlan.zhihu.com/p/260171469 https://sparkbyexamples.com/pyspark/pyspark-window-functi 阅读全文
posted @ 2021-10-25 17:01 morein2008
摘要:disable SettingWithCopyWarning: import pandas as pd pd.options.mode.chained_assignment = None 一了百了。 阅读全文
posted @ 2021-08-20 00:05 morein2008 阅读(91) 评论(0) 推荐(0)
摘要:方法1:df.loc[conditions]=row.values,逐行地进行整行替换 for row in df.iterrows(): row['given_amount']=row['amount']; row['given_percent']=1 row['remain_amount']=0 阅读全文
posted @ 2020-02-25 15:28 morein2008
摘要:DataFrame的apply方法: Series的apply方法: 阅读全文
posted @ 2019-11-04 19:20 morein2008
摘要:逐行修改DataFrame而不会报SettingwithCopyWarning警告的方法: 参考:https://cloud.tencent.com/developer/ask/168023/answer/270064 逐行修改数据时,我们可能关注或只记得列名,这时使用df.iloc或者df.loc 阅读全文
posted @ 2019-07-25 20:50 morein2008
摘要:数据可视化(三)- Seaborn简易入门 阅读全文
posted @ 2018-11-29 16:12 morein2008
摘要:1. 连续型特征的常用的归一化方法、离散型特征one-hot编码的意义 2. 度量特征之间的相关性 :余弦相似度和皮尔逊相关系数 阅读全文
posted @ 2018-11-19 20:23 morein2008
摘要:删除df中任意字段等于'null'字符串的行: 去掉任意一列为'null'值的行,目前只能想到用循环: 去掉包含(而非等于)'null'字符串列的行: 阅读全文
posted @ 2018-09-21 10:36 morein2008
摘要:直奔主题:把包含中文的csv文件的编码改成utf-8的方法: https://stackoverflow.com/questions/191359/how-to-convert-a-file-to-utf-8-in-python 啰嗦几句: 在用pandas读取hive导出的csv文件时,经常会遇到 阅读全文
posted @ 2018-09-19 19:52 morein2008 阅读(61322) 评论(1) 推荐(1)
摘要:https://blog.csdn.net/u011089523/article/details/72841694 阅读全文
posted @ 2018-09-14 15:07 morein2008
摘要:【Python实战】Pandas:让你像写SQL一样做数据分析(一) 用pandas实现sql功能 阅读全文
posted @ 2018-09-07 20:38 morein2008
摘要:如何七周成为数据分析师22:用pandas进行数据分析实战 阅读全文
posted @ 2018-09-05 13:49 morein2008
摘要:取得DataFrame对象reviews的description列的前10个值(或者说reviews前10行的description列): reviews.iloc[:10].loc[:,'description'] 等价于 reviews[:10]['description'] kaggles练习 阅读全文
posted @ 2018-08-20 23:48 morein2008
摘要:参考:python 把几个DataFrame合并成一个DataFrame——merge,append,join,conca 横向合并(扩展列):merge,类似SQL的join,内连接,外连接等。 纵向合并(扩展行):append 阅读全文
posted @ 2018-08-10 23:46 morein2008 阅读(483) 评论(0) 推荐(0)
摘要:1. python自带的apply、filter、map函数、reduce函数,很多情况下可以代替for循环: map(func,list),对list的每个元素分别执行func函数操作,显然func函数的参数就是单个元素。 reduce(func,list),对list的每个元素都执行func函数 阅读全文
posted @ 2018-08-07 10:36 morein2008
摘要:1. loc是用标签(也就是行名和列名)来查找,标签默认是数字,但也可以通过index参数指定为字符型等其他的类型。 格式是df.loc[行名,列名],如果列标签没有给出,则默认为查找指定行标签的所有列。 例如: 1.1 创建一个DataFrame,不指定各行的名称(或者说标签),pandas会默认 阅读全文
posted @ 2018-07-28 15:26 morein2008 阅读(559) 评论(0) 推荐(0)