数据挖掘/数据处理 - 随笔分类 - morein2008

ROC与AUC

摘要：参考：ROC与AUC 1. 总结：绘制ROC曲线时，横坐标是FPR(False Positive Rate)，纵坐标是TPR（True Positive Rate），ROC曲线上的每一个点由一个分类器（例如逻辑回归分类器）取某一个概率阈值(例如取0.8作为阈值，则预测的概率大于0.8视为正样本，否则阅读全文

posted @ 2021-12-07 11:56 morein2008

连续性特征(变量)如何计算卡方值

摘要：Say you have one feature and a target with 3 possible values X = np.array([3.4, 3.4, 3. , 2.8, 2.7, 2.9, 3.3, 3. , 3.8, 2.5]) y = np.array([0, 0, 0, 1 阅读全文

posted @ 2021-12-06 21:10 morein2008

PySpark DataFrame选择某几行

摘要：1、collect(): print(dataframe.collect()[index]) 2、dataframe.first() 3、dataframe.head(num_rows)、dataframe.tail(num_rows)，head、tail配合使用可以取得中间指定位置的行 4、dat 阅读全文

posted @ 2021-10-28 16:54 morein2008

PySpark利用udf新增一列

摘要：在PySpark中，对DataFrame新增一列有几种写法： df=spark.createDataFrame([('p1',56),('p2',23),('p3',11),('p4',40),('p5',29)],['name','age']) df.show() >> + + + |name|a 阅读全文

posted @ 2021-10-27 16:50 morein2008

PySpark用法速查

摘要：https://www.cnblogs.com/liaowuhen1314/p/12792202.html https://zhuanlan.zhihu.com/p/260171469 https://sparkbyexamples.com/pyspark/pyspark-window-functi 阅读全文

posted @ 2021-10-25 17:01 morein2008

如何抑制SettingWithCopyWarning

摘要：disable SettingWithCopyWarning： import pandas as pd pd.options.mode.chained_assignment = None 一了百了。阅读全文

posted @ 2021-08-20 00:05 morein2008 阅读(103) 评论(0) 推荐(0)

DataFrame迭代过程中多行修改

摘要：方法1：df.loc[conditions]=row.values，逐行地进行整行替换 for row in df.iterrows(): row['given_amount']=row['amount']; row['given_percent']=1 row['remain_amount']=0 阅读全文

posted @ 2020-02-25 15:28 morein2008

DataFrame的apply用法

摘要：DataFrame的apply方法： Series的apply方法：阅读全文

posted @ 2019-11-04 19:20 morein2008

pandas如何逐行需改DataFrame

摘要：逐行修改DataFrame而不会报SettingwithCopyWarning警告的方法：参考：https://cloud.tencent.com/developer/ask/168023/answer/270064 逐行修改数据时，我们可能关注或只记得列名，这时使用df.iloc或者df.loc 阅读全文

posted @ 2019-07-25 20:50 morein2008

【书签】数据可视化（三）- Seaborn简易入门

摘要：数据可视化（三）- Seaborn简易入门阅读全文

posted @ 2018-11-29 16:12 morein2008

【书签】连续型特征的归一化和离散特征的one-hot编码

摘要：1. 连续型特征的常用的归一化方法、离散型特征one-hot编码的意义 2. 度量特征之间的相关性：余弦相似度和皮尔逊相关系数阅读全文

posted @ 2018-11-19 20:23 morein2008

pandas删除DataFrame中任意字段等于'null'字符串的行

摘要：删除df中任意字段等于'null'字符串的行：去掉任意一列为'null'值的行，目前只能想到用循环：去掉包含（而非等于）'null'字符串列的行：阅读全文

posted @ 2018-09-21 10:36 morein2008

中文的csv文件的编码改成utf-8的方法

摘要：直奔主题：把包含中文的csv文件的编码改成utf-8的方法： https://stackoverflow.com/questions/191359/how-to-convert-a-file-to-utf-8-in-python 啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到阅读全文

posted @ 2018-09-19 19:52 morein2008 阅读(61432) 评论(1) 推荐(1)

【转】数据挖掘的几个概念

摘要：https://blog.csdn.net/u011089523/article/details/72841694 阅读全文

posted @ 2018-09-14 15:07 morein2008

pandas的sql操作

摘要：【Python实战】Pandas：让你像写SQL一样做数据分析（一）用pandas实现sql功能阅读全文

posted @ 2018-09-07 20:38 morein2008

【转】如何七周成为数据分析师22：用pandas进行数据分析实战

摘要：如何七周成为数据分析师22：用pandas进行数据分析实战阅读全文

posted @ 2018-09-05 13:49 morein2008

DataFrame-选择与切片

摘要：取得DataFrame对象reviews的description列的前10个值（或者说reviews前10行的description列）： reviews.iloc[:10].loc[:,'description'] 等价于 reviews[:10]['description'] kaggles练习阅读全文

posted @ 2018-08-20 23:48 morein2008

【转】DataFrame合并

摘要：参考：python 把几个DataFrame合并成一个DataFrame——merge,append,join,conca 横向合并（扩展列）：merge，类似SQL的join，内连接，外连接等。纵向合并（扩展行）：append 阅读全文

posted @ 2018-08-10 23:46 morein2008 阅读(492) 评论(0) 推荐(0)

python的map,reduce函数与pandas的apply,filter函数

摘要：1. python自带的apply、filter、map函数、reduce函数，很多情况下可以代替for循环： map(func,list)，对list的每个元素分别执行func函数操作，显然func函数的参数就是单个元素。 reduce(func,list)，对list的每个元素都执行func函数阅读全文

posted @ 2018-08-07 10:36 morein2008

pandas的loc与iloc

摘要：1. loc是用标签(也就是行名和列名)来查找，标签默认是数字，但也可以通过index参数指定为字符型等其他的类型。格式是df.loc[行名，列名]，如果列标签没有给出，则默认为查找指定行标签的所有列。例如: 1.1 创建一个DataFrame，不指定各行的名称(或者说标签)，pandas会默认阅读全文

posted @ 2018-07-28 15:26 morein2008 阅读(584) 评论(0) 推荐(0)

morein2008

随笔分类 - 数据挖掘/数据处理

公告