随笔分类 -  数据处理

摘要:两种解决方法: 注:low_memory pandas读取csv文件默认是按块读取的,即不一次性全部读取; 另外pandas对数据的类型是完全靠猜的,所以pandas每读取一块数据就对csv字段的数据类型进行猜一次,所以有可能pandas在读取不同块时对同一字段的数据类型猜测结果不一致。 low_m 阅读全文
posted @ 2019-03-08 16:42 ZhuGaochao 阅读(3012) 评论(0) 推荐(0)
摘要:5位数日期戳 读取 .mat 文件处理里面数据时,发现里面的日期数据全部都是 “5位数” 数字,很不解; 后来查到可以在excel中通过设置单元格调回标准日期格式,如下: 选中日期戳,右键选择 “格式化单元格(Format Cells)” 选择需要的日期格式,点击ok即可 通过代码转成标准日期 例如 阅读全文
posted @ 2019-01-21 21:21 ZhuGaochao 阅读(7398) 评论(2) 推荐(3)
摘要:图片看不清楚的话,可以右键选择:“在新标签页中打开图片(I)” 参数 df.loc[(a,b),c]中第一个参数元组为索引内容,a为level0索引对应的内容,b为level1索引对应的内容 因为df是一个dataframe,所以要用c来指定列 准备数据 先对数据设置多重索引: 根据索引取指定行 通 阅读全文
posted @ 2019-01-18 16:46 ZhuGaochao 阅读(13584) 评论(0) 推荐(1)
摘要:注意: 要保证对应列的数据类型是一致的!不要出现,A的datetime类型是Timestemp;B的datetime类型是str。 否则横向合并时会出现合并上去的列为NaN。 需要将两个DataFrame进行横向拼接; 对 A_DataFrame 拼接一列数据; 数据样例如下: 将右侧source_ 阅读全文
posted @ 2019-01-16 18:20 ZhuGaochao 阅读(6813) 评论(0) 推荐(0)
摘要:定位要删除的行 需求:删除指定列中NaN所在行。 如下图,’open‘ 列中有一行为NaN,定位到它,然后删除。 定位: 删除行 阅读全文
posted @ 2019-01-04 14:48 ZhuGaochao 阅读(16870) 评论(0) 推荐(0)
摘要:Outline 处理数据时,遇到文件中包含一些不需要的数据(行),需要把这些不符合要求的行给删除掉。 例如:该数据中应该都是2000年的数据,但是包含了一些2001年的数据,所以需要把2001年的数据给删除掉。 筛选出指定行 找到所有包含2000年的数据: 根据pandas中取反操作:”~“, 取出 阅读全文
posted @ 2018-12-23 18:03 ZhuGaochao 阅读(14868) 评论(0) 推荐(1)
摘要:原始文件 下面是Excel打开以及pd.read_csv() 打开: 里面只是干巴巴的数据,没有列名,so,需要给其设置列名。 Method1 不让第一行数据默认当作列名(默认第一行数据是列名了)。 只需要在pd.read_csv() 中加参数 header=None source_df = pd. 阅读全文
posted @ 2018-12-19 18:33 ZhuGaochao 阅读(5140) 评论(0) 推荐(1)
摘要:如下图: 读取出来的 DataFrame “code” 列内容格式为:“浪潮信息(000977.XSHE)” 格式,目标效果是:000977.XSHE 代码: 原理: 选中要操作的对象(code列),然后通过map+lambda 对code列中的每个元素进行操作。 阅读全文
posted @ 2018-11-30 17:36 ZhuGaochao 阅读(4043) 评论(0) 推荐(0)
摘要:常用合并 通常用pandas进行数据拼接、合并的方法有: pandas.merge() pandas.concat() pandas.append() 还有一种方式就是通过 pd.to_csv() 中的追加写入方式 追加写入 执行过后就会将读取的csv内容追加写入一个csv文件中,达到合并文件内容的 阅读全文
posted @ 2018-11-12 13:58 ZhuGaochao 阅读(8098) 评论(0) 推荐(0)
摘要:判断某列是否有NaN 判断某列是否全部为NaN 阅读全文
posted @ 2018-11-05 20:43 ZhuGaochao 阅读(20603) 评论(0) 推荐(1)
摘要:Outline 今天处理数据时遇到一个问题: 因为业务需要,我对 df 进行了建立索引。 具体如下: 下面走的是默认索引 给其设置索引: 取消索引 业务需求,我要取消掉上面设置的索引: So,之前设置的索引被取消掉了。 阅读全文
posted @ 2018-08-27 11:35 ZhuGaochao 阅读(47189) 评论(0) 推荐(1)
摘要:Outline 前几天,数据清洗时有用到pandas去过滤大量数据中的“负值”; 把过滤出来的“负值”替换为“NaN”或者指定的值。 故做个小记录。 读取CSV文件 代码: 读取本地csv文件,输出结果如下: 可见里面有很多“负值”。 目的就是将这些“负值”替换掉。 过滤“负值” 代码: 此时拿到的 阅读全文
posted @ 2018-08-24 16:53 ZhuGaochao 阅读(25140) 评论(0) 推荐(1)
摘要:错误原因 报错提示:“sys:1: DtypeWarning: Columns (15) have mixed types. Specify dtype option on import or set low_memory=False.” 错误:类型混淆 解决 关键点 low_memory 阅读全文
posted @ 2018-08-22 14:11 ZhuGaochao 阅读(11912) 评论(0) 推荐(0)
摘要:Pandas pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。 pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 >>> from pandas import Se 阅读全文
posted @ 2018-07-19 17:45 ZhuGaochao 阅读(453) 评论(0) 推荐(0)
摘要:NumPy NumPy是高性能科学计算和数据分析的基础包。部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变 阅读全文
posted @ 2018-07-19 17:35 ZhuGaochao 阅读(439) 评论(0) 推荐(0)