随笔分类 -  pandas

摘要:一、背景 如果DataFrame(df)特别大,或者需要将多个表头一样的df写入多同一个文件中。 使用的场景是: df文件太大,无法一次性写入到同一个文件中 有循环操作,不想将循环的结果汇总成一个df,然后在导出到文件中,而是想在循环的时候,就写入到文件中 二、代码展示 import pandas 阅读全文
posted @ 2025-03-10 11:05 qsl_你猜 阅读(108) 评论(0) 推荐(0)
摘要:一、背景 有些字符串会被pandas都城NaN。但是有时不想这么操作。 二、数据准备 三、代码展示 import pandas as pd df1 = pd.read_excel('NaNTest.xlsx') df2 = pd.read_excel('NaNTest.xlsx', na_value 阅读全文
posted @ 2025-03-10 11:04 qsl_你猜 阅读(23) 评论(0) 推荐(0)
摘要:一、背景 1.1 适用场景 在操作中可能需要对两行,或者两列进行相减,这个时候如果可以将被减数变为相反数,那么相减问题,就变成了相加问题。相加问题,便可以使用groupby等聚合运算。 1.2 工作环境 windos系统 Python版本 python3.11.8 1.3 数据准备 该数据存储在相对 阅读全文
posted @ 2025-03-10 11:00 qsl_你猜 阅读(39) 评论(0) 推荐(0)
摘要:一、背景 DataFrame中有时需要加入行与列,需要加入的行与列格式是多种多样的,可能是DataFrame、Series、list、dict等形式。不同形式也需要不同的方法。 windos系统 Python版本 python3.11.8 二、加入行 2.1 建一个空的DataFrame impor 阅读全文
posted @ 2025-03-10 11:00 qsl_你猜 阅读(1181) 评论(0) 推荐(0)
摘要:一、定义 DataFrame表示的是矩阵的数据表,它包含已排序的列集合,每列可以是不同的值类型(数值、字符串、布尔值等)。 DataFrame既有行索引也有列索引,它可以被看做一个共享相同索引的Series的字典。 DataFrame中的数据是以⼀个或多个⼆维块存放的(⽽不是列表、字典或别的⼀维数据 阅读全文
posted @ 2020-03-07 11:10 qsl_你猜 阅读(644) 评论(0) 推荐(0)
摘要:一、移除重复数据 1.1 删除重复行 import pandas as pd df_1 = pd.DataFrame({'k1': ['one', 'two','one']*2, 'k2': ['1','2', '3']*2}) series_1 = df_1.duplicated() df_2 = 阅读全文
posted @ 2020-03-07 11:09 qsl_你猜 阅读(223) 评论(0) 推荐(0)
摘要:一、处理缺失数据 pandas对象的所有描述性统计默认都不包括缺失数据。 缺失数据在pandas中呈现的⽅式有些不完美,但对于⼤多数⽤户可以保证功能正常。 对于数值数据,pandas使⽤浮点值NaN(Not a Number)表示缺失数据。我们称其为哨兵值,可以⽅便的检测出来。 在pandas中,我 阅读全文
posted @ 2020-03-07 11:07 qsl_你猜 阅读(235) 评论(0) 推荐(0)
摘要:一、索引 1.1 索引顺序 list的索引为从0到n-1。不可更改索引。 Series的索引:如果未定义为从0到n-1。如果定义,则为定义的索引,一旦定义完成,索引对象将不可更改。但是索引是可以改变的。 import pandas as pd series_1 = pd.Series([1, 2, 阅读全文
posted @ 2019-11-20 22:35 qsl_你猜 阅读(522) 评论(0) 推荐(1)
摘要:一、定义 Series是一种类似于一维数组的对象,它由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(索引)组成。 也可以看成一个定长的有序字典。 二、创建 2.1 无索引创建 如果未指定索引,索引默认为0至n-1 import pandas as pd obj_1 = pd.Seri 阅读全文
posted @ 2019-11-20 22:34 qsl_你猜 阅读(419) 评论(0) 推荐(0)