随笔分类 -  pandas数据处理

摘要:groupby: import random import numpy as np random.seed() df = pd.DataFrame({'data':['a', 'a', 'b', 'b', 'a'], 'num':['one', 'two', 'one', 'two', 'one'] 阅读全文
posted @ 2023-06-09 16:24 半日闲1 阅读(18) 评论(0) 推荐(0)
摘要:import pandas as pd df = pd.DataFrame([['11.0' ,1,2,3], ['22.0' ,4,5,6], ['33.0' ,7,8,9]], columns = ['a','b','c','d']) df['a'] = pd.to_numeric(df['a' 阅读全文
posted @ 2023-06-01 13:37 半日闲1 阅读(243) 评论(0) 推荐(0)
摘要:问题: 没有列名,那么pandas读入时默认按照第一行的格式,前面都是两列,而后面出现了三列,四列,五列数据就会报错。而你直接读入时指定数据列就可以避免这个问题了 其实你还可以把分隔符改成不是,的其他,比如sep='\t',那么就把每行的所有的数据读入一个单元格,后期使用正则化以逗号分割 解决: 0 阅读全文
posted @ 2023-01-31 17:13 半日闲1 阅读(173) 评论(0) 推荐(0)
摘要:读取文件: df = pd.read_csv("test.csv") 报错: 文件直接修改后缀名为.csv ,用read_csv读取会报错,需要传一个参数:error_bad_lines=False 即可 df = pd.read_csv("ww45-clean.csv", error_bad_li 阅读全文
posted @ 2021-11-17 17:40 半日闲1 阅读(381) 评论(0) 推荐(0)
摘要:代码: import pandas as pd data = pd.read_csv("./test.csv", error_bad_lines=False, encoding="utf-8") data = data.loc[:, ["Topology","Batch Size","KPI","F 阅读全文
posted @ 2021-11-17 17:29 半日闲1 阅读(61) 评论(0) 推荐(0)
摘要:方法:DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。 subset : column 阅读全文
posted @ 2021-10-13 23:13 半日闲1 阅读(231) 评论(0) 推荐(0)
摘要:read_table()方法读取.dat文件 import pandas as pd data = pd.read_table('./singer_s1_s4_v04162020.dta') data.to_csv('./singer_s1_s4_v04162020.csv') 阅读全文
posted @ 2021-10-13 23:06 半日闲1 阅读(999) 评论(0) 推荐(0)
摘要:Pandas基于两种数据类型: series 与 dataframe Series:是一个一维的数据类型 DataFrame:是一个二维的表结构 选择/切片 df['code'] # 选取一列,生成一个Series df[['code']] # 选取一列,生成一个DataFrame df[['cod 阅读全文
posted @ 2020-06-16 11:24 半日闲1 阅读(187) 评论(0) 推荐(0)
摘要:1. 读取MySQL数据库 import pandas as pd from sqlalchemy import create_engine engine = create_engine('mysql+pymysql://root:密码@IP:3306/数据库名') sql = ''' select 阅读全文
posted @ 2020-06-09 14:42 半日闲1 阅读(428) 评论(0) 推荐(0)
摘要:示例: data1.to_csv('b.csv', index=False, encoding='utf_8_sig') 再打开b.csv查看发现: 解决: data1.to_excel('b.xlsx', index=False, encoding='utf_8_sig') 即可! 如果是pd.r 阅读全文
posted @ 2020-05-27 11:18 半日闲1 阅读(3376) 评论(0) 推荐(0)
摘要:转换int类型:data[['m']] = data[['m']].astype(int) 报错:OverflowError: Python int too large to convert to C long 解决:data[['m']] = data[['m']].astype('int64') 阅读全文
posted @ 2020-05-27 11:10 半日闲1 阅读(1209) 评论(0) 推荐(0)
摘要:即可! 添加新的列: data['m'] = data['code'].str[:4] 阅读全文
posted @ 2020-05-27 08:31 半日闲1 阅读(5464) 评论(0) 推荐(0)
摘要:会生成多个csv文件 1. 打开cmd,切换到存放csv的文件夹 2. 输入copy *.csv all.csv all.csv任意起的名字,回车即可 阅读全文
posted @ 2020-05-27 08:06 半日闲1 阅读(1306) 评论(0) 推荐(0)
摘要:将 'a10' 列 改为 ’a11‘ 列 即可! 阅读全文
posted @ 2020-05-27 07:59 半日闲1 阅读(1616) 评论(0) 推荐(0)
摘要:示例: 阅读全文
posted @ 2020-05-26 08:43 半日闲1 阅读(2202) 评论(0) 推荐(0)
摘要:data[['m']] = data[['m']].astype(int) 若 m 列有空值或者 '' 等都无法转换 可先去除,再转换即可! df3[['列名']] = df3[['列名']].astype(object) 阅读全文
posted @ 2020-05-26 08:40 半日闲1 阅读(5128) 评论(0) 推荐(0)
摘要:示例: 过滤某列含有 '层' 的行 #删除/选取某列含有特定数值的行 df1=df1[df1['A'].isin([1])] df1[df1['A'].isin([1])] # 选取df1中A列包含数字1的行 df1=df1[~df1['A'].isin([1])] # 通过~取反,选取不包含数字1 阅读全文
posted @ 2020-05-26 08:37 半日闲1 阅读(766) 评论(0) 推荐(0)
摘要:知识点:str.extract()函数 df5['n'] = df5['n'].str.extract('(\d+)', expand=False) 阅读全文
posted @ 2020-05-26 08:25 半日闲1 阅读(4578) 评论(0) 推荐(0)
摘要:1. del df['columns'] #改变原始数据 2. df.drop('columns', axis=1) #删除不改表原始数据,可以通过重新赋值的方式赋值该数据 3. df.drop('columns', axis=1,inplace='True') #改变原始数据 columns为列名 阅读全文
posted @ 2020-05-26 08:13 半日闲1 阅读(440) 评论(0) 推荐(0)
摘要:查看行列数:df.shape 返回一个元组 查看行数:df.shape[0] 查看列数:df.shape[1] 即可! 阅读全文
posted @ 2020-05-26 08:00 半日闲1 阅读(2720) 评论(0) 推荐(0)