pandas数据处理 - 随笔分类 - 半日闲1

pandas 数据分组 -- groupby

摘要：groupby: import random import numpy as np random.seed() df = pd.DataFrame({'data':['a', 'a', 'b', 'b', 'a'], 'num':['one', 'two', 'one', 'two', 'one'] 阅读全文

posted @ 2023-06-09 16:24 半日闲1 阅读(38) 评论(0) 推荐(0)

Pandas中将字符串（object）格式的列，强制转换为浮点型的列

摘要：import pandas as pd df = pd.DataFrame([['11.0' ,1,2,3], ['22.0' ,4,5,6], ['33.0' ,7,8,9]], columns = ['a','b','c','d']) df['a'] = pd.to_numeric(df['a' 阅读全文

posted @ 2023-06-01 13:37 半日闲1 阅读(257) 评论(0) 推荐(0)

将一列切分为多列

摘要：问题：没有列名，那么pandas读入时默认按照第一行的格式，前面都是两列，而后面出现了三列，四列，五列数据就会报错。而你直接读入时指定数据列就可以避免这个问题了其实你还可以把分隔符改成不是，的其他，比如sep='\t',那么就把每行的所有的数据读入一个单元格，后期使用正则化以逗号分割解决： 0 阅读全文

posted @ 2023-01-31 17:13 半日闲1 阅读(187) 评论(0) 推荐(0)

pandas读取文件编码错误

摘要：读取文件： df = pd.read_csv("test.csv") 报错：文件直接修改后缀名为.csv ，用read_csv读取会报错，需要传一个参数：error_bad_lines=False 即可 df = pd.read_csv("ww45-clean.csv", error_bad_li 阅读全文

posted @ 2021-11-17 17:40 半日闲1 阅读(414) 评论(0) 推荐(0)

两列互换

摘要：代码： import pandas as pd data = pd.read_csv("./test.csv", error_bad_lines=False, encoding="utf-8") data = data.loc[:, ["Topology","Batch Size","KPI","F 阅读全文

posted @ 2021-11-17 17:29 半日闲1 阅读(73) 评论(0) 推荐(0)

drop_duplicates 去重

摘要：方法：DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据。 subset : column 阅读全文

posted @ 2021-10-13 23:13 半日闲1 阅读(251) 评论(0) 推荐(0)

dta文件转为csv文件

摘要：read_table()方法读取.dat文件 import pandas as pd data = pd.read_table('./singer_s1_s4_v04162020.dta') data.to_csv('./singer_s1_s4_v04162020.csv') 阅读全文

posted @ 2021-10-13 23:06 半日闲1 阅读(1034) 评论(0) 推荐(0)

pandas基础操作（一）

摘要：Pandas基于两种数据类型： series 与 dataframe Series：是一个一维的数据类型 DataFrame：是一个二维的表结构选择/切片 df['code'] # 选取一列，生成一个Series df[['code']] # 选取一列，生成一个DataFrame df[['cod 阅读全文

posted @ 2020-06-16 11:24 半日闲1 阅读(189) 评论(0) 推荐(0)

pandas读写数据库

摘要：1. 读取MySQL数据库 import pandas as pd from sqlalchemy import create_engine engine = create_engine('mysql+pymysql://root:密码@IP:3306/数据库名') sql = ''' select 阅读全文

posted @ 2020-06-09 14:42 半日闲1 阅读(435) 评论(0) 推荐(0)

pd.to_csv() 保存数据, 读取csv出现类型问题

摘要：示例： data1.to_csv('b.csv', index=False, encoding='utf_8_sig') 再打开b.csv查看发现：解决： data1.to_excel('b.xlsx', index=False, encoding='utf_8_sig') 即可！如果是pd.r 阅读全文

posted @ 2020-05-27 11:18 半日闲1 阅读(3386) 评论(0) 推荐(0)

pandas 转换int类型出现 OverflowError错误

摘要：转换int类型：data[['m']] = data[['m']].astype(int) 报错：OverflowError: Python int too large to convert to C long 解决：data[['m']] = data[['m']].astype('int64') 阅读全文

posted @ 2020-05-27 11:10 半日闲1 阅读(1239) 评论(0) 推荐(0)

pandas 给某一列添加字符串或者添加新的列

摘要：即可！添加新的列： data['m'] = data['code'].str[:4] 阅读全文

posted @ 2020-05-27 08:31 半日闲1 阅读(5474) 评论(0) 推荐(0)

循环保存csv文件，文件名跟着变化，最后将多个csv文件合并到一个csv中

摘要：会生成多个csv文件 1. 打开cmd，切换到存放csv的文件夹 2. 输入copy *.csv all.csv all.csv任意起的名字，回车即可阅读全文

posted @ 2020-05-27 08:06 半日闲1 阅读(1312) 评论(0) 推荐(0)

pandas 修改列名称

摘要：将 'a10' 列改为 ’a11‘ 列即可！阅读全文

posted @ 2020-05-27 07:59 半日闲1 阅读(1620) 评论(0) 推荐(0)

pandas 对某列值的过滤及取前两个数字

摘要：示例：阅读全文

posted @ 2020-05-26 08:43 半日闲1 阅读(2204) 评论(0) 推荐(0)

pandas 类型转换为int

摘要：data[['m']] = data[['m']].astype(int) 若 m 列有空值或者 '' 等都无法转换可先去除，再转换即可！ df3[['列名']] = df3[['列名']].astype(object) 阅读全文

posted @ 2020-05-26 08:40 半日闲1 阅读(5130) 评论(0) 推荐(0)

pandas 删除或选取需要某值的行

摘要：示例：过滤某列含有 '层' 的行 #删除/选取某列含有特定数值的行 df1=df1[df1['A'].isin([1])] df1[df1['A'].isin([1])] # 选取df1中A列包含数字1的行 df1=df1[~df1['A'].isin([1])] # 通过~取反，选取不包含数字1 阅读全文

posted @ 2020-05-26 08:37 半日闲1 阅读(777) 评论(0) 推荐(0)

pandas 只保留某列中的数字

摘要：知识点：str.extract()函数 df5['n'] = df5['n'].str.extract('(\d+)', expand=False) 阅读全文

posted @ 2020-05-26 08:25 半日闲1 阅读(4584) 评论(0) 推荐(0)

pandas 删除某列

摘要：1. del df['columns'] #改变原始数据 2. df.drop('columns', axis=1) #删除不改表原始数据，可以通过重新赋值的方式赋值该数据 3. df.drop('columns', axis=1,inplace='True') #改变原始数据 columns为列名阅读全文

posted @ 2020-05-26 08:13 半日闲1 阅读(444) 评论(0) 推荐(0)

pandas 查看行列数

摘要：查看行列数：df.shape 返回一个元组查看行数：df.shape[0] 查看列数：df.shape[1] 即可！阅读全文

posted @ 2020-05-26 08:00 半日闲1 阅读(2728) 评论(0) 推荐(0)

半日闲1

随笔分类 - pandas数据处理

公告