随笔分类 - pandas数据处理
摘要:groupby: import random import numpy as np random.seed() df = pd.DataFrame({'data':['a', 'a', 'b', 'b', 'a'], 'num':['one', 'two', 'one', 'two', 'one']
阅读全文
摘要:import pandas as pd df = pd.DataFrame([['11.0' ,1,2,3], ['22.0' ,4,5,6], ['33.0' ,7,8,9]], columns = ['a','b','c','d']) df['a'] = pd.to_numeric(df['a'
阅读全文
摘要:问题: 没有列名,那么pandas读入时默认按照第一行的格式,前面都是两列,而后面出现了三列,四列,五列数据就会报错。而你直接读入时指定数据列就可以避免这个问题了 其实你还可以把分隔符改成不是,的其他,比如sep='\t',那么就把每行的所有的数据读入一个单元格,后期使用正则化以逗号分割 解决: 0
阅读全文
摘要:读取文件: df = pd.read_csv("test.csv") 报错: 文件直接修改后缀名为.csv ,用read_csv读取会报错,需要传一个参数:error_bad_lines=False 即可 df = pd.read_csv("ww45-clean.csv", error_bad_li
阅读全文
摘要:代码: import pandas as pd data = pd.read_csv("./test.csv", error_bad_lines=False, encoding="utf-8") data = data.loc[:, ["Topology","Batch Size","KPI","F
阅读全文
摘要:方法:DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。 subset : column
阅读全文
摘要:read_table()方法读取.dat文件 import pandas as pd data = pd.read_table('./singer_s1_s4_v04162020.dta') data.to_csv('./singer_s1_s4_v04162020.csv')
阅读全文
摘要:Pandas基于两种数据类型: series 与 dataframe Series:是一个一维的数据类型 DataFrame:是一个二维的表结构 选择/切片 df['code'] # 选取一列,生成一个Series df[['code']] # 选取一列,生成一个DataFrame df[['cod
阅读全文
摘要:1. 读取MySQL数据库 import pandas as pd from sqlalchemy import create_engine engine = create_engine('mysql+pymysql://root:密码@IP:3306/数据库名') sql = ''' select
阅读全文
摘要:示例: data1.to_csv('b.csv', index=False, encoding='utf_8_sig') 再打开b.csv查看发现: 解决: data1.to_excel('b.xlsx', index=False, encoding='utf_8_sig') 即可! 如果是pd.r
阅读全文
摘要:转换int类型:data[['m']] = data[['m']].astype(int) 报错:OverflowError: Python int too large to convert to C long 解决:data[['m']] = data[['m']].astype('int64')
阅读全文
摘要:即可! 添加新的列: data['m'] = data['code'].str[:4]
阅读全文
摘要:会生成多个csv文件 1. 打开cmd,切换到存放csv的文件夹 2. 输入copy *.csv all.csv all.csv任意起的名字,回车即可
阅读全文
摘要:data[['m']] = data[['m']].astype(int) 若 m 列有空值或者 '' 等都无法转换 可先去除,再转换即可! df3[['列名']] = df3[['列名']].astype(object)
阅读全文
摘要:示例: 过滤某列含有 '层' 的行 #删除/选取某列含有特定数值的行 df1=df1[df1['A'].isin([1])] df1[df1['A'].isin([1])] # 选取df1中A列包含数字1的行 df1=df1[~df1['A'].isin([1])] # 通过~取反,选取不包含数字1
阅读全文
摘要:知识点:str.extract()函数 df5['n'] = df5['n'].str.extract('(\d+)', expand=False)
阅读全文
摘要:1. del df['columns'] #改变原始数据 2. df.drop('columns', axis=1) #删除不改表原始数据,可以通过重新赋值的方式赋值该数据 3. df.drop('columns', axis=1,inplace='True') #改变原始数据 columns为列名
阅读全文
摘要:查看行列数:df.shape 返回一个元组 查看行数:df.shape[0] 查看列数:df.shape[1] 即可!
阅读全文

浙公网安备 33010602011771号