随笔分类 - Python小贴士
摘要:#### 远程oracle import cx_Oracle conn = cx_Oracle.connect('userid/key@ip:端口号/service_name') cursor = conn.cursor() result = cursor.execute('select * fro
阅读全文
摘要:d[d.columns[0]]=d[d.columns[0]].astype('float64') #第1列换成浮点型
阅读全文
摘要:data.columns = [re_colname] 比如 data.columns = ['一个列名'] data.columns = [['两个列名1','两个列名2']]
阅读全文
摘要:dat_lst=list(filter(None, dat_lst)) # 如果是listoflist就要多嵌套一层循环
阅读全文
摘要:dat_lst=dat.iloc[:,1:].values.tolist()
阅读全文
摘要:分别对df的行或者列进行处理后,会遇到想要把拆开的数据重新拼起来的情况 这些数据具有相同的结构,只是单纯的要拼到一起,不涉及连接的关联变量。 (就是R的rbind 和 cbind)df= a.append([b,c,d,e,f,g,h,i,j,k,l,m], ignore_index=False)
阅读全文
摘要:DataFrame删除某些列后会出现INDEX不连续的问题, 会影响循环的运行 因此会常用到将INDEX重置为从0到n df.reset_index(drop=True, inplace=True)
阅读全文
摘要:# 使用预设数据格式使读取更快,converters={"COLlv1":str,"COLlv2":str,"COLlv3:str"} # 可加入参数限制读取的行数,nrows =10000 d1 = pd.read_excel("D:/data/data.xlsx", encoding="gbk"
阅读全文
摘要:dat = dat.drop(['a','b','c','d','e','f'],axis=1)
阅读全文
摘要:dat = DataFrame.drop_duplicates(dat,keep='first',inplace=False)
阅读全文
摘要:def read_head_xls(file,nrow): ''' 读取nrow行excel数据,并计算耗时 用于读取测试数据 依赖于 from time import time from xlrd import open_workbook from pandas import DataFrame
阅读全文
摘要:计算程序运行的时间,验证优化的效果。 ①依赖于time from time import time ②在程序开始前记录当前系统时间 (后面接程序运行代码) t_start=time() ③在程序结束后记录当前系统时间 (前面完成了程序的运行) t_end=time() ④计算时长 打印时长 删除相关
阅读全文
摘要:def summary(dat): ''' 求一个df的列名、每列数据类型、每列非空行数、每列缺失比例、每列取值个数 用于了解原始数据情况 *依赖于 singe_df() from pandas import concat ''' dat_head = singe_df(dat.columns,'c
阅读全文
摘要:啊 # 读取前 import pandas as pd # 读取时 a=pd.read_csv("d:/data/111.csv",encoding="GBK")#读gbk编码文件 b=pd.read_csv("d:/data/222.csv")#读utf8的csv文件 c = pd.read_cs
阅读全文
摘要:在处理数据用于建模的时候,遇到了长尾数据,需要处理异常值,于是参考网上的资料,重新写了函数。 是把一个DataFrame的某列超过预计范围(IQR方法)的数据重新赋值为上、下限的方法,如果要删除异常值,需要修改后面几个。 1 import pandas as pd 2 3 def outliners
阅读全文
摘要:读取Rdata pip install pyreadr import pyreadr result = pyreadr.read_r('/your.Rdata') print(result.keys()) #输出数据名 df=result['sel']) #sel为输出的数据名,数据格式为dataf
阅读全文
摘要:1 i_week=data_365['星期'].unique() 2 for temp1 in i_week: 3 temp_data=width_365[data_365['星期'].isin([temp1])] 4 exec("df%s = temp_data"%temp1) 5 del tem
阅读全文
摘要:import pandas as pd data1_group=data1['count_num'].groupby(data1['i_week']) i2=data1_group.mean() print(pd.DataFrame(i2)) print(data1_group.size()) pr
阅读全文
摘要:留存备份。 简单背景:因为想要计算连续高温天数又恰好想用python所以试了试 居然能行而且快 数据说明: 数据集名称 data 行为日期,按升序排列 第3列为当日最高气温 第8列为需要计算的连续高温天数 理论上高温是指35度以上 因为地理原因调整为30度 前10行的连续高温天数我自己打上去了 嫌麻
阅读全文
摘要:1 # -*- coding: utf-8 -*- 2 """ 3 Spyder Editor 4 本文件自用 5 是数据处理的基本过程语句 6 包括文件读取、缺失值的识别和处理、异常值识别、重复值删除、数据拼接、列联表操作等 7 """ 8 %pwd 9 #读取csv文件 10 import pa
阅读全文

浙公网安备 33010602011771号