随笔分类 -  Python小贴士

摘要:#### 远程oracle import cx_Oracle conn = cx_Oracle.connect('userid/key@ip:端口号/service_name') cursor = conn.cursor() result = cursor.execute('select * fro 阅读全文
posted @ 2021-11-29 16:26 Shilo 阅读(56) 评论(0) 推荐(0)
摘要:d[d.columns[0]]=d[d.columns[0]].astype('float64') #第1列换成浮点型 阅读全文
posted @ 2021-07-28 10:32 Shilo 阅读(2671) 评论(0) 推荐(0)
摘要:data.columns = [re_colname] 比如 data.columns = ['一个列名'] data.columns = [['两个列名1','两个列名2']] 阅读全文
posted @ 2021-07-28 10:31 Shilo 阅读(1755) 评论(0) 推荐(0)
摘要:dat_lst=list(filter(None, dat_lst)) # 如果是listoflist就要多嵌套一层循环 阅读全文
posted @ 2021-07-28 10:29 Shilo 阅读(113) 评论(0) 推荐(0)
摘要:dat_lst=dat.iloc[:,1:].values.tolist() 阅读全文
posted @ 2021-07-28 10:28 Shilo 阅读(377) 评论(0) 推荐(0)
摘要:分别对df的行或者列进行处理后,会遇到想要把拆开的数据重新拼起来的情况 这些数据具有相同的结构,只是单纯的要拼到一起,不涉及连接的关联变量。 (就是R的rbind 和 cbind)df= a.append([b,c,d,e,f,g,h,i,j,k,l,m], ignore_index=False) 阅读全文
posted @ 2021-07-28 10:27 Shilo 阅读(4120) 评论(0) 推荐(0)
摘要:DataFrame删除某些列后会出现INDEX不连续的问题, 会影响循环的运行 因此会常用到将INDEX重置为从0到n df.reset_index(drop=True, inplace=True) 阅读全文
posted @ 2021-07-28 10:19 Shilo 阅读(2367) 评论(0) 推荐(0)
摘要:# 使用预设数据格式使读取更快,converters={"COLlv1":str,"COLlv2":str,"COLlv3:str"} # 可加入参数限制读取的行数,nrows =10000 d1 = pd.read_excel("D:/data/data.xlsx", encoding="gbk" 阅读全文
posted @ 2021-07-28 10:17 Shilo 阅读(985) 评论(0) 推荐(0)
摘要:dat = dat.drop(['a','b','c','d','e','f'],axis=1) 阅读全文
posted @ 2021-07-28 10:16 Shilo 阅读(676) 评论(0) 推荐(0)
摘要:dat = DataFrame.drop_duplicates(dat,keep='first',inplace=False) 阅读全文
posted @ 2021-07-28 10:15 Shilo 阅读(256) 评论(0) 推荐(0)
摘要:def read_head_xls(file,nrow): ''' 读取nrow行excel数据,并计算耗时 用于读取测试数据 依赖于 from time import time from xlrd import open_workbook from pandas import DataFrame 阅读全文
posted @ 2021-07-28 10:13 Shilo 阅读(1602) 评论(0) 推荐(0)
摘要:计算程序运行的时间,验证优化的效果。 ①依赖于time from time import time ②在程序开始前记录当前系统时间 (后面接程序运行代码) t_start=time() ③在程序结束后记录当前系统时间 (前面完成了程序的运行) t_end=time() ④计算时长 打印时长 删除相关 阅读全文
posted @ 2021-07-28 10:07 Shilo 阅读(2151) 评论(0) 推荐(0)
摘要:def summary(dat): ''' 求一个df的列名、每列数据类型、每列非空行数、每列缺失比例、每列取值个数 用于了解原始数据情况 *依赖于 singe_df() from pandas import concat ''' dat_head = singe_df(dat.columns,'c 阅读全文
posted @ 2021-07-28 09:50 Shilo 阅读(667) 评论(0) 推荐(0)
摘要:啊 # 读取前 import pandas as pd # 读取时 a=pd.read_csv("d:/data/111.csv",encoding="GBK")#读gbk编码文件 b=pd.read_csv("d:/data/222.csv")#读utf8的csv文件 c = pd.read_cs 阅读全文
posted @ 2021-05-09 16:50 Shilo 阅读(417) 评论(0) 推荐(0)
摘要:在处理数据用于建模的时候,遇到了长尾数据,需要处理异常值,于是参考网上的资料,重新写了函数。 是把一个DataFrame的某列超过预计范围(IQR方法)的数据重新赋值为上、下限的方法,如果要删除异常值,需要修改后面几个。 1 import pandas as pd 2 3 def outliners 阅读全文
posted @ 2020-11-18 10:31 Shilo 阅读(3437) 评论(0) 推荐(0)
摘要:读取Rdata pip install pyreadr import pyreadr result = pyreadr.read_r('/your.Rdata') print(result.keys()) #输出数据名 df=result['sel']) #sel为输出的数据名,数据格式为dataf 阅读全文
posted @ 2020-06-19 10:28 Shilo 阅读(4056) 评论(0) 推荐(0)
摘要:1 i_week=data_365['星期'].unique() 2 for temp1 in i_week: 3 temp_data=width_365[data_365['星期'].isin([temp1])] 4 exec("df%s = temp_data"%temp1) 5 del tem 阅读全文
posted @ 2020-04-13 16:01 Shilo 阅读(807) 评论(0) 推荐(0)
摘要:import pandas as pd data1_group=data1['count_num'].groupby(data1['i_week']) i2=data1_group.mean() print(pd.DataFrame(i2)) print(data1_group.size()) pr 阅读全文
posted @ 2020-04-13 15:58 Shilo 阅读(3648) 评论(0) 推荐(0)
摘要:留存备份。 简单背景:因为想要计算连续高温天数又恰好想用python所以试了试 居然能行而且快 数据说明: 数据集名称 data 行为日期,按升序排列 第3列为当日最高气温 第8列为需要计算的连续高温天数 理论上高温是指35度以上 因为地理原因调整为30度 前10行的连续高温天数我自己打上去了 嫌麻 阅读全文
posted @ 2020-03-25 17:18 Shilo 阅读(2018) 评论(0) 推荐(0)
摘要:1 # -*- coding: utf-8 -*- 2 """ 3 Spyder Editor 4 本文件自用 5 是数据处理的基本过程语句 6 包括文件读取、缺失值的识别和处理、异常值识别、重复值删除、数据拼接、列联表操作等 7 """ 8 %pwd 9 #读取csv文件 10 import pa 阅读全文
posted @ 2019-11-05 16:32 Shilo 阅读(335) 评论(0) 推荐(0)