2020 年 1月文章档案 - 数据骆驼

数据拼盘(5)之行列索引转换

摘要：import pandas as pd import numpy as np data1 = pd.DataFrame(np.random.rand(4,4),index=[["A","A","B","B"],[1,2,1,2]],columns=[["A","A","B","B"],[1,2,1, 阅读全文

posted @ 2020-01-17 19:48 数据骆驼阅读(214) 评论(0) 推荐(1)

数据拼盘(4)之“长”“宽”互透

摘要：import numpy as np import pandas as pd data1 = pd.read_excel("F:/长宽表转换.xlsx") #长表透视成宽表 data2 = data1.pivot(index="年份" #行轴 ,columns="部门" #列轴 ,values=[" 阅读全文

posted @ 2020-01-17 19:46 数据骆驼阅读(109) 评论(0) 推荐(0)

数据拼盘(3)之见缝插针

摘要：import numpy as np import pandas as pd data1 = pd.read_excel("F:数据拼盘1.xlsx",header=0) data2 = pd.read_excel("F:数据拼盘2.xlsx",header=0) data3 = pd.read_e 阅读全文

posted @ 2020-01-17 19:44 数据骆驼阅读(60) 评论(0) 推荐(0)

数据拼盘(2)之拼接

摘要：import numpy as np import pandas as pd data1 = pd.read_excel("F:数据拼盘1.xlsx",header=0) data2 = pd.read_excel("F:数据拼盘2.xlsx",header=0) data3 = pd.read_e 阅读全文

posted @ 2020-01-17 19:43 数据骆驼阅读(130) 评论(0) 推荐(0)

数据拼盘(1)之联合

摘要：import numpy as np import pandas as pd data1 = pd.read_excel("F:数据拼盘1.xlsx",header=0) data2 = pd.read_excel("F:数据拼盘2.xlsx",header=0) data3 = pd.read_e 阅读全文

posted @ 2020-01-17 19:41 数据骆驼阅读(84) 评论(0) 推荐(0)

数据预处理6之删除整行列

摘要：import numpy as np import pandas as pd data1 = pd.read_csv("F:/tianic_train.csv") #删除列 data1.drop(columns=["Name","Sex"]) #删除行 data1.drop(index=[1,2,3 阅读全文

posted @ 2020-01-17 19:38 数据骆驼阅读(379) 评论(0) 推荐(0)

数据分层4之层级汇总统计

摘要：import pandas as pd import numpy as np data1 = pd.read_excel("F:/分层数据.xlsx",skiprows=[0,1],header=None) data2 = data1.set_index([0,1]) col = pd.MultiI 阅读全文

posted @ 2020-01-16 22:52 数据骆驼阅读(607) 评论(0) 推荐(0)

数据分层3之取值与切片

摘要：import pandas as pd import numpy as np data1 = pd.read_excel("F:/分层数据.xlsx",skiprows=[0,1],header=None) data2 = data1.set_index([0,1]) col = pd.MultiI 阅读全文

posted @ 2020-01-16 22:41 数据骆驼阅读(175) 评论(0) 推荐(0)

数据分层2之层级排序

摘要：import pandas as pd import numpy as np data1 = pd.read_excel("F:/分层数据.xlsx",skiprows=[0,1],header=None) data2 = data1.set_index([0,1]) col = pd.MultiI 阅读全文

posted @ 2020-01-16 22:39 数据骆驼阅读(412) 评论(0) 推荐(0)

数据分层1之建立分层

摘要：import pandas as pd import numpy as np data1 =pd.read_excel("F:/分层数据.xlsx" ,header=None) #将Dataframe的某列转化为行索引，只能转化为行索引 data1.set_index([0,1] #顺序可控制那阅读全文

posted @ 2020-01-16 22:37 数据骆驼阅读(136) 评论(0) 推荐(0)

Data source

摘要：1.tianic_train.csv 链接：https://pan.baidu.com/s/1BLoSCY8fFMUiEqJsQexulw 提取码：4b4n 2.分层数据.xlsx 链接：https://pan.baidu.com/s/1TjnZR2HYhfFJFtpMHL6PYQ 提取码:32n4 阅读全文

posted @ 2020-01-15 20:15 数据骆驼阅读(363) 评论(0) 推荐(0)

数据预处理5之正则化

摘要：import numpy as np import pandas as pd import re data1 = pd.read_csv("F:/tianic_train.csv") data2.head(40) #循环正则化，提取dataframe list1=[] for i in data2. 阅读全文

posted @ 2020-01-15 19:31 数据骆驼阅读(623) 评论(0) 推荐(0)

数据预处理4之数据类型转换

摘要：import numpy as np import pandas as pd data1 = pd.read_csv("F:/tianic_train.csv") #查看数据类型 data1["Age"].dtype #转换函数astype()进行数据的转换 data1["Age"].astype( 阅读全文

posted @ 2020-01-15 19:26 数据骆驼阅读(565) 评论(0) 推荐(0)

数据预处理3之替换值

摘要：import numpy as np import pandas as pd data1 = pd.read_csv("F:/tianic_train.csv") #一对一替换 data1.replace(to_replace=0 #需要替换值 ,value=100 #替换值 ) #一对一替换多个数阅读全文

posted @ 2020-01-15 19:21 数据骆驼阅读(340) 评论(0) 推荐(0)

数据预处理2之处理重复值

摘要：import numpy as np import pandas as pd data1 = pd.read_csv("F:/tianic_train.csv") #查看重复值个数 data1.duplicated().sum() data1.drop_duplicates(subset=["Age 阅读全文

posted @ 2020-01-15 19:19 数据骆驼阅读(452) 评论(0) 推荐(0)

数据预处理1之缺失值处理

摘要：import numpy as np import pandas as pd data1 = pd.read_csv("F:/tianic_train.csv") #查看非缺失值个数 data1.notnull().sum() #查看缺失值个数 data1.isnull().sum() #删除缺失值阅读全文

posted @ 2020-01-15 19:16 数据骆驼阅读(270) 评论(0) 推荐(0)

定时执行某方法

摘要：import schedule import time schedule.every(x).minutes.do(function_self,argument1,argument2) #部署每x分钟执行一次函数的任务 #schedule.every(x).hour.do(function_self, 阅读全文

posted @ 2020-01-13 00:51 数据骆驼阅读(149) 评论(0) 推荐(0)

自动发送电子邮件函数

摘要：注意：此函数只有发送文本和附件的两个功能。群发时候有时会被系统检测为垃圾文件，但是把收件人改为网易邮箱，就不会被检测，但是邮件被归类进入网易邮箱的垃圾箱。 def send_email(sender_name,sender_pwd,receiver_name,email_title,email_co 阅读全文

posted @ 2020-01-12 23:13 数据骆驼阅读(143) 评论(0) 推荐(0)

excel单元格格式化

摘要：先用XFStyle()声明开始格式；初始化格式的对象；对对象设置要求；把对象的要求再赋给对象；当填写单元格时候，需要哪个格式填写哪一种。 #格式化单元格 import xlrd import xlwt workbook = xlwt.Workbook() worksheet = workbo 阅读全文

posted @ 2020-01-10 20:05 数据骆驼阅读(595) 评论(0) 推荐(0)

读写excel

摘要：1.读取excel #读取excel import xlrd workbook = xlrd.open_workbook("F:/信管181综测.xlsx") #打开工资薄 worksheet = workbook.sheet_by_index(0) #以序号打开工作表 #table = workb 阅读全文

posted @ 2020-01-09 23:14 数据骆驼阅读(81) 评论(0) 推荐(1)

更新索引

摘要：从数据中截取一段后经常需要把索引从新变为从0到N的样子，一方面可以美观，另一方面防止对后面的操作产生不易发觉的影响。把这一步骤封装为函数以方便以后的使用，函数名字定义为renew_index,为更新索引之意。renew_index函数的代码如下： def renew_index(data): ''' 阅读全文

posted @ 2020-01-09 19:53 数据骆驼阅读(261) 评论(0) 推荐(1)

01 2020 档案