【数据分析】 python requests,pandas

request

get post
带params 和headers请求
http://httpbin.org/get 返回请求信息

response.content.decode()=response.text
content 二进制内容
text 解码后的文本
json() 转为json格式的字典

json库
loads 解码
dumps 编码

json字符串里的冒号只能是双引号

response.status_code
response.headers 服务器返回的headers

content-Type

response.url是请求的url+params
response.request 请求信息
response.cookies
response.encoding 编码类型
response.history 重定向历史

requests.Session()
session.request()方法
session.get()
session.prepare_request() 保留cookie
session.headers
cookie

request.auth

pandas

Series (一维数据) 带标签
DataFrame(二维数据)

sr=pd.Series([1,3,'a',4,5],index=list('abcde'))
指定索引

字典可以转化为Series,key为索引,value为值
可以通过位置和索引来取

切片
取特定数据 [[index1,index2]]
迭代

series.index
series.values

sr.where(bool,value) 不满足条件的替换为NaN或者value

read_csv read_excel json html

DataFrame(二维数据) index横向索引 columns 纵向索引
字典转化为DataFrame
列表转为DataFrame

dic={'name':['aaa','bbb','ccc'],'age':[11,22,33]}
lst=[{'name':'aaa','age':11},{'name':'ccc','age':22},{'name':'ddd','age':34}]

dataFrame属性
排序
sort_values

取值[][]
DataFrame的每一列是个Series

df.loc 通过标签
df.iloc 通过位置
df.loc[[行],[列]]
df.iloc[[],[]]
df.head(n) 取前n行
df = df.sort_values(by=['xxx','xxx]) 排序

数据清洗

to_list()
.str.字符串方法 应用于每条数据

posted @ 2021-12-09 17:02  four_z  阅读(24)  评论(0)    收藏  举报