【数据分析】 python requests，pandas

request

get post
带params 和headers请求
http://httpbin.org/get 返回请求信息

response.content.decode()=response.text
content 二进制内容
text 解码后的文本
json() 转为json格式的字典

json库
loads 解码
dumps 编码

json字符串里的冒号只能是双引号

response.status_code
response.headers 服务器返回的headers

content-Type

response.url是请求的url+params
response.request 请求信息
response.cookies
response.encoding 编码类型
response.history 重定向历史

requests.Session()
session.request()方法
session.get()
session.prepare_request() 保留cookie
session.headers
cookie

request.auth

Series （一维数据）带标签
DataFrame（二维数据）

sr=pd.Series([1,3,'a',4,5],index=list('abcde'))
指定索引

字典可以转化为Series，key为索引，value为值
可以通过位置和索引来取

切片
取特定数据 [[index1,index2]]
迭代

series.index
series.values

sr.where(bool,value) 不满足条件的替换为NaN或者value

read_csv read_excel json html

DataFrame（二维数据） index横向索引 columns 纵向索引
字典转化为DataFrame
列表转为DataFrame

dic={'name':['aaa','bbb','ccc'],'age':[11,22,33]}
lst=[{'name':'aaa','age':11},{'name':'ccc','age':22},{'name':'ddd','age':34}]

dataFrame属性
排序
sort_values

取值[][]
DataFrame的每一列是个Series

df.loc 通过标签
df.iloc 通过位置
df.loc[[行],[列]]
df.iloc[[],[]]
df.head(n) 取前n行
df = df.sort_values(by=['xxx','xxx]) 排序

数据清洗

to_list()
.str.字符串方法应用于每条数据

posted @ 2021-12-09 17:02 four_z 阅读(54) 评论(0) 收藏举报

刷新页面返回顶部