【数据分析】 python requests,pandas
request
get post
带params 和headers请求
http://httpbin.org/get 返回请求信息
response.content.decode()=response.text
content 二进制内容
text 解码后的文本
json() 转为json格式的字典
json库
loads 解码
dumps 编码
json字符串里的冒号只能是双引号
response.status_code
response.headers 服务器返回的headers
content-Type
response.url是请求的url+params
response.request 请求信息
response.cookies
response.encoding 编码类型
response.history 重定向历史
requests.Session()
session.request()方法
session.get()
session.prepare_request() 保留cookie
session.headers
cookie
request.auth
pandas
Series (一维数据) 带标签
DataFrame(二维数据)
sr=pd.Series([1,3,'a',4,5],index=list('abcde'))
指定索引
字典可以转化为Series,key为索引,value为值
可以通过位置和索引来取
切片
取特定数据 [[index1,index2]]
迭代
series.index
series.values
sr.where(bool,value) 不满足条件的替换为NaN或者value
read_csv read_excel json html
DataFrame(二维数据) index横向索引 columns 纵向索引
字典转化为DataFrame
列表转为DataFrame
dic={'name':['aaa','bbb','ccc'],'age':[11,22,33]}
lst=[{'name':'aaa','age':11},{'name':'ccc','age':22},{'name':'ddd','age':34}]
dataFrame属性
排序
sort_values
取值[][]
DataFrame的每一列是个Series
df.loc 通过标签
df.iloc 通过位置
df.loc[[行],[列]]
df.iloc[[],[]]
df.head(n) 取前n行
df = df.sort_values(by=['xxx','xxx]) 排序
数据清洗
to_list()
.str.字符串方法 应用于每条数据