16.天天基金爬取,知识要点补充

第一步,需要URL:
第二步:
头部需要的信息headers:
*防盗链(确定来路) Referer
*身份证 User-Agent
re内置模块匹配括号里面的数据

res=re.findall("\((.*?)\)",要匹配的文本变量)

第三步:数据处理

import pandas as pd
df_list=[]
datas=json.loads(res[0])["Data"]["LSJZList"]
pf=pd.DataFrame(datas)
df_list.append(df)
df_data=pd.concat(df_list) #这么多列的数据进行合并
df_data.to_csv("名称.csv",index=False)
df_data.to_csv('{}.csv'.format(name),index=False)

 

 

只想获取基金代码跟基金名称

result=re.findall('"(.*?)"',html)
for i in result:
    code=i.split(",")[0] #逗号分割获取第一个元素
    name=i.split(",")[1] #逗号分割获取第二个元素

 

posted @ 2021-03-09 10:02  种太阳  阅读(10)  评论(0)    收藏  举报