随笔分类 -  爬虫

摘要:**用到的模块有:**requesst、re、pandas **步骤:**1.得到url 2.设置请求头伪装浏览器,防止被反爬 3.请求获得文本文件 4.用re.compile()方法复制文本 5.用pd.DataFrame()让爬取的信息根据可读性,条理性。 import requests imp 阅读全文
posted @ 2022-04-22 10:16 Eliaukgit 阅读(273) 评论(0) 推荐(0)
摘要:##urllib的4个模板 1.request:最基本的http请求模块,用来模拟发送请求,就像是在浏览器中输入一个网址然后回车一样,只需要传入uel,timeout等参数就可以实现一个模拟请求。 主要功能:用于模拟发送请求打开和读取URL。 2.error:异常处理模块,如果出现请求错误,我们可以 阅读全文
posted @ 2022-04-21 22:41 Eliaukgit 阅读(107) 评论(1) 推荐(1)