2018 年 11月 22 日随笔档案 - Corey0606

2018年11月22日

摘要： download最完善的脚本三种网页抓取的方法 1.用正则抓取数据 2.bs4抓取 bs4抓取(实验) bs4正式抓取 3.lxml抓取阅读全文

posted @ 2018-11-22 14:00 Corey0606 阅读(276) 评论(0) 推荐(0)

摘要：查看网站结构最原始的爬虫增加递归用户代理运用上述的download脚本读不出标签（问题：可能是标签不存在）对ID进行遍历，直到出错为止若ID出现中间被删除，就无法连续自动退出，为了解决这种问题，脚本加入连续判断5次，若都为空，就结束链接爬虫 python HTTP模块requests 阅读全文

posted @ 2018-11-22 13:52 Corey0606 阅读(581) 评论(0) 推荐(0)

COREY

公告