摘要: download最完善的脚本 三种网页抓取的方法 1.用正则抓取数据 2.bs4抓取 bs4抓取(实验) bs4正式抓取 3.lxml抓取 阅读全文
posted @ 2018-11-22 14:00 Corey0606 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 查看网站结构 最原始的爬虫 增加递归 用户代理 运用上述的download脚本读不出标签(问题:可能是标签不存在) 对ID进行遍历,直到出错为止 若ID出现中间被删除,就无法连续自动退出, 为了解决这种问题,脚本加入连续判断5次,若都为空,就结束 链接爬虫 python HTTP模块requests 阅读全文
posted @ 2018-11-22 13:52 Corey0606 阅读(542) 评论(0) 推荐(0) 编辑