11 2017 档案
摘要:本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取。 源码展示 首先还是完整代码展示,后面会分解每个函数的意义。 上面代码是选择了优衣库作为测试店铺,直接输入优衣库店铺的域名
阅读全文
摘要:本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息。 由于这次爬虫的主要目的是使用lxml解析器,所以在信息的查找上面完全只会涉及lxml中选择器的用法,虽然lxml可以同时使用CSS选择器和Xpath选择器
阅读全文

浙公网安备 33010602011771号