摘要:
1 import os 2 import requests 3 from urllib.parse import urlencode 4 from hashlib import md5 5 from multiprocessing.pool import Pool 6 7 GROUP_START = 1 8 GROUP_END = 5 9 10 def get_... 阅读全文
posted @ 2018-06-01 19:50
王琳杰
阅读(273)
评论(0)
推荐(0)
摘要:
1.搜索关键词:利用Selenium驱动浏览器,得到商品列表。 2.分析页码并翻页:得到商品页码数,模拟翻页,得到后续页面的商品列表。 3.分析提取商品内容:利用PyQuery分析源码,解析得到商品列表。 4.存储到MongoDB:将商品列表信息存储到数据库MongoDB。 spider.py co 阅读全文
posted @ 2018-06-01 00:21
王琳杰
阅读(414)
评论(0)
推荐(0)

浙公网安备 33010602011771号