摘要: 1 import os 2 import requests 3 from urllib.parse import urlencode 4 from hashlib import md5 5 from multiprocessing.pool import Pool 6 7 GROUP_START = 1 8 GROUP_END = 5 9 10 def get_... 阅读全文
posted @ 2018-06-01 19:50 王琳杰 阅读(273) 评论(0) 推荐(0)
摘要: 1.搜索关键词:利用Selenium驱动浏览器,得到商品列表。 2.分析页码并翻页:得到商品页码数,模拟翻页,得到后续页面的商品列表。 3.分析提取商品内容:利用PyQuery分析源码,解析得到商品列表。 4.存储到MongoDB:将商品列表信息存储到数据库MongoDB。 spider.py co 阅读全文
posted @ 2018-06-01 00:21 王琳杰 阅读(414) 评论(0) 推荐(0)