2018年8月25日
摘要: # -*- coding: utf-8 -*-import scrapyfrom BOOK.items import BookItemimport jsonfrom copy import deepcopyclass BookSpider(scrapy.Spider): name = 'book' 阅读全文
posted @ 2018-08-25 15:59 老韩来了 阅读(147) 评论(0) 推荐(0) 编辑
  2018年8月23日
摘要: from datetime import datetimefrom scrapy.exporters import JsonItemExporter, CsvItemExporterimport pymongoimport redisfrom .settings import REDIS_HOST, 阅读全文
posted @ 2018-08-23 20:18 老韩来了 阅读(115) 评论(0) 推荐(0) 编辑
摘要: from scrapy_plus.core.spider import Spider from scrapy_plus.http.request import Request class TencentSpider(Spider): name = 'tencent' start_urls = ['h 阅读全文
posted @ 2018-08-23 16:48 老韩来了 阅读(170) 评论(0) 推荐(0) 编辑
摘要: import time from scrapy_plus.core.spider import Spider from scrapy_plus.http.request import Request import js2py class SinaGunDong(Spider): name = "si 阅读全文
posted @ 2018-08-23 16:46 老韩来了 阅读(1252) 评论(0) 推荐(0) 编辑
  2018年8月22日
摘要: # -*- coding: utf-8 -*-import scrapyimport re#登陆马云的URL https://gitee.com/login#form 中 {userLogin:hanjian200}#cookieclass MayunSpider(scrapy.Spider): n 阅读全文
posted @ 2018-08-22 17:41 老韩来了 阅读(165) 评论(0) 推荐(0) 编辑
  2018年8月16日
摘要: import requestsfrom lxml import etreeimport timeimport threadingfrom queue import Queueimport randomclass QiushiSpider(object): def __init__(self): se 阅读全文
posted @ 2018-08-16 15:22 老韩来了 阅读(126) 评论(0) 推荐(0) 编辑
  2018年8月14日
摘要: Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏 PhantomJS 是一个基于Webkit的“ 阅读全文
posted @ 2018-08-14 19:30 老韩来了 阅读(202) 评论(0) 推荐(0) 编辑
  2018年8月12日
摘要: import requestsimport reclass Anjuke(object): def __init__(self): self.url = "https://beijing.anjuke.com/sale/huairou/o5/" self.headers = {"User-Agent 阅读全文
posted @ 2018-08-12 15:28 老韩来了 阅读(367) 评论(0) 推荐(0) 编辑
  2018年8月10日
摘要: import requests#这是个含有cookie的爬虫项目def renren_login_profile(): headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, li 阅读全文
posted @ 2018-08-10 10:30 老韩来了 阅读(113) 评论(0) 推荐(0) 编辑
  2018年8月9日
摘要: import requests#第一个爬虫项目kw = {'wd':'12306'}headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19 阅读全文
posted @ 2018-08-09 17:12 老韩来了 阅读(67) 评论(0) 推荐(0) 编辑