摘要: 目前来说,处理js有两种方法: 1,通过第三方工具执行js脚本, selenium,会驱动浏览器把js全部加载出来并返回. 2,手动模拟js的执行 2.1)找到js链接,可以在idle中用print(u'*******')来检测 2.2)模拟js执行,从里面提取数据,一般是返回json格式的数据 阅读全文
posted @ 2017-07-04 15:44 道高一尺 阅读(301) 评论(0) 推荐(0)
摘要: 目前来看,需要登陆才能爬取的页面有两种可用方法 方法一:FormRequest 里面传入用户名和密码 方法二:添加cookie 阅读全文
posted @ 2017-07-04 14:54 道高一尺 阅读(1417) 评论(0) 推荐(0)
摘要: # -*- coding: utf-8 -*- import scrapy from rihan.items import RihanItem class RihanspiderSpider(scrapy.Spider): name = "rihanspider" # allowed_domains = ["*******"] start_urls = [******... 阅读全文
posted @ 2017-07-04 08:40 道高一尺 阅读(1321) 评论(0) 推荐(0)