摘要:
目前来说,处理js有两种方法: 1,通过第三方工具执行js脚本, selenium,会驱动浏览器把js全部加载出来并返回. 2,手动模拟js的执行 2.1)找到js链接,可以在idle中用print(u'*******')来检测 2.2)模拟js执行,从里面提取数据,一般是返回json格式的数据 阅读全文
posted @ 2017-07-04 15:44
道高一尺
阅读(301)
评论(0)
推荐(0)
摘要:
目前来看,需要登陆才能爬取的页面有两种可用方法 方法一:FormRequest 里面传入用户名和密码 方法二:添加cookie 阅读全文
posted @ 2017-07-04 14:54
道高一尺
阅读(1417)
评论(0)
推荐(0)
摘要:
# -*- coding: utf-8 -*- import scrapy from rihan.items import RihanItem class RihanspiderSpider(scrapy.Spider): name = "rihanspider" # allowed_domains = ["*******"] start_urls = [******... 阅读全文
posted @ 2017-07-04 08:40
道高一尺
阅读(1321)
评论(0)
推荐(0)

浙公网安备 33010602011771号