上一页 1 ··· 38 39 40 41 42 43 44 45 46 ··· 54 下一页
摘要: connection:连接redis最基本文件 default:默认值设置文件 dupefiler_key 保存指纹 dupefilter:替换scrapy默认的url去重器 piklecompat:序列化 pipelines:将item保存到redis中,实现item分布式保存 queue:实现3 阅读全文
posted @ 2017-08-16 09:30 梦_鱼 阅读(159) 评论(0) 推荐(0)
摘要: 什么是数据收集器? 数据以key/value形式存在,收集一些状态,简化数据收集的状态 计算到底发送了多少request等等统计信息 如何对404页面进行设置? 通过response.status等于判断状态是否为404,然后把失败的URL添加到初始化的失败列表中,设置失败计数收集器 在spider 阅读全文
posted @ 2017-08-16 09:20 梦_鱼 阅读(214) 评论(0) 推荐(0)
摘要: 如何设置禁止cookie? 在setting中 添加字段: COOKIE_ENABLED = False # False关闭cookie,True打开 如何设置下载限速? 在setting中 添加字段: TELNETCONSOLE_ENABLED = False # 默认为0 如何动态设置下载速度? 阅读全文
posted @ 2017-08-15 22:15 梦_鱼 阅读(599) 评论(0) 推荐(0)
摘要: 什么是ip代理? 我们电脑访问网站,其实是访问远程的服务器,通过ip地址识别是那个机器访问了服务器,服务器就知道数据该返回给哪台机器,我们生活中所用的网络是局域网,ip是运营商随机分配的,是一种直接访问服务器的方式 代理服务器是一种间接方式,本地机器访问ip代理服务器,ip代理服务器帮我们发起服务请 阅读全文
posted @ 2017-08-15 21:58 梦_鱼 阅读(690) 评论(0) 推荐(0)
摘要: 什么是user-agent? 用户代理,服务器识别用户的操作系统,浏览器类型和渲染引擎,不同浏览器的user-agent是不同的 如何随机更改user-agent? 1. 在setting中添加user-agent列表 2. 在download_middleware中导入user-agent列表,每 阅读全文
posted @ 2017-08-15 21:53 梦_鱼 阅读(261) 评论(0) 推荐(0)
摘要: scrapy中重要的两个类是什么? Requests、Response 什么是Requests? 网页下载 有哪些参数? url callback headers # 头部信息 cookie # 会自带cookie meta # request和response中添加信息 encoding # 默认 阅读全文
posted @ 2017-08-15 21:33 梦_鱼 阅读(186) 评论(0) 推荐(0)
摘要: 爬虫中有哪些专业术语? 爬虫:自动获取网站数据的程序,关键是批量的获取 反爬虫:使用技术手段防止爬虫程序的方法 误伤:反爬虫技术将普通用户识别为爬虫,效果再好也不能用(禁止ip) 成本:反爬虫需要人力和机器成本 拦截:识别为爬虫,拦截几率越高,误伤越高 反爬虫的目的? 初级爬虫:简单粗暴,不管服务器 阅读全文
posted @ 2017-08-15 21:25 梦_鱼 阅读(143) 评论(0) 推荐(0)
摘要: 如何查询scrapy有哪些模版? 如何创建crawl模版? scrapy genspider -t crawl 域名 如何把搜索目录加入到环境变量? setting: 全站爬取和普通爬虫有什么区别? 1. 继承不同,普通继承:scrapy.Spider,全站继承:CrawlSpider 2. 爬取策 阅读全文
posted @ 2017-08-15 20:46 梦_鱼 阅读(578) 评论(0) 推荐(0)
摘要: 什么是高阶函数? -- 把函数名当做参数传给另外一个函数,在另外一个函数中通过参数调用执行 什么是装饰器? -- 在不改变源代码的基础上扩展新需求,装饰器本身也是函数,应用高阶函数实现 -- 把被装饰的函数内存地址当参数传入装饰器函数体,通过参数调用被装饰的函数 装饰器原则: -- 不改变源代码 - 阅读全文
posted @ 2017-08-13 22:25 梦_鱼 阅读(755) 评论(0) 推荐(0)
摘要: 需求: 获取西刺网代理ip信息,包括ip地址、端口号、ip类型 西刺网:http://www.xicidaili.com/nn/ 那,如何解决这个问题? 分析页面结构和url设计得知: 数据都在本页面可以全部获取,没有单独的详情页面 下一页通过更改当前页面最后url后缀进行跳转页面,那我实现URL的 阅读全文
posted @ 2017-08-13 22:19 梦_鱼 阅读(763) 评论(0) 推荐(0)
上一页 1 ··· 38 39 40 41 42 43 44 45 46 ··· 54 下一页