上一页 1 ··· 38 39 40 41 42 43 44 45 46 ··· 54 下一页
摘要: 如何设置禁止cookie? 在setting中 添加字段: COOKIE_ENABLED = False # False关闭cookie,True打开 如何设置下载限速? 在setting中 添加字段: TELNETCONSOLE_ENABLED = False # 默认为0 如何动态设置下载速度? 阅读全文
posted @ 2017-08-15 22:15 梦_鱼 阅读(595) 评论(0) 推荐(0)
摘要: 什么是ip代理? 我们电脑访问网站,其实是访问远程的服务器,通过ip地址识别是那个机器访问了服务器,服务器就知道数据该返回给哪台机器,我们生活中所用的网络是局域网,ip是运营商随机分配的,是一种直接访问服务器的方式 代理服务器是一种间接方式,本地机器访问ip代理服务器,ip代理服务器帮我们发起服务请 阅读全文
posted @ 2017-08-15 21:58 梦_鱼 阅读(685) 评论(0) 推荐(0)
摘要: 什么是user-agent? 用户代理,服务器识别用户的操作系统,浏览器类型和渲染引擎,不同浏览器的user-agent是不同的 如何随机更改user-agent? 1. 在setting中添加user-agent列表 2. 在download_middleware中导入user-agent列表,每 阅读全文
posted @ 2017-08-15 21:53 梦_鱼 阅读(259) 评论(0) 推荐(0)
摘要: scrapy中重要的两个类是什么? Requests、Response 什么是Requests? 网页下载 有哪些参数? url callback headers # 头部信息 cookie # 会自带cookie meta # request和response中添加信息 encoding # 默认 阅读全文
posted @ 2017-08-15 21:33 梦_鱼 阅读(185) 评论(0) 推荐(0)
摘要: 爬虫中有哪些专业术语? 爬虫:自动获取网站数据的程序,关键是批量的获取 反爬虫:使用技术手段防止爬虫程序的方法 误伤:反爬虫技术将普通用户识别为爬虫,效果再好也不能用(禁止ip) 成本:反爬虫需要人力和机器成本 拦截:识别为爬虫,拦截几率越高,误伤越高 反爬虫的目的? 初级爬虫:简单粗暴,不管服务器 阅读全文
posted @ 2017-08-15 21:25 梦_鱼 阅读(142) 评论(0) 推荐(0)
摘要: 如何查询scrapy有哪些模版? 如何创建crawl模版? scrapy genspider -t crawl 域名 如何把搜索目录加入到环境变量? setting: 全站爬取和普通爬虫有什么区别? 1. 继承不同,普通继承:scrapy.Spider,全站继承:CrawlSpider 2. 爬取策 阅读全文
posted @ 2017-08-15 20:46 梦_鱼 阅读(573) 评论(0) 推荐(0)
摘要: 什么是高阶函数? -- 把函数名当做参数传给另外一个函数,在另外一个函数中通过参数调用执行 什么是装饰器? -- 在不改变源代码的基础上扩展新需求,装饰器本身也是函数,应用高阶函数实现 -- 把被装饰的函数内存地址当参数传入装饰器函数体,通过参数调用被装饰的函数 装饰器原则: -- 不改变源代码 - 阅读全文
posted @ 2017-08-13 22:25 梦_鱼 阅读(752) 评论(0) 推荐(0)
摘要: 需求: 获取西刺网代理ip信息,包括ip地址、端口号、ip类型 西刺网:http://www.xicidaili.com/nn/ 那,如何解决这个问题? 分析页面结构和url设计得知: 数据都在本页面可以全部获取,没有单独的详情页面 下一页通过更改当前页面最后url后缀进行跳转页面,那我实现URL的 阅读全文
posted @ 2017-08-13 22:19 梦_鱼 阅读(758) 评论(0) 推荐(0)
摘要: 如何登录知乎? 首先要分析,进行知乎验证的时候,知乎服务器需要我们提交什么数据,提交的地址。先进行几次登录尝试,通过浏览器中network中查看数据流得知,模拟登录知乎需要提供5个数据,分别是_xsrf、password、captcha_type、captcha、phone_num,这个是手机号码进 阅读全文
posted @ 2017-08-13 10:31 梦_鱼 阅读(668) 评论(0) 推荐(1)
摘要: 案例: 实现一个装饰器,用它来检查被装饰函数的参数类型。 需求: 装饰器可以通过函数,指明函数参数类型,进行函数调用的时候,传入参数,检测到不匹配时,抛出异常 如何解决这个问题? 阅读全文
posted @ 2017-08-05 22:39 梦_鱼 阅读(1852) 评论(0) 推荐(0)
上一页 1 ··· 38 39 40 41 42 43 44 45 46 ··· 54 下一页