摘要:安装完 anaconda ,在jupyter notebook 中创建的文件的默认保存位置为C:\User\电脑名 修改保存位置 1、打开 anaconda prompt 2、输入 jupyter notebook --generate-config 3、按照上图中的路径,找到 jupyter_no
阅读全文
摘要:在 scrapy 中使用 ip 代理需要借助中间件的功能 首先在settings 中设置好中间件,中间件优先级数字越小越先被执行 然后编写中间件,拦截请求设置代理
阅读全文
摘要:总结: 中的来说下载器中间件就是起到处理 request 请求并且返回response 的作用,一切从网页爬取的 url 发起去哦那个球会组成一个请求队列,然后一个一个排队经过下载器中间件,之后下载器中间件会对request 做出相应的处理,比如添加请求头,添加代理等等,然后通过 process_r
阅读全文
摘要:Requuests 官方的介绍时多么的霸气,之所以那么霸气,是因为 Requestts 相比于 urllib 在使用方面上会让开发者感到更加的人性化、更加简洁、更加舒适,并且国外的一些公司也在使用requests库。 看看他又那些特性: 。Keep-Alive & 连接池 。国际化域名和 URI 。
阅读全文
摘要:一、什么是爬虫? 爬虫:一段从互联网上自动爬取对我们有价值的数据的程序 二、Python爬虫架构 Python爬虫架构主要由五个部分组成,分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序(爬取有价值信息的程序) 调度器:相当于一台电脑的CPU,主要负责调度 URL 管理器、下载器、解析
阅读全文
摘要:1、scrapy 是一个 Python 爬虫框架,爬取效率极高,但是不支持分布式。而 scrapy-redis 时一套基于 redis 数据库、运行在 scrapy 框架之上的组件,可以让 scrapy 支持分布式策略。Slaver 端共享 Master端 redis 数据库里的 item 队列,请
阅读全文
摘要:【半夜吓出冷汗,git这个原理还真得好好学学】 不小心把本地写的东西pull了下,然后,全部覆盖掉了,以为就这样没了。 后面想到有“时光穿梭机”,“历史回滚”,在各大群友的帮助下,终于找回了。 git reflog 命令查看你的历史更改记录 git reset --hard HEAD@{n} (HE
阅读全文