07 2019 档案

怎么修改Anaconda 中 jupyter notebook 文件的保存位置
摘要:安装完 anaconda ,在jupyter notebook 中创建的文件的默认保存位置为C:\User\电脑名 修改保存位置 1、打开 anaconda prompt 2、输入 jupyter notebook --generate-config 3、按照上图中的路径,找到 jupyter_no 阅读全文

posted @ 2019-07-11 16:07 海纳百川_有容乃大 阅读(3353) 评论(0) 推荐(1)

scrapy中使用 IP 代理
摘要:在 scrapy 中使用 ip 代理需要借助中间件的功能 首先在settings 中设置好中间件,中间件优先级数字越小越先被执行 然后编写中间件,拦截请求设置代理 阅读全文

posted @ 2019-07-03 11:21 海纳百川_有容乃大 阅读(3733) 评论(0) 推荐(0)

scrapy中的下载器中间件
摘要:总结: 中的来说下载器中间件就是起到处理 request 请求并且返回response 的作用,一切从网页爬取的 url 发起去哦那个球会组成一个请求队列,然后一个一个排队经过下载器中间件,之后下载器中间件会对request 做出相应的处理,比如添加请求头,添加代理等等,然后通过 process_r 阅读全文

posted @ 2019-07-03 10:59 海纳百川_有容乃大 阅读(210) 评论(0) 推荐(0)

urllib 库的代替品 requests 的用法
摘要:Requuests 官方的介绍时多么的霸气,之所以那么霸气,是因为 Requestts 相比于 urllib 在使用方面上会让开发者感到更加的人性化、更加简洁、更加舒适,并且国外的一些公司也在使用requests库。 看看他又那些特性: 。Keep-Alive & 连接池 。国际化域名和 URI 。 阅读全文

posted @ 2019-07-03 10:42 海纳百川_有容乃大 阅读(244) 评论(0) 推荐(0)

爬虫
摘要:一、什么是爬虫? 爬虫:一段从互联网上自动爬取对我们有价值的数据的程序 二、Python爬虫架构 Python爬虫架构主要由五个部分组成,分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序(爬取有价值信息的程序) 调度器:相当于一台电脑的CPU,主要负责调度 URL 管理器、下载器、解析 阅读全文

posted @ 2019-07-03 09:55 海纳百川_有容乃大 阅读(172) 评论(0) 推荐(0)

scrapy 和 scrapy-redis
摘要:1、scrapy 是一个 Python 爬虫框架,爬取效率极高,但是不支持分布式。而 scrapy-redis 时一套基于 redis 数据库、运行在 scrapy 框架之上的组件,可以让 scrapy 支持分布式策略。Slaver 端共享 Master端 redis 数据库里的 item 队列,请 阅读全文

posted @ 2019-07-02 16:31 海纳百川_有容乃大 阅读(133) 评论(0) 推荐(0)

git pull 之后怎么找回别覆盖掉的内容
摘要:【半夜吓出冷汗,git这个原理还真得好好学学】 不小心把本地写的东西pull了下,然后,全部覆盖掉了,以为就这样没了。 后面想到有“时光穿梭机”,“历史回滚”,在各大群友的帮助下,终于找回了。 git reflog 命令查看你的历史更改记录 git reset --hard HEAD@{n} (HE 阅读全文

posted @ 2019-07-01 14:21 海纳百川_有容乃大 阅读(817) 评论(0) 推荐(0)

导航