2019 年 7月随笔档案 - 海纳百川_有容乃大

怎么修改Anaconda 中 jupyter notebook 文件的保存位置

摘要：安装完 anaconda ，在jupyter notebook 中创建的文件的默认保存位置为C:\User\电脑名修改保存位置 1、打开 anaconda prompt 2、输入 jupyter notebook --generate-config 3、按照上图中的路径，找到 jupyter_no 阅读全文

posted @ 2019-07-11 16:07 海纳百川_有容乃大阅读(3353) 评论(0) 推荐(1)

scrapy中使用 IP 代理

摘要：在 scrapy 中使用 ip 代理需要借助中间件的功能首先在settings 中设置好中间件，中间件优先级数字越小越先被执行然后编写中间件，拦截请求设置代理阅读全文

posted @ 2019-07-03 11:21 海纳百川_有容乃大阅读(3733) 评论(0) 推荐(0)

scrapy中的下载器中间件

摘要：总结：中的来说下载器中间件就是起到处理 request 请求并且返回response 的作用，一切从网页爬取的 url 发起去哦那个球会组成一个请求队列，然后一个一个排队经过下载器中间件，之后下载器中间件会对request 做出相应的处理，比如添加请求头，添加代理等等，然后通过 process_r 阅读全文

posted @ 2019-07-03 10:59 海纳百川_有容乃大阅读(210) 评论(0) 推荐(0)

urllib 库的代替品 requests 的用法

摘要：Requuests 官方的介绍时多么的霸气，之所以那么霸气，是因为 Requestts 相比于 urllib 在使用方面上会让开发者感到更加的人性化、更加简洁、更加舒适，并且国外的一些公司也在使用requests库。看看他又那些特性：。Keep-Alive & 连接池。国际化域名和 URI 。阅读全文

posted @ 2019-07-03 10:42 海纳百川_有容乃大阅读(244) 评论(0) 推荐(0)

爬虫

摘要：一、什么是爬虫？爬虫：一段从互联网上自动爬取对我们有价值的数据的程序二、Python爬虫架构 Python爬虫架构主要由五个部分组成，分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序（爬取有价值信息的程序）调度器：相当于一台电脑的CPU，主要负责调度 URL 管理器、下载器、解析阅读全文

posted @ 2019-07-03 09:55 海纳百川_有容乃大阅读(172) 评论(0) 推荐(0)

scrapy 和 scrapy-redis

摘要：1、scrapy 是一个 Python 爬虫框架，爬取效率极高，但是不支持分布式。而 scrapy-redis 时一套基于 redis 数据库、运行在 scrapy 框架之上的组件，可以让 scrapy 支持分布式策略。Slaver 端共享 Master端 redis 数据库里的 item 队列，请阅读全文

posted @ 2019-07-02 16:31 海纳百川_有容乃大阅读(133) 评论(0) 推荐(0)

git pull 之后怎么找回别覆盖掉的内容

摘要：【半夜吓出冷汗，git这个原理还真得好好学学】不小心把本地写的东西pull了下，然后，全部覆盖掉了，以为就这样没了。后面想到有“时光穿梭机”，“历史回滚”，在各大群友的帮助下，终于找回了。 git reflog 命令查看你的历史更改记录 git reset --hard HEAD@{n} (HE 阅读全文

posted @ 2019-07-01 14:21 海纳百川_有容乃大阅读(817) 评论(0) 推荐(0)

07 2019 档案