会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
cheflone
恆~
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
16
下一页
2020年11月2日
charles Failed to install helper
摘要: 一.问题 charles不知为何疯狂报错 Automatic macOS Proxy Configuration Failed to install helper: The operation couldn't be completed. (CFErrorDomainLaunchd error 9.
阅读全文
posted @ 2020-11-02 11:06 cheflone
阅读(781)
评论(2)
推荐(0)
2020年11月1日
常规反爬复习总结
摘要: 一.常见基于身份识别进行反爬 1通过headers字段来反爬 headers中有很多字段, 这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫 1.1通过headers中的User-Agent字段来反爬 ●反爬原理:爬虫默认情况下没有User-Agent, 而是使用模块默认设置 ●解决方法:请求
阅读全文
posted @ 2020-11-01 19:36 cheflone
阅读(131)
评论(0)
推荐(0)
2020年10月30日
FakeUserAgentError('Maximum amount of retries reached') 解决办法
摘要: 1.报错: FakeUserAgentError('Maximum amount of retries reached!') 1 # 禁用服务器缓存 2 ua = UserAgent(use_cache_server=False) 3 4 # 无效,不缓存数据: 5 ua = UserAgent(c
阅读全文
posted @ 2020-10-30 22:25 cheflone
阅读(342)
评论(0)
推荐(0)
2020年10月29日
mac pytesseract使用“chi_sim”时报错
摘要: 1.具体报错 pytesseract.pytesseract.TesseractError: (1, 'Error opening data file /usr/local/share/tessdata/chi_sim.traineddata Please make sure the TESSDAT
阅读全文
posted @ 2020-10-29 10:52 cheflone
阅读(1867)
评论(0)
推荐(0)
2020年10月27日
进程与线程的一个简单解释
摘要: 进程(process)和线程(thread)是操作系统的基本概念,但是它们比较抽象,不容易掌握。 最近,我读到一篇材料,发现有一个很好的类比,可以把它们解释地清晰易懂。 1. 计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。 2. 假定工厂的电力有限,一次只能供给一个车间使
阅读全文
posted @ 2020-10-27 09:39 cheflone
阅读(58)
评论(0)
推荐(0)
2020年10月26日
Crontab爬虫定时执行
摘要: 1.环境准备 Crontab 1 apt-get install cron #服务器环境下默认安装有 2.使用 1 crontab -e #进入编辑页面(第一次会让你选择编辑器) 1 crontab -l #查看当前的定时任务 2.1 编辑 分 小时 日 月 星期 命令 0-59 0-23 1-31
阅读全文
posted @ 2020-10-26 10:27 cheflone
阅读(285)
评论(0)
推荐(0)
2020年10月24日
homebrew跟换源解决下载慢问题
摘要: 用原有的镜像下载非常慢 => 🚶 替换源,更新速度变成 => 🚀 第一步:更换仓库源 homebrew 默认的源是在 github 上面,每次更新速度都会非常慢。所以我们更换成国内的镜像源。就会快很多了。 1 cd "$(brew --repo)" 2 git remote set-url or
阅读全文
posted @ 2020-10-24 08:42 cheflone
阅读(350)
评论(0)
推荐(0)
2020年10月21日
接口分类复习
摘要: 在这之前一定要好好理解一下接口的含义,我觉得在这一类中接口理解成规则很恰当。 http接口:基于HTTP协议的开发接口.这个并不能排除没有使用其他的协议。 api接口:API(Application Programming Interface)应用程序编程接口,应用也包括网络应用程序,就像api文档
阅读全文
posted @ 2020-10-21 17:08 cheflone
阅读(84)
评论(0)
推荐(0)
2020年10月18日
速记创建简单分布式爬虫
摘要: 创建分布式爬虫 先创建普通爬虫 然后根据前者改造 1.1 限速可以参考我这篇博文 1.2 1.3 注意:lpush的spidername要和redis_key一致,不然spider接受不到起始URL
阅读全文
posted @ 2020-10-18 11:50 cheflone
阅读(76)
评论(0)
推荐(0)
2020年10月13日
scapy_redis的简单学习
摘要: 利用redis和scarpy配合可以实现增量式爬虫,其中scrapy_redis尤为重要 1. DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 指纹去重:其功能就是为每一个request返回一个唯一标示本身的指纹,判断和记录是否请
阅读全文
posted @ 2020-10-13 21:44 cheflone
阅读(141)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
16
下一页
公告