会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
20
下一页
2020年8月26日
分布式中的接口幂等性
摘要: 转自:https://www.cnblogs.com/jajian/p/10926681.html 业务场景 公司有个借贷的项目,具体业务类似于阿里的蚂蚁借呗,用户在平台上借款,然后规定一个到期时间,在该时间内用户需将借款还清并收取一定的手续费,如果规定时间逾期未还上,则会产生滞纳金。 用户发起借款
阅读全文
posted @ 2020-08-26 09:08 江湖有梦
阅读(149)
评论(0)
推荐(0)
2020年8月18日
03 Linux 文件管理
摘要: 一、文件管理概述 谈及到 Linux 文件管理,首先我们需要了解的就是,我们要对文件做些什么事情?其实无非就是对一个文件进行创建、复制、移动、查看、编辑、压缩、查看、删除等等 二、系统目录结构 首先我们知道 Linux 的目录结构为树状结构,最顶级的目录为根目录 /,其他目录通过挂载可以将它们添加到
阅读全文
posted @ 2020-08-18 20:12 江湖有梦
阅读(148)
评论(0)
推荐(0)
2020年8月17日
02 bashshell介绍使用
摘要: 1.什么是Bash shell(壳) Bash Shell是一个命令解释器,它在操作系统的最外层,负责用户程序与内核进行交互操作的一种接口,将用户输入的命令翻译给操作系统,并将处理后的结果输出至屏幕。 通过xshell连接,就是打开了一个bash程序的窗口,不能点鼠标,只能输入命令 当我们使用远程连
阅读全文
posted @ 2020-08-17 20:17 江湖有梦
阅读(165)
评论(0)
推荐(0)
01 Linux 的渊源与发展史
摘要: 一、Unix 的起源与发展 Unix 是较早被广泛使用的计算机操作系统之一,它的第一版于1969年由 Ken Thompson 在 AT&T 贝尔实验室是实现,1973年 Ken Thompson 与 Dennis Ritchie 用C语言重写了 Unix 的第三版内核 二、开放源代码的发展 源代码
阅读全文
posted @ 2020-08-17 15:45 江湖有梦
阅读(416)
评论(0)
推荐(0)
2020年8月7日
11 提升爬虫效率和反扒
摘要: 提升scrapy爬取数据的效率 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 降低日志级别: 在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使
阅读全文
posted @ 2020-08-07 08:48 江湖有梦
阅读(177)
评论(0)
推荐(0)
2020年8月6日
10 分布式爬虫
摘要: 简介 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 分布式爬取的关键: 1、共享队列 2、重写Scheduler,让其无论是去重还是任务都去访问共享队列 3、为Scheduler定制去重规则(利用re
阅读全文
posted @ 2020-08-06 19:13 江湖有梦
阅读(129)
评论(0)
推荐(0)
09 scrapy的中间件
摘要: scrapy的中间件简介 1 都写在middlewares.py 2 爬虫中间件 3 下载中间件 4 要生效,一定要配置,配置文件 下载中间件: 下载中间件的用途 1、在process——request内,自定义下载,不用scrapy的下载 2、对请求进行二次加工,比如 设置请求头 设置cookie
阅读全文
posted @ 2020-08-06 19:12 江湖有梦
阅读(98)
评论(0)
推荐(0)
08 scrapy框架
摘要: scrapy介绍 通用的网络爬虫框架 架构介绍(框架) 一、scrapy执行流程 五大组件 -引擎(EGINE):大总管,负责控制数据的流向 -调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重 -下载器(DOWLOADER):用于下载网页内容, 并将网页内 容返回给EGINE,
阅读全文
posted @ 2020-08-06 14:49 江湖有梦
阅读(125)
评论(0)
推荐(0)
2020年8月5日
07 selenium的使用
摘要: selenium 为了解决requests无法直接执行JavaScript代码的问题 安装: pip3 install selenium 浏览器的驱动: ps:需要下载对应版本的浏览器 http://npm.taobao.org/mirrors/chromedriver/ 84.0.4147.105
阅读全文
posted @ 2020-08-05 16:14 江湖有梦
阅读(212)
评论(0)
推荐(0)
06 xpath选择器
摘要: xpath xpath: XPath 是一门在 XML 文档中查找信息的语言 三个关键: / 从根节点选取。 // 不管位置,直接找 /@属性名 文本内容: doc=''' <html> <head> <base href='http://example.com/' /> <title>Exampl
阅读全文
posted @ 2020-08-05 16:12 江湖有梦
阅读(140)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
20
下一页
公告