会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
张京墨
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
13
14
15
16
17
18
19
下一页
2019年9月8日
面试题:总结
摘要: 1. 进程和线程的区别 线程是运行在进程里面的,进程可以包含多个线程,一个线程只能属于一个进程。 线程会存在资源竞争的问题,因为数据共享是用的全局变量,进程之间的数据共享用的是内存。 进程消耗资源大,多用于计算密集型,线程消耗资源小,多用于IO密集型。
阅读全文
posted @ 2019-09-08 15:30 张京墨
阅读(152)
评论(0)
推荐(0)
2019年9月7日
爬虫技术:去重知识点
摘要: 1. 去重的场景 url去重:防止发送重复请求 数据文本去重:防止储存重复数据 2.数据去重的原理 什么类型的数据: 重复的依据是什么: 例如: data1 = ["123",123,"456","qwe","qwe"] 列表去重方法: 例如: data1 = ["123",123,"456","q
阅读全文
posted @ 2019-09-07 23:07 张京墨
阅读(658)
评论(0)
推荐(0)
2019年9月5日
爬虫技术:scrapy 知识点一
摘要: 恢复内容开始 1.scrapy框架 每一步的解释: step1:引擎从爬虫器获取要爬行的初始请求。 step2:引擎在调度程序中调度请求,引擎把这个初始请求传递给调度器,并向调度器索要下一个请求。 step3:调度程序将下一个请求返回给引擎。 step4:引擎通过下载器中间件将请求发送给下载器。 s
阅读全文
posted @ 2019-09-05 16:18 张京墨
阅读(400)
评论(0)
推荐(0)
2019年9月1日
爬虫技术:分布式
摘要: 1.简单的分布式流程图 分布式: 多进程分布式爬虫的案例: 模块共6个:控制管理类(control_manager.py),网页内容下载类(download.py),页面解析类(Htmparse.py),数据写入类(save_manager.py),url管理类(url_manager.py),爬虫
阅读全文
posted @ 2019-09-01 21:29 张京墨
阅读(308)
评论(0)
推荐(0)
爬虫技术:携程爬虫阳光问政数据
摘要: 携程爬取阳光问帖子:进行了简单的数据存储,数据量共145226条,爬取时间为:3.65小时,实际时间感觉要多于统计时间。 代码如下: 复习协程的知识: 多线程会抢抢夺公共资源,因此会造成公共资源的不安全,需要通过线程锁进行解决,那么多个携程为什么不存在这个情况呢? 因为多个协程也是在一个线程里面进行
阅读全文
posted @ 2019-09-01 20:44 张京墨
阅读(512)
评论(0)
推荐(0)
docker:docker的基本了解
摘要: 1.什么是docker 简单的理解:docker相当于vmvare,容器相当于多个虚拟机,vmvare上可以运行ubantu16.04的虚拟机,也可以运行centos虚拟机,还可以运行redhat虚拟机。 容器:完全隔离的环境,例如vmvare上两个虚拟机是相互隔离的。每一个虚拟机都得安装操作系统,
阅读全文
posted @ 2019-09-01 18:48 张京墨
阅读(512)
评论(0)
推荐(0)
mongodb数据库
摘要: 1. mongodb是什么? NoSQL 非关系型数据库,主要用于数据的海量存储。分为server数据存储端和client数据操作端。 关系型与非关系型数据库的区别? sql:数据库--表--数据 nosql:数据库 集合--文档 2.mongoddb优势 1. 扩展性2. 大数据型,高性能3. 灵
阅读全文
posted @ 2019-09-01 16:13 张京墨
阅读(1162)
评论(0)
推荐(0)
2019年8月29日
数据库与缓存:3.mongodb的基本知识
摘要: 1. mongodb是什么? NoSQL 非关系型数据库,主要用于数据的海量存储。分为server数据存储端和client数据操作端。 1.1 关系型与非关系型数据库的区别? 1.sql:数据库 表 数据 2. nosql:数据库 集合 文档 2.mongoddb优势 1. 扩展性 2. 大数据型,
阅读全文
posted @ 2019-08-29 19:48 张京墨
阅读(720)
评论(0)
推荐(0)
2019年8月25日
数据库与缓存:2.Redis数据库的基本知识
摘要: 1.属于什么类型的数据库 not only sql 非关系型数据库,与传统的关系型数据库不同,存储形式都是kv形式。 2.特点 几乎不支持事务,key-value形式存储,支持队列和缓存(可以设置数据的过期时间) 2.1 数据存储的持久化 可以将内存中的数据保存在磁盘上,重启是可以加载磁盘的内容进行
阅读全文
posted @ 2019-08-25 20:26 张京墨
阅读(1263)
评论(0)
推荐(0)
2019年8月16日
python爬虫:2.每天爬取数据量是多少?
摘要: 带宽 网站阈值 单机 分布式 几百万
阅读全文
posted @ 2019-08-16 16:59 张京墨
阅读(897)
评论(0)
推荐(0)
上一页
1
···
13
14
15
16
17
18
19
下一页
公告