会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Norni
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
5
6
7
8
9
10
11
12
13
···
28
下一页
2020年8月6日
一、数据结构与算法
摘要: 一、数据结构和算法基础 1.算法的概念 算法是独立存在的一种解决问题的方法和思想 算法的五大特性: 输入:算法具有0个或多个输入 输出:算法至少有1个或多个输出 有穷性:算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在可接受的时间内完成 确定性:算法中的每一步都有确定的含义,不会出
阅读全文
posted @ 2020-08-06 23:32 Norni
阅读(612)
评论(0)
推荐(0)
2020年7月30日
一、Docker
摘要: 1、Docker介绍 官方中文文档 http://www.dockerinfo.net/document 安装docker sudo apt install docker.io 使用docker 方法一 以管理员权限,运行docker命令 方法二 sudo groupadd docker # 添加d
阅读全文
posted @ 2020-07-30 01:56 Norni
阅读(106)
评论(0)
推荐(0)
2020年7月29日
搜狗微信爬虫项目
摘要: 搜狗微信爬虫项目 一、需求分析 1、概述 1.1 项目简介 基于搜狗微信搜索的微信公众号爬虫接口 ###2、需求分析 获取公众号信息 通过api,输入特定公众号,能查找相关信息 相关信息 { 'public_name':str # 公众号名称 'wechat_id':str # 微信id "publ
阅读全文
posted @ 2020-07-29 11:00 Norni
阅读(1095)
评论(0)
推荐(0)
2020年7月28日
二十八、scrapy学习路线
摘要: scrapy初级 起始url parse 选择器 pipeline requests POST cookie Headers scrapy进阶 去重 调度器(队列) 中间件 扩展(基于信号) https 代理(基于中间件) scrapy高级 miniscrapy模拟scrapy流程
阅读全文
posted @ 2020-07-28 16:21 Norni
阅读(184)
评论(0)
推荐(0)
二十七、miniscrapy,scrapy源码初解
摘要: 基本使用 from twisted.web.client import getPage, defer from twisted.internet import reactor # 基本使用 def all_done(contents): # 所有爬虫执行完毕后,循环终止 reactor.stop()
阅读全文
posted @ 2020-07-28 16:17 Norni
阅读(139)
评论(0)
推荐(0)
2020年7月27日
二十六、Scrapy自定义命令
摘要: 创建命令目录及文件 settings.py中定义命令 代码 from scrapy.commands import ScrapyCommandclass Command(ScrapyCommand): requires_project = True def syntax(self): retu
阅读全文
posted @ 2020-07-27 21:56 Norni
阅读(193)
评论(0)
推荐(0)
2020年7月25日
二十五、scrapy中的去重规则及自定义
摘要: 在settings.py中,虽然没有明确写出来去重方式,但是默认为以下内容 DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' DUPEFILTER_CLASS = False JOBDIR = "保存范文记录的日志路径,如:/root/" #
阅读全文
posted @ 2020-07-25 16:14 Norni
阅读(373)
评论(0)
推荐(0)
二十四、在scrapy中如何获取cookies
摘要: import scrapyclass BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['www.baidu.com'] start_urls = ['http://www.baidu.com/'] def parse(sel
阅读全文
posted @ 2020-07-25 15:09 Norni
阅读(1186)
评论(0)
推荐(0)
十六、 IO多路复用,异步非阻塞
摘要: 总结: 与实现twisted或tornado的原理类似,通过理解这个代码,能实现其他异步框架的理解 参考: IO模型:https://www.cnblogs.com/nuochengze/p/13372747.html socket在爬虫中的表层应用:https://www.cnblogs.com/
阅读全文
posted @ 2020-07-25 10:36 Norni
阅读(132)
评论(0)
推荐(0)
2020年7月24日
六、socketserver
摘要: socketserver能实现socket服务器端的多并发 import socketserver class MyRequestHandle(socketserver.BaseRequestHandler): def handle(self): # self.request,如果是tcp协议,那么
阅读全文
posted @ 2020-07-24 17:03 Norni
阅读(108)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
10
11
12
13
···
28
下一页
公告