摘要:
1.学习 Python 包并实现基本的爬虫过程2.了解非结构化数据的存储3.学习scrapy,搭建工程化爬虫4.学习数据库知识,应对大规模数据存储与提取5.掌握各种技巧,应对特殊网站的反爬措施6.分布式爬虫,实现大规模并发采集,提升效率- -学习 Python 包并实现基本的爬虫过程大部分Pytho 阅读全文
posted @ 2022-04-19 15:54
cooler101
阅读(55)
评论(0)
推荐(0)
摘要:
Windows Subsystem for Linux(简称WSL)是一个在Windows 10上能够运行原生Linux二进制可执行文件(ELF格式)的兼容层。 阅读全文
posted @ 2022-04-19 15:49
cooler101
阅读(81)
评论(0)
推荐(0)
摘要:
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT / 阅读全文
posted @ 2022-04-19 15:38
cooler101
阅读(19)
评论(0)
推荐(0)
摘要:
index页采集urls判断 @config(age=10 * 24 * 60 * 60) def index_page(self, response): for each in response.doc('a[href^="http"]').items(): if re.match('http:/ 阅读全文
posted @ 2022-04-19 14:11
cooler101
阅读(34)
评论(0)
推荐(0)

浙公网安备 33010602011771号