摘要:
""" 1) . 表示任何单个字符 2)[] 字符集, 对单个字符给出取值范围 [abc]表示a、b、c, [a-z]表示a到z单个字符 3)[^]非字符集, 对单个字符给出排除范围, [^abc] 除了a、b、c的单个字符 4)* 前一个字符0次或无限次扩展 abc* 表示ab,abc,abcc,abccc等 5)+ 前一个字符1次或者无限次扩展 abc+ 表示 abc, abcc,... 阅读全文
posted @ 2019-07-22 17:02
wy0925
阅读(145)
评论(0)
推荐(0)
摘要:
所看视频: https://www.bilibili.com/video/av9784617/?p=34 一, Beautifulsoup是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 二,安装: pipenv insta 阅读全文
posted @ 2019-07-22 11:57
wy0925
阅读(850)
评论(0)
推荐(0)
摘要:
好的网络爬虫, 首先需要遵守Robots协议, Robots协议:也称为爬虫协议,机器人协议, 全称是"网络爬虫排除标准", 通过Robots协议高速搜索引擎哪些页面可以抓取,哪些页面不能抓取 在网站根目录下放一个robots.txt文本文件(如 https://www.taobao.com/rob 阅读全文
posted @ 2019-07-22 09:58
wy0925
阅读(399)
评论(0)
推荐(0)