摘要:
一、正则表达式的含义 定义:即文本的高级匹配模式,提供搜索替换等功能.其本质是一系列由字符和特殊符号组成的字符串,这个字符串即正则表达式 匹配原理:由普通的字符和特殊符号构成,通过描述字符的重复,位置,种类等行为达到匹配某一类字符串的目的 正则特点:方便处理文本,支持语言众多,使用灵活多样 二、正则 阅读全文
posted @ 2020-10-10 21:09
妖魑
阅读(302)
评论(0)
推荐(0)
摘要:
re.match 从头开始匹配 re.search 匹配包含 re.findall 把所有匹配到的字符放到以列表中的元素返回 re.split 以匹配到的字符当做列表分隔符 re.sub 匹配字符并替换 re.fullmatch 全部匹配 re.split() 阅读全文
posted @ 2020-10-10 21:04
妖魑
阅读(717)
评论(0)
推荐(0)
摘要:
一、网络爬虫 定义:网络蜘蛛 网络机器人,抓取网络数据的程序 总结:用Python程序模仿人类去访问网站,模仿的越逼真越好 爬取数据目的:通过有效地大量数据分析市场走势,公司决策 二、爬虫分类 通用网络爬虫(搜索引擎用,遵守robots协议) 聚焦爬虫:自己写的爬虫程序,面向需求的爬虫 三、软件环境 阅读全文
posted @ 2020-10-10 21:02
妖魑
阅读(90)
评论(0)
推荐(0)
摘要:
# 1.创建请求对象(Request()) url = "http://..." # 1.1 添加多个请求头,每次放一个进行访问 # list = [agent1,agent2,agent3,agent4,agent5] # agent = random.choice(list) headers = 阅读全文
posted @ 2020-10-10 20:36
妖魑
阅读(149)
评论(0)
推荐(0)
摘要:
1、compile() 编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一点效率。) 格式: re.compile(pattern,flags=0) pattern: 编译时用的表达式字符串。 flags 编译标志位,用于修改正则表达式的匹配方式 阅读全文
posted @ 2020-10-10 20:28
妖魑
阅读(43)
评论(0)
推荐(0)
摘要:
转载自:https://blog.csdn.net/qq_38783948/article/details/88239109 1.urllib.request 我们都知道,urlopen()方法能发起最基本对的请求发起,但仅仅这些在我们的实际应用中一般都是不够的,可能我们需要加入headers之类的 阅读全文
posted @ 2020-10-10 20:23
妖魑
阅读(69)
评论(0)
推荐(0)

浙公网安备 33010602011771号