摘要: 一、正则表达式的含义 定义:即文本的高级匹配模式,提供搜索替换等功能.其本质是一系列由字符和特殊符号组成的字符串,这个字符串即正则表达式 匹配原理:由普通的字符和特殊符号构成,通过描述字符的重复,位置,种类等行为达到匹配某一类字符串的目的 正则特点:方便处理文本,支持语言众多,使用灵活多样 二、正则 阅读全文
posted @ 2020-10-10 21:09 妖魑 阅读(302) 评论(0) 推荐(0)
摘要: re.match 从头开始匹配 re.search 匹配包含 re.findall 把所有匹配到的字符放到以列表中的元素返回 re.split 以匹配到的字符当做列表分隔符 re.sub 匹配字符并替换 re.fullmatch 全部匹配 re.split() 阅读全文
posted @ 2020-10-10 21:04 妖魑 阅读(717) 评论(0) 推荐(0)
摘要: 一、网络爬虫 定义:网络蜘蛛 网络机器人,抓取网络数据的程序 总结:用Python程序模仿人类去访问网站,模仿的越逼真越好 爬取数据目的:通过有效地大量数据分析市场走势,公司决策 二、爬虫分类 通用网络爬虫(搜索引擎用,遵守robots协议) 聚焦爬虫:自己写的爬虫程序,面向需求的爬虫 三、软件环境 阅读全文
posted @ 2020-10-10 21:02 妖魑 阅读(90) 评论(0) 推荐(0)
摘要: # 1.创建请求对象(Request()) url = "http://..." # 1.1 添加多个请求头,每次放一个进行访问 # list = [agent1,agent2,agent3,agent4,agent5] # agent = random.choice(list) headers = 阅读全文
posted @ 2020-10-10 20:36 妖魑 阅读(149) 评论(0) 推荐(0)
摘要: 1、compile() 编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一点效率。) 格式: re.compile(pattern,flags=0) pattern: 编译时用的表达式字符串。 flags 编译标志位,用于修改正则表达式的匹配方式 阅读全文
posted @ 2020-10-10 20:28 妖魑 阅读(43) 评论(0) 推荐(0)
摘要: 转载自:https://blog.csdn.net/qq_38783948/article/details/88239109 1.urllib.request 我们都知道,urlopen()方法能发起最基本对的请求发起,但仅仅这些在我们的实际应用中一般都是不够的,可能我们需要加入headers之类的 阅读全文
posted @ 2020-10-10 20:23 妖魑 阅读(69) 评论(0) 推荐(0)
摘要: 爬虫里面,我们不可避免的要用urllib中的urlopen()和requests.get()方法去请求或获取一个网页的内容,这里面的区别在于urlopen打开URL网址,url参数可以是一个字符串url或者是一个Request对象,返回的是http.client.HTTPResponse对象.htt 阅读全文
posted @ 2020-10-05 09:33 妖魑 阅读(154) 评论(0) 推荐(0)