妖魑 - 博客园

2020年10月10日

摘要：一、正则表达式的含义定义：即文本的高级匹配模式,提供搜索替换等功能.其本质是一系列由字符和特殊符号组成的字符串,这个字符串即正则表达式匹配原理：由普通的字符和特殊符号构成,通过描述字符的重复,位置,种类等行为达到匹配某一类字符串的目的正则特点：方便处理文本，支持语言众多，使用灵活多样二、正则阅读全文

posted @ 2020-10-10 21:09 妖魑阅读(304) 评论(0) 推荐(0)

re.2-正则表达式语法

摘要： re.match 从头开始匹配 re.search 匹配包含 re.findall 把所有匹配到的字符放到以列表中的元素返回 re.split 以匹配到的字符当做列表分隔符 re.sub 匹配字符并替换 re.fullmatch 全部匹配 re.split() 阅读全文

posted @ 2020-10-10 21:04 妖魑阅读(724) 评论(0) 推荐(0)

spider.1-了解爬虫

摘要：一、网络爬虫定义:网络蜘蛛网络机器人,抓取网络数据的程序总结:用Python程序模仿人类去访问网站,模仿的越逼真越好爬取数据目的:通过有效地大量数据分析市场走势,公司决策二、爬虫分类通用网络爬虫(搜索引擎用,遵守robots协议) 聚焦爬虫：自己写的爬虫程序，面向需求的爬虫三、软件环境阅读全文

posted @ 2020-10-10 21:02 妖魑阅读(90) 评论(0) 推荐(0)

spider.2-爬虫的基础

摘要： # 1.创建请求对象(Request()) url = "http://..." # 1.1 添加多个请求头，每次放一个进行访问 # list = [agent1,agent2,agent3,agent4,agent5] # agent = random.choice(list) headers = 阅读全文

posted @ 2020-10-10 20:36 妖魑阅读(151) 评论(0) 推荐(0)

spider.3-爬虫中的re

摘要： 1、compile() 编译正则表达式模式，返回一个对象的模式。（可以把那些常用的正则表达式编译成正则表达式对象，这样可以提高一点效率。）格式： re.compile(pattern,flags=0) pattern: 编译时用的表达式字符串。 flags 编译标志位，用于修改正则表达式的匹配方式阅读全文

posted @ 2020-10-10 20:28 妖魑阅读(45) 评论(0) 推荐(0)

spider.?-python中urllib.request和requests的使用和区别

摘要：转载自：https://blog.csdn.net/qq_38783948/article/details/88239109 1.urllib.request 我们都知道，urlopen()方法能发起最基本对的请求发起，但仅仅这些在我们的实际应用中一般都是不够的，可能我们需要加入headers之类的阅读全文

posted @ 2020-10-10 20:23 妖魑阅读(70) 评论(0) 推荐(0)

2020年10月5日

spider.？-python中request.urlopen()和requests.get()方法的区别

摘要：爬虫里面,我们不可避免的要用urllib中的urlopen()和requests.get()方法去请求或获取一个网页的内容,这里面的区别在于urlopen打开URL网址,url参数可以是一个字符串url或者是一个Request对象,返回的是http.client.HTTPResponse对象.htt 阅读全文

posted @ 2020-10-05 09:33 妖魑阅读(165) 评论(0) 推荐(0)

妖魑

公告