网络爬虫 - 随笔分类 - 拓睿峰

常见的反爬虫和应对方法

摘要：0x01 常见的反爬虫这几天在爬一个网站，网站做了很多反爬虫工作，爬起来有些艰难，花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。一般网站从三个方面反爬虫：用户请求的He 阅读全文

posted @ 2018-06-09 22:42 拓睿峰阅读(423) 评论(0) 推荐(0)

referrer policy

摘要：我们知道，在页面引入图片、JS 等资源，或者从一个页面跳到另一个页面，都会产生新的 HTTP 请求，浏览器一般都会给这些请求头加上表示来源的 Referrer 字段。Referrer 在分析用户来源时很有用，有着广泛的使用。但 URL 可能包含用户敏感信息，如果被第三方网站拿到很不安全（例如之前不少阅读全文

posted @ 2018-06-09 22:31 拓睿峰阅读(351) 评论(0) 推荐(0)

XML与HTML的作用不同

摘要：1. html是用来显示数据的；xml是用来描述数据、存放数据的，所以可以作为持久化的介质！Html将数据和显示结合在一起，在页面中把这数据显示出来；xml 则将数据和显示分开。 XML被设计用来描述数据，其焦点是数据的内容。HTML被设计用来显示数据，其焦点是数据的外观。 2. xml不是HTML 阅读全文

posted @ 2018-01-30 17:04 拓睿峰阅读(499) 评论(0) 推荐(0)

正则表达式、BeautifulSoup、Lxml进行性能对比

摘要：爬取方法性能使用难度安装难度正则表达式快困难简单（内置） BeautifulSoup 慢简单简单 Lxml 快简单相对困难阅读全文

posted @ 2018-01-25 15:12 拓睿峰阅读(448) 评论(0) 推荐(0)

网络爬虫re模块的findall()函数

摘要：findall()函数匹配所有符合规律的内容，并以列表的形式返回结果。第一个参数，正则表达式第二个参数，搜索的a 第三个参数，匹配的模式，其中re.S使匹配包括换行在内的所有字符。findall()函数是逐行匹配的。阅读全文

posted @ 2018-01-23 15:56 拓睿峰阅读(5492) 评论(0) 推荐(0)

网络爬虫构造出URL的列表数据

摘要：urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(number) for number in range(1,14)] #构造出13页URL的列表数据for url in urls: print(url) 阅读全文

posted @ 2018-01-21 10:48 拓睿峰阅读(752) 评论(0) 推荐(0)

拓睿峰

随笔分类 - 网络爬虫

公告