摘要: Beautifulsoup模块 一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful So 阅读全文
posted @ 2019-01-20 11:23 拓荒牛wr 阅读(197) 评论(0) 推荐(0) 编辑
摘要: <!--done--> requests模块 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析 阅读全文
posted @ 2019-01-20 11:21 拓荒牛wr 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 爬虫基本原理 一 爬虫是什么 #1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 #2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享 阅读全文
posted @ 2019-01-20 10:48 拓荒牛wr 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 1.Headers: 从用户的headers进行反爬是最常见的反爬策略,Headers是一种最常见的反爬机制Headers是一种区分浏览器行为和机器行为中最简单的方法,还有一些网站会对Referer (上级链接)进行检测 从而实现爬虫。 相应的解决措施:通过审查元素或者开发者工具获取相应的heade 阅读全文
posted @ 2019-01-20 10:00 拓荒牛wr 阅读(3536) 评论(0) 推荐(0) 编辑