随笔分类 -  爬虫

爬虫----selenium模块
摘要:一、介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium im 阅读全文

posted @ 2018-07-04 08:36 TheLand 阅读(171) 评论(0) 推荐(0)

爬虫----Scrapy框架
摘要:一、介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2018-07-04 08:34 TheLand 阅读(335) 评论(0) 推荐(0)

爬虫----requests模块
摘要:一、介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 #安装 阅读全文

posted @ 2018-07-02 21:16 TheLand 阅读(156) 评论(0) 推荐(0)

爬虫----BeautifulSoup模块
摘要:一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文

posted @ 2018-07-02 21:15 TheLand 阅读(164) 评论(0) 推荐(0)

爬虫----爬虫基本原理
摘要:一、爬虫是什么? #1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 #2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则 阅读全文

posted @ 2018-07-02 21:14 TheLand 阅读(215) 评论(0) 推荐(0)