爬虫 - 随笔分类 - HeiTangMuSi

Scrapy框架

摘要：一介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2019-05-31 10:07 HeiTangMuSi 阅读(196) 评论(0) 推荐(0)

破解滑动验证

该文被密码保护。

posted @ 2019-05-30 08:36 HeiTangMuSi 阅读(5) 评论(0) 推荐(0)

BeautifulSoup与Xpath

摘要：BeautifulSoup 一简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： ''' Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要阅读全文

posted @ 2019-05-29 23:59 HeiTangMuSi 阅读(453) 评论(0) 推荐(0)

requests请求库

摘要：一介绍 Python内置为我们提供了一个内置的模块叫urllib，是用于访问网络资源的，但是由于它内部缺少一些实用的功能，所以用起来比较麻烦。后来出现了一个第三方模块叫 "Requests"，Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池，支持使用c 阅读全文

posted @ 2019-05-28 23:09 HeiTangMuSi 阅读(523) 评论(0) 推荐(0)

selenium模块

摘要：一介绍 # selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。 # selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器。 from se 阅读全文

posted @ 2019-05-28 22:56 HeiTangMuSi 阅读(128) 评论(0) 推荐(0)

爬虫基本原理

摘要：一爬虫是什么 1. 爬虫介绍 ''' 近年来，随着网络应用的逐渐扩展和深入，如何高效的获取网上数据成为了无数公司和个人的追求，在大数据时代，谁掌握了更多的数据，谁就可以获得更高的利益，而网络爬虫是其中最为常用的一种从网上爬取数据的手段。网络爬虫，即Web Spider，是一个很形象的名字。如果把阅读全文

posted @ 2019-05-28 22:46 HeiTangMuSi 阅读(649) 评论(0) 推荐(0)

随笔分类 - 爬虫

公告