Python爬虫 - 随笔分类 - Bricker666

Scrapy框架-Spider和CrawlSpider的区别

摘要：[TOC] 1.目标爬取每个页面链接的内部内容和投诉信息 2.方法1：通过Spider爬取 python coding: utf 8 import scrapy from dongguanSpider.items import DongguanItem class SunSpider(scrapy 阅读全文

posted @ 2019-02-15 22:04 Bricker666 阅读(1117) 评论(0) 推荐(0)

Scrapy框架-CrawlSpider

摘要：[TOC] 1.CrawlSpider介绍通过下面的命令可以快速创建 CrawlSpider模板的代码：它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制，从爬取的网页中获阅读全文

posted @ 2019-02-15 15:16 Bricker666 阅读(512) 评论(0) 推荐(0)

Scrapy框架-Spider

摘要：[TOC] 1. Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最阅读全文

posted @ 2019-02-15 14:20 Bricker666 阅读(340) 评论(0) 推荐(0)

Scrapy框架-Item Pipeline

摘要：[TOC] 1. Item Pipeline 当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item 阅读全文

posted @ 2019-02-15 11:05 Bricker666 阅读(307) 评论(0) 推荐(0)

Scrapy框架

摘要：[TOC] 1. Scrapy介绍 1.1. Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。 (引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。 (调阅读全文

posted @ 2019-02-15 10:57 Bricker666 阅读(394) 评论(0) 推荐(0)

Scrapy案例02-腾讯招聘信息爬取

摘要：[TOC] 1. 目标目标：https://hr.tencent.com/position.php?&start=0 a 爬取所有的职位信息信息职位名职位url 职位类型职位人数工作地点发布时间 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文阅读全文

posted @ 2019-02-15 10:37 Bricker666 阅读(631) 评论(0) 推荐(0)

Scrapy案例01-爬取传智播客主页上的老师信息

摘要：[TOC] 1. 新建scrapy项目得到了如下的文件其内部文件结构如下： 2. 爬虫文件：我们打算抓取：http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。 2.1. 查看需要爬取内容存在哪里：我们可以通过respo 阅读全文

posted @ 2019-02-15 09:40 Bricker666 阅读(1286) 评论(0) 推荐(0)

Python爬虫-05：Ajax加载的动态页面内容

摘要：1. 获取AJAX加载动态页面的内容 1.1. Introduction 如果所爬取的网址是通过Ajax方式加载的，就直接抓包，拿他后面传输数据的文件有些网页内容使用AJAX加载，只要记得，AJAX一般返回的是JSON,直接对AJAX地址进行post或get，就返回JSON数据了。拿到JSAON 阅读全文

posted @ 2019-01-05 14:26 Bricker666 阅读(3099) 评论(0) 推荐(0)

Python爬虫-04：贴吧爬虫以及GET和POST的区别

摘要：[TOC] 1. URL的组成汉字通过URL encode(UTF 8)编码出来的编码，里面的字符全是打字节如果你复制粘贴下来这个网址，出来的不是汉字，而是编码后的字节 https://www.baidu.com/s?wd=%E7%BC%96%E7%A8%8B%E5%90%A7 我们也可以在py 阅读全文

posted @ 2019-01-04 16:46 Bricker666 阅读(1680) 评论(0) 推荐(0)

Python-爬虫03：urllib.request模块的使用

摘要：[TOC] 1. urllib.request的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页，我们先学习urllib.request。 Python模块源代码： urllib.request源代码: 1.1 urlopen 我们阅读全文

posted @ 2019-01-04 15:32 Bricker666 阅读(6816) 评论(0) 推荐(1)

Python爬虫-02：HTTPS请求与响应，以及抓包工具Fiddler的使用

摘要：[TOC] 1. HTTP和HTTPS HTTP：一种发布和接受HTML页面方法，端口号为80 HTTPS： HTTP的安全版，在HTTP上加入了SSL层，端口号为443 SSL：用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全网络爬虫可以理解为模拟阅读全文

posted @ 2018-12-31 15:03 Bricker666 阅读(1980) 评论(0) 推荐(0)

Python爬虫-01：爬虫的概念及分类

摘要：[TOC] 1. 为什么要爬虫? “大数据时代”，数据获取的方式：大型企业公司有海量用户，需要收集数据来提升产品体验【百度指数（搜索），阿里指数（网购），腾讯数据（社交）】数据管理咨询公司：通过数据团队专门提供大量数据，通过市场调研，问卷调查等政府/机构提供的公开数据中华人民共和国统计局阅读全文

posted @ 2018-12-31 14:24 Bricker666 阅读(1717) 评论(0) 推荐(0)

Hao

Hao的博客

随笔分类 - Python爬虫

公告