随笔分类 - Python爬虫
摘要:[TOC] 1.目标 爬取每个页面链接的内部内容和投诉信息 2.方法1:通过Spider爬取 python coding: utf 8 import scrapy from dongguanSpider.items import DongguanItem class SunSpider(scrapy
阅读全文
摘要:[TOC] 1.CrawlSpider介绍 通过下面的命令可以快速创建 CrawlSpider模板 的代码: 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获
阅读全文
摘要:[TOC] 1. Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最
阅读全文
摘要:[TOC] 1. Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item
阅读全文
摘要:[TOC] 1. Scrapy介绍 1.1. Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 (引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 (调
阅读全文
摘要:[TOC] 1. 目标 目标:https://hr.tencent.com/position.php?&start=0 a 爬取所有的职位信息信息 职位名 职位url 职位类型 职位人数 工作地点 发布时间 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文
阅读全文
摘要:[TOC] 1. 新建scrapy项目 得到了如下的文件 其内部文件结构如下: 2. 爬虫文件: 我们打算抓取:http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。 2.1. 查看需要爬取内容存在哪里: 我们可以通过respo
阅读全文
摘要:1. 获取AJAX加载动态页面的内容 1.1. Introduction 如果所爬取的网址是通过Ajax方式加载的,就直接抓包,拿他后面传输数据的文件 有些网页内容使用AJAX加载,只要记得,AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了。 拿到JSAON
阅读全文
摘要:[TOC] 1. URL的组成 汉字通过URL encode(UTF 8)编码出来的编码,里面的字符全是打字节 如果你复制粘贴下来这个网址,出来的不是汉字,而是编码后的字节 https://www.baidu.com/s?wd=%E7%BC%96%E7%A8%8B%E5%90%A7 我们也可以在py
阅读全文
摘要:[TOC] 1. urllib.request的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页,我们先学习urllib.request。 Python模块源代码: urllib.request源代码: 1.1 urlopen 我们
阅读全文
摘要:[TOC] 1. HTTP和HTTPS HTTP: 一种发布和接受HTML页面方法,端口号为80 HTTPS: HTTP的安全版,在HTTP上加入了SSL层,端口号为443 SSL: 用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全 网络爬虫可以理解为模拟
阅读全文
摘要:[TOC] 1. 为什么要爬虫? “大数据时代”,数据获取的方式: 大型企业公司有海量用户,需要收集数据来提升产品体验 【百度指数(搜索),阿里指数(网购),腾讯数据(社交)】 数据管理咨询公司: 通过数据团队专门提供大量数据,通过市场调研,问卷调查等 政府/机构提供的公开数据 中华人民共和国统计局
阅读全文

浙公网安备 33010602011771号