Fork me on GitHub

随笔分类 -  Python爬虫

摘要:[TOC] 1.目标 爬取每个页面链接的内部内容和投诉信息 2.方法1:通过Spider爬取 python coding: utf 8 import scrapy from dongguanSpider.items import DongguanItem class SunSpider(scrapy 阅读全文
posted @ 2019-02-15 22:04 Bricker666 阅读(1112) 评论(0) 推荐(0)
摘要:[TOC] 1.CrawlSpider介绍 通过下面的命令可以快速创建 CrawlSpider模板 的代码: 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获 阅读全文
posted @ 2019-02-15 15:16 Bricker666 阅读(499) 评论(0) 推荐(0)
摘要:[TOC] 1. Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最 阅读全文
posted @ 2019-02-15 14:20 Bricker666 阅读(329) 评论(0) 推荐(0)
摘要:[TOC] 1. Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item 阅读全文
posted @ 2019-02-15 11:05 Bricker666 阅读(303) 评论(0) 推荐(0)
摘要:[TOC] 1. Scrapy介绍 1.1. Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 (引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 (调 阅读全文
posted @ 2019-02-15 10:57 Bricker666 阅读(388) 评论(0) 推荐(0)
摘要:[TOC] 1. 目标 目标:https://hr.tencent.com/position.php?&start=0 a 爬取所有的职位信息信息 职位名 职位url 职位类型 职位人数 工作地点 发布时间 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文 阅读全文
posted @ 2019-02-15 10:37 Bricker666 阅读(612) 评论(0) 推荐(0)
摘要:[TOC] 1. 新建scrapy项目 得到了如下的文件 其内部文件结构如下: 2. 爬虫文件: 我们打算抓取:http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。 2.1. 查看需要爬取内容存在哪里: 我们可以通过respo 阅读全文
posted @ 2019-02-15 09:40 Bricker666 阅读(1276) 评论(0) 推荐(0)
摘要:1. 获取AJAX加载动态页面的内容 1.1. Introduction 如果所爬取的网址是通过Ajax方式加载的,就直接抓包,拿他后面传输数据的文件 有些网页内容使用AJAX加载,只要记得,AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了。 拿到JSAON 阅读全文
posted @ 2019-01-05 14:26 Bricker666 阅读(3096) 评论(0) 推荐(0)
摘要:[TOC] 1. URL的组成 汉字通过URL encode(UTF 8)编码出来的编码,里面的字符全是打字节 如果你复制粘贴下来这个网址,出来的不是汉字,而是编码后的字节 https://www.baidu.com/s?wd=%E7%BC%96%E7%A8%8B%E5%90%A7 我们也可以在py 阅读全文
posted @ 2019-01-04 16:46 Bricker666 阅读(1674) 评论(0) 推荐(0)
摘要:[TOC] 1. urllib.request的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页,我们先学习urllib.request。 Python模块源代码: urllib.request源代码: 1.1 urlopen 我们 阅读全文
posted @ 2019-01-04 15:32 Bricker666 阅读(6798) 评论(0) 推荐(1)
摘要:[TOC] 1. HTTP和HTTPS HTTP: 一种发布和接受HTML页面方法,端口号为80 HTTPS: HTTP的安全版,在HTTP上加入了SSL层,端口号为443 SSL: 用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全 网络爬虫可以理解为模拟 阅读全文
posted @ 2018-12-31 15:03 Bricker666 阅读(1974) 评论(0) 推荐(0)
摘要:[TOC] 1. 为什么要爬虫? “大数据时代”,数据获取的方式: 大型企业公司有海量用户,需要收集数据来提升产品体验 【百度指数(搜索),阿里指数(网购),腾讯数据(社交)】 数据管理咨询公司: 通过数据团队专门提供大量数据,通过市场调研,问卷调查等 政府/机构提供的公开数据 中华人民共和国统计局 阅读全文
posted @ 2018-12-31 14:24 Bricker666 阅读(1715) 评论(0) 推荐(0)