随笔分类 - 爬虫学习
摘要:注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态 或` COOKIES_ENABLED = False` 策略一:直接POST数据(比如需要登陆的账户信息) 只要是需要提供post数据的,就可以用这种方法。下面示例里post的数
阅读全文
摘要:1. 通常防止爬虫被反主要有以下几个策略 (1)动态设置User Agent(随机切换User Agent,模拟不同的浏览器) 方法1: 修改setting.py中的User Agent 方法2: 修改setting中的 DEFAULT_REQUEST_HEADERS 方法3 : 在代码中修改 (2
阅读全文
摘要:一 新浪新闻爬取 1 爬取新浪新闻(全站爬取) 项目搭建与开启 2 项目setting配置 3 启动文件start.py配置 4 需求目标item配置 5 爬虫逻辑文件配置mysina.py 方法二 :mysina.py也可采用scrapy创建请求 6 管道存储pipelines.py 方法二 :
阅读全文
摘要:1 parse()方法的工作机制: 2 CrawlSpiders:定义了一些规则跟进link 通过下面的命令可以快速创建 CrawlSpider模板 的代码: 上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以换个花样... 它是Spider的派生类,Spid
阅读全文
摘要:Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端
阅读全文
摘要:Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted(其主要对手是Tornado)多线程异步网络框架来处
阅读全文
摘要:1 多线程抓取 2 多协程抓取 3 多进程抓取 4 多线程加协程 5 多进程加协程
阅读全文
摘要:1 绘制条形图 2 绘制智联招聘职位岗位数量图 3 词云 “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只
阅读全文
摘要:1 jsonPath数据格式 pip安装: pip install jsonpath 用来解析json格式的字符串,类似于xpath (1) json对象的转换 (2) XPath与jsonPath格式对比 | XPath | JSONPath | Description | | | | | | /
阅读全文
摘要:爬虫入门之爬取策略 XPath与bs4实现(五) 在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略: 1 深度优先
阅读全文
摘要:1 Requests模块解析 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用 Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 U
阅读全文
摘要:1 自定义opener opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的模块构建好的opener 但是基本的urlopen()方法 不支持代理、cookie等其他的HTTP/HTTPS高级功能 。所以要支持这些功
阅读全文
摘要:爬虫入门之urllib库详解(二) 1 urllib模块 2 urllib读取网页的三种方式 urlopen直接打开 采用User Agent (用户代理,简称UA) 定制header信息 在 HTTP Request 中加入特定的 Header,来构造一个完整的HTTP请求消息。 可以通过调用Re
阅读全文
摘要:1 爬虫概述 (1)互联网爬虫 (2)核心任务 (3)爬虫语言 (4)爬虫分类 (5)整体框架 2 http协议 (1)常见端口 (2) http工作原理 (3) http常见的状态码 3 抓包工具fiddler (1) 配置https (2) Web Session 面板 主要是Fiddler抓取
阅读全文

浙公网安备 33010602011771号