随笔分类 - python爬虫相关
摘要:Content-Type请求头的作用,用于标记请求体数据的格式,如: 1. Content-Type:application/x-www-form-urlencoded 请求体:b'pwd=123&user=root' 2. Content-Type:application/json 请求体:{"p
阅读全文
摘要:消息队列(Message Queue) 消息队列(MQ)是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到 MQ 中而不用管谁来取,消息使用者只管从 MQ 中取消息而不管是谁发布的。这样发布者和使用者都不用知道对方的存在 为什么使用消息队列?
阅读全文
摘要:常见爬虫框架 常见的反爬虫措施有哪些? 1)通过 Headers 反爬虫 从用户请求的 Headers 反爬虫是最常见的反爬虫策略。很多网站都会对 Headers 的 User-Agent进行检测,还有一部分网站会对 Referer 进行检测(一些资源网站的防盗链就是检测 Referer)。如果遇到
阅读全文
摘要:1.scrapy框架介绍 Scrapy是用纯Python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架 Scrapy 特色是使用了 Twisted异步网络框架来处理网络通讯,加快了下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求 1.1 scrapy框架
阅读全文
摘要:1.Selenium模块介绍 该模块最初是一个自动化测试模块,而在爬虫中使用它是为了解决requests无法直接执行JavaScript代码的问题 本质是驱动浏览器,完全模拟浏览器的操作,如跳转、输入、点击、下拉等 selenium支持的多种浏览器: from selenium import web
阅读全文
摘要:1.BeautifulSoup (以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改) 1.1 介绍 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不
阅读全文
摘要:1.爬虫介绍 1.1 什么是爬虫 互联网最有价值的就是资源,爬虫要做的就是爬取资源,比如链家网的租房信息,拉勾网的求职信息,岛国的资源等等 1.2 爬虫流程 发送请求 >获取响应 >爬取资源(下载资源) >解析数据 >数据持久化(mongodb数据库,redis数据库) 请求模块:requests模
阅读全文

浙公网安备 33010602011771号