python爬虫相关 - 随笔分类 - -Learning-

关于content-type请求头的说明

摘要：Content-Type请求头的作用，用于标记请求体数据的格式，如： 1. Content-Type:application/x-www-form-urlencoded 请求体：b'pwd=123&user=root' 2. Content-Type:application/json 请求体：{"p 阅读全文

posted @ 2018-10-31 19:27 -Learning- 阅读(274) 评论(0) 推荐(0)

RabbitMQ

摘要：消息队列（Message Queue）消息队列（MQ）是一种应用间的通信方式，消息发送后可以立即返回，由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到 MQ 中而不用管谁来取，消息使用者只管从 MQ 中取消息而不管是谁发布的。这样发布者和使用者都不用知道对方的存在为什么使用消息队列？阅读全文

posted @ 2018-10-28 19:17 -Learning- 阅读(222) 评论(0) 推荐(0)

爬虫相关问题总结

摘要：常见爬虫框架常见的反爬虫措施有哪些？ 1）通过 Headers 反爬虫从用户请求的 Headers 反爬虫是最常见的反爬虫策略。很多网站都会对 Headers 的 User-Agent进行检测，还有一部分网站会对 Referer 进行检测（一些资源网站的防盗链就是检测 Referer）。如果遇到阅读全文

posted @ 2018-10-08 14:55 -Learning- 阅读(419) 评论(0) 推荐(0)

爬虫之scrapy框架

摘要：1.scrapy框架介绍 Scrapy是用纯Python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架 Scrapy 特色是使用了 Twisted异步网络框架来处理网络通讯，加快了下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求 1.1 scrapy框架阅读全文

posted @ 2018-10-01 22:36 -Learning- 阅读(490) 评论(0) 推荐(0)

爬虫之Selenium模块

摘要：1.Selenium模块介绍该模块最初是一个自动化测试模块，而在爬虫中使用它是为了解决requests无法直接执行JavaScript代码的问题本质是驱动浏览器，完全模拟浏览器的操作，如跳转、输入、点击、下拉等 selenium支持的多种浏览器： from selenium import web 阅读全文

posted @ 2018-09-30 20:54 -Learning- 阅读(558) 评论(0) 推荐(0)

爬虫之Beautifulsoup及xpath

摘要：1.BeautifulSoup　(以 Python 风格的方式来对 HTML 或 XML 进行迭代，搜索和修改) 1.1 介绍 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不阅读全文

posted @ 2018-09-29 22:46 -Learning- 阅读(3484) 评论(2) 推荐(0)

爬虫之requests

摘要：1.爬虫介绍 1.1 什么是爬虫互联网最有价值的就是资源，爬虫要做的就是爬取资源，比如链家网的租房信息，拉勾网的求职信息，岛国的资源等等 1.2 爬虫流程发送请求 >获取响应 >爬取资源(下载资源) >解析数据 >数据持久化(mongodb数据库，redis数据库) 请求模块：requests模阅读全文

posted @ 2018-09-28 21:35 -Learning- 阅读(398) 评论(0) 推荐(0)

Learning

随笔分类 - python爬虫相关

公告