spider - 文章分类(第3页) - 沐风先生

摘要：单线程爬虫 ''' cost time: 61s ''' # coding=utf-8 import requests from lxml import etree import time class QiuBai: def __init__(self): self.temp_url = "http 阅读全文

posted @ 2019-04-11 22:02 沐风先生阅读(168) 评论(0) 推荐(0)

spider【第五篇】常见的反爬手段和解决思路

摘要：反反爬的主要思路 1.尽可能的去模拟浏览器，浏览器在如何操作，代码中就如何去实现。 2.wap 和app的数据反反爬一般不厉害通过headers字段来反爬把headers的信息copy到程序的headers：如常见的User-Agent Content-type referer Cookie 等阅读全文

posted @ 2019-04-10 23:22 沐风先生阅读(745) 评论(0) 推荐(0)

spider【第四篇】数据的提取方法

摘要：数据的分类我们知道，成功发出请求并获取响应后，这时候就要从数据中提取目标数据了。 lxml 1. 为什么要学习lxml lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息 2.什么是xpath XPath (XML Path 阅读全文

posted @ 2019-04-10 21:44 沐风先生阅读(518) 评论(0) 推荐(0)

spider【第三篇】python爬虫模块requests

摘要：requests简介 requests模块是python3自带的库，可直接使用，该库主要用来处理http请求中文文档： http://docs.python-requests.org/zh_CN/latest/index.html requests模块的简单使用 requests模块发送简单的请阅读全文

posted @ 2019-04-06 19:51 沐风先生阅读(923) 评论(0) 推荐(0)

spider【第二篇】HTTP请求过程

摘要：浏览器发送HTTP请求的过程调出网页分析工具：鼠标右键 >检测可以看到，返回了很多资源，但是我们只需要找到url的这个文件即可，学过WEB的可能知道，其实除了文件www.baidu.com之外，其它都是一些前端（css js）和资源(image video)文件 Request URL: htt 阅读全文

posted @ 2019-04-06 18:58 沐风先生阅读(333) 评论(0) 推荐(0)

spider【第一篇】爬虫入门

摘要：为什么要学习爬虫既然是模拟认为操作浏览器和APP，那数据所有人都能看到，应该是不值钱的，那为啥还要用爬虫? 众所周知，互联网已经进入了下半场，上半场积累的数据非常多，要从海量的数据中高效提取出目标数据用于数据分析、人工智能、甚至抄袭同类产品(参考今日头条)。 OK，高效提取出目标数据就是爬虫的意义阅读全文

posted @ 2019-04-06 18:15 沐风先生阅读(262) 评论(0) 推荐(0)

spider【第八篇】Scrapy突破反爬虫的限制

摘要：setting文件随机更换user-agent 每次url请求更换一次user-agent settings middlewares ip代理方案一：免费版自定义函数获取网上的一些免费代理ip settings middlewares 方案二：收费版 github上scrapy-proxies 阅读全文

posted @ 2017-11-23 01:26 沐风先生阅读(5463) 评论(0) 推荐(0)

spider【第七篇】Scrapy基本操作

摘要：通过前面的学习，我们已经能够解决90%的爬虫问题了，那么scrapy是为了解决剩下的10%的问题么，不是，scrapy框架能够让我们的爬虫效率更高官方文档 https://scrapy-chs.readthedocs.io/zh_CN/latest/ why scrapy 爬虫是IO密集型任务，因阅读全文

posted @ 2017-11-21 03:03 沐风先生阅读(684) 评论(0) 推荐(0)

mufengsir

文章分类 - spider

公告