Spider - 随笔分类 - Python不秋

[转载]Python爬虫之xpath使用技巧

摘要：原文地址：知乎-Python爬虫之xpath使用技巧 XPath是一种表达式语言，它的返回值可能是节点，节点集合，原子值，以及节点和原子值的混合等。XPath2.0是XPath1.0的超集。它是对XPath1.0的扩展，它可以支持更加丰富的数据类型，并且XPath2.0保持了对XPath1.0的相阅读全文

posted @ 2021-03-01 10:27 Python不秋阅读(235) 评论(0) 推荐(0)

Python爬虫 - UserAgent列表

摘要：PC端： PC_USER_AGENT = [ 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)', 'Mozilla/4.0 ( 阅读全文

posted @ 2020-03-09 12:31 Python不秋阅读(752) 评论(0) 推荐(0)

Spider-天眼查字体反爬

摘要：字体反爬也就是自定义字体反爬，通过调用自定义的woff文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容！ 1.思路近期在爬取天眼查某公司详情页遇到了字体反爬，经过多次测试，终于解决了字体反爬首先我们来看一下字体反爬此图可以阅读全文

posted @ 2019-01-21 10:59 Python不秋阅读(3085) 评论(4) 推荐(4)

Spider-scrapy 中的 xpath 语法与调试

摘要：把setting中的机器人过滤设为False 1 语法 artcile 选取所有子节点 /article 选取根元素 artile article/a 选取所有属于artile的子元素中的a元素 //div 选取所有 div 元素（不管出现在文档任何位置） article//div 选取所有属于ar 阅读全文

posted @ 2019-01-17 19:56 Python不秋阅读(1240) 评论(0) 推荐(0)

Spider-scrapy日志处理

摘要：Scrapy生成的调试信息非常有用，但是通常太啰嗦，你可以在Scrapy项目中的setting.py中设置日志显示等级： LOG_LEVEL = 'ERROR' 日志级别 Scrapy日志有五种等级，按照范围递增顺序排列如下：（注意《Python网络数据采集》书中这里有错） CRITICAL - 严阅读全文

posted @ 2019-01-16 19:06 Python不秋阅读(1130) 评论(0) 推荐(0)

Spider-scrapy断点续爬

摘要：scrapy的每一个爬虫，暂停时可以记录暂停状态以及爬取了哪些url，重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态方法一： 1、首先cd进入到scrapy项目里（当然你也可以通过编写脚本Python文件直接在pycharm中运行） 2、在scrapy项目里创建保存记录信息阅读全文

posted @ 2019-01-14 19:13 Python不秋阅读(2900) 评论(0) 推荐(0)

Spider-Scrapy css选择器提取数据

摘要：首先我们来说说css选择器；其实在上面的概述：和scrapy相关的函数就这么三个而已：response.css("css表达式")、extract()、extract_first()。有变化的就是：css表达式的写法，这里我们就列举一些常见的表达式，虽然不能囊括100%的爬取任务，但可以很负责的说，阅读全文

posted @ 2019-01-09 20:00 Python不秋阅读(3988) 评论(1) 推荐(2)

Spider-Python爬虫之使用Selenium模拟浏览器行为

摘要：分析他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片保存下来。前面提到过，有部分图片是动态加载的，那么首先我们得弄清楚，这部分图片是怎么动态加载的。在浏览器中打开百度贴吧的首阅读全文

posted @ 2019-01-08 20:15 Python不秋阅读(1023) 评论(0) 推荐(0)

Spider-Python爬虫之XPath 教程

摘要：原文链接：https://www.runoob.com/xpath/xpath-syntax.html XPath 术语 XPath 节点七种类型：在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文阅读全文

posted @ 2019-01-07 19:12 Python不秋阅读(761) 评论(0) 推荐(0)

Spider-Python爬虫之PyQuery基本用法

摘要：1.安装方法 pip install pyquery 2.引用方法 from pyquery import PyQuery as pq 3.简介 pyquery 是类型jquery 的一个专供python使用的html解析的库，使用方法类似bs4。 4.使用方法 4.1 初始化方法： from py 阅读全文

posted @ 2019-01-04 19:46 Python不秋阅读(366) 评论(0) 推荐(0)

Spider-Python爬虫之聚焦爬虫与通用爬虫的区别

摘要：为什么要学习爬虫？学习爬虫，可以私人订制一个搜索引擎。大数据时代，要进行数据分析，首先要有数据源。对于很多SEO从业者来说，从而可以更好地进行搜索引擎优化。什么是网络爬虫？模拟客户端发送网络请求，接收请求对应的数据，按照一定的规则，自动抓取互联网信息的程序。只要是客户端(浏览器)能做的的事情，原则上，爬虫都能做。意思就是，只要人类能够访问的网页，爬虫在具备铜等资源的情况下就一定可... 阅读全文

posted @ 2019-01-04 19:38 Python不秋阅读(1440) 评论(0) 推荐(0)

Spider-Python实战之通过Python爬虫爬取图片制作Win7跑车主题

摘要：1. 前期准备 1.1 开发工具 1.2 Python库如果没有这些Python库，使用以下方法 2. 配置系统主题文件个人经过和系统主题对比写了一个主题文件代码，大家可以拷贝到text文本中另存为*.theme文件，我这里命名为lamborghini.theme ; Copyright ?Mi 阅读全文

posted @ 2018-10-08 15:09 Python不秋阅读(557) 评论(0) 推荐(0)

Python不秋

人生苦短，我用Python。

随笔分类 - Spider

公告