python爬虫 - 随笔分类 - 飞鸟与新月

爬虫笔记：漫画下载(处理动态加载及简单反爬虫)（十五）

摘要：在动漫之家选择一本漫画下载，下载一本章节不是那么多的漫画吧。《武林之王的退隐生活》 url=https://www.dmzj.com/info/wulinzhiwangdetuiyinshenghuo.html 想下载这本动漫，需要保存所有章节的图片到本地。先捋捋思路：拿到所有章节名和章节链接根阅读全文

posted @ 2020-06-26 23:53 飞鸟与新月阅读(1092) 评论(0) 推荐(0)

爬虫笔记：下载小说（十四）

摘要：1.背景介绍：小说网站，“新笔趣阁”： https://www.xsbiquge.com/ “新笔趣阁”只支持在线浏览，不支持小说打包下载。本文就是练习下载一篇名为《药师的宠妃之路》的网络小说。 2、爬虫步骤爬虫其实很简单，可以大致分为三个步骤：发起请求：我们需要先明确如何发起 HTTP 请求阅读全文

posted @ 2020-06-21 14:27 飞鸟与新月阅读(623) 评论(0) 推荐(0)

爬虫笔记：scrapy爬虫框架流程介绍（十三）

摘要：Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。scrapy框架封装了很多功能，比如说使用异步框架（Twisted）来提高爬虫性能，url的去重，数据的清洗等等的功能。 Scrapy架构图（绿线是数据流向）可以从上面的图看出来scrapy有几个阅读全文

posted @ 2020-06-01 22:43 飞鸟与新月阅读(234) 评论(0) 推荐(0)

爬虫笔记：xpath和lxml（十二）

摘要：XPATH XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。根据元素的路径找元素。http://www.w3school.com.cn/xpath/index.asp具体介绍可以看这个。 lxml lxml 是一个HTML/XML的解阅读全文

posted @ 2020-05-18 23:11 飞鸟与新月阅读(231) 评论(0) 推荐(0)

爬虫笔记：Selenium（十一）

摘要：selenium用法总结，前面的博客也有写，知识在爬虫这块总结下： from selenium import webdriver # 要想调用键盘按键操作需要引入keys包 from selenium.webdriver.common.keys import Keys # 调用环境变量指定的Chro 阅读全文

posted @ 2020-05-17 19:07 飞鸟与新月阅读(274) 评论(0) 推荐(0)

爬虫笔记：抓取qq群成员的头像和昵称生成词云（十）

摘要：爬虫实战：抓取某个qq群的所有群成员昵称、头像，然后把所有人的头像拼到一个图片里，所有人的昵称，生成一个词云图片分析步骤： 1.分析qq群的请求 2.使用requests模块发送请求，下载qq头像 3.获取每个人的qq号，昵称 4.使用wordcloud模块生成昵称词云 5.使用pillow模块拼阅读全文

posted @ 2020-05-16 18:18 飞鸟与新月阅读(1969) 评论(0) 推荐(0)

爬虫笔记：使用python拼接所有好友的头像（九）

摘要：这篇博客介绍一下怎么用python把多张图片按比例缩小，拼成一张图片，比如说我要把我所有微信好友的头像，到一个图片里，如下图：先分析下需求，把思路缕清这个拼图片，就像要做一个照片墙一样，做照片墙怎么做呢，假如说现在有一块640*640的一块正方形的墙壁。那我正常做的话，怎么办，肯定要先有一块6 阅读全文

posted @ 2020-05-11 22:54 飞鸟与新月阅读(342) 评论(0) 推荐(0)

爬虫笔记：使用python生成词云（八）

摘要：什么是词云呢？词云就是一些关键词组成的一个图片。大家在网上经常看到，下面看一些例子：那用python生成一个词云的话怎么办呢，首先要有一些词，随便找个吧，用see you again的歌词好了，放到again.txt里面，放着待会用。然后呢，咱们用 wrodcloud这个模块，他可以实现分词，阅读全文

posted @ 2020-05-10 23:43 飞鸟与新月阅读(3281) 评论(2) 推荐(1)

爬虫笔记：PyQuery模块（七）

摘要：PyQuery模块也是一个解析html的一个模块，它和Beautiful Soup用起来差不多，它是jquery实现的，和jquery语法差不多，会用jquery的人用起来就比较方便了。 Pyquery需要依赖lxml模块，不装的话，使用会报错。安装 pip install lxml pip in 阅读全文

posted @ 2020-04-20 22:01 飞鸟与新月阅读(224) 评论(0) 推荐(0)

爬虫笔记：Beautiful Soup 使用（六）

摘要：这篇介绍Beautiful Soup怎么用，这个模块是用来解析html的，它操作很简单，用起来比较方便这是第三方模块需要安装 pip install beautifulsoup4 pip install lxml Beautiful Soup对象 Beautiful将复杂HTML文档转换成一个复杂阅读全文

posted @ 2020-04-19 16:56 飞鸟与新月阅读(211) 评论(0) 推荐(0)

爬虫笔记：正则表达式（五）

摘要：写了怎么发请求和获取到数据，接下来就是该怎么处理数据了，打开一个网站之后，它会返回很多数据，数据很多，有很多都是咱们不需要的，咱们写爬虫的话只获取到对咱们自己有用的数据，就要从返回的数据里面找到咱们需要的数据，然后保存起来。那怎么筛选到咱们需要的数据呢，就得用正则表达式了，正则表达就是写各种规则来匹阅读全文

posted @ 2020-04-18 13:21 飞鸟与新月阅读(248) 评论(0) 推荐(0)

爬虫笔记：requests模块使用（四）

摘要：爬虫的原理就是写代码自动化的获取数据，保存下来数据，那怎么写代码来请求一个网址，获取结果呢？就用到requests模块了。 requests模块是python的一个第三方模块，它是基于python自带的urllib模块封装的，用来发送http请求和获取返回的结果。 requests模块是第三方模块，阅读全文

posted @ 2020-04-16 22:55 飞鸟与新月阅读(298) 评论(0) 推荐(0)

爬虫笔记：http请求详解（三）

摘要：爬虫就是发送http请求（浏览器里面打开发送的都是http请求），然后获取到response，咱们再从response里面找到想要的数据，存储到本地。接下来就说一下什么是http请求，它里面都有哪些东西，我们在写爬虫的时候，怎么http请求，里面哪些对我们的爬虫有影响。 http请求过程咱们打开阅读全文

posted @ 2020-04-15 22:19 飞鸟与新月阅读(324) 评论(0) 推荐(0)

爬虫笔记：初始爬虫（二）

摘要：什么是爬虫？爬虫是什么呢，一般说的爬虫都是网络爬虫。那什么是网络爬虫呢？百度百科：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。总结来阅读全文

posted @ 2020-04-14 21:23 飞鸟与新月阅读(276) 评论(0) 推荐(0)

Windows安装Scrapy（一）

摘要：Scrapy是python开发的一个爬虫框架；Scrapy很多模块都是基于Linux下的，所以在windows上面安装的时候，可能会有各种各样的问题下面整理遇到的问题： 1.直接安装pip install scrapy 2、安装的时候scrapy它要依赖很多其他的模块，一般都是其他的模块安装的时候阅读全文

posted @ 2020-04-13 22:17 飞鸟与新月阅读(2165) 评论(0) 推荐(0)

飞鸟2015

随笔分类 - python爬虫

公告