随笔分类 - python爬虫
摘要:在动漫之家选择一本漫画下载,下载一本章节不是那么多的漫画吧。《武林之王的退隐生活》 url=https://www.dmzj.com/info/wulinzhiwangdetuiyinshenghuo.html 想下载这本动漫,需要保存所有章节的图片到本地。先捋捋思路: 拿到所有章节名和章节链接 根
阅读全文
摘要:1.背景介绍: 小说网站,“新笔趣阁”: https://www.xsbiquge.com/ “新笔趣阁”只支持在线浏览,不支持小说打包下载。本文就是练习下载一篇名为《药师的宠妃之路》的网络小说。 2、爬虫步骤 爬虫其实很简单,可以大致分为三个步骤: 发起请求:我们需要先明确如何发起 HTTP 请求
阅读全文
摘要:Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。scrapy框架封装了很多功能,比如说使用异步框架(Twisted)来提高爬虫性能,url的去重,数据的清洗等等的功能。 Scrapy架构图(绿线是数据流向) 可以从上面的图看出来scrapy有几个
阅读全文
摘要:XPATH XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 根据元素的路径找元素。http://www.w3school.com.cn/xpath/index.asp具体介绍可以看这个。 lxml lxml 是 一个HTML/XML的解
阅读全文
摘要:selenium用法总结,前面的博客也有写,知识在爬虫这块总结下: from selenium import webdriver # 要想调用键盘按键操作需要引入keys包 from selenium.webdriver.common.keys import Keys # 调用环境变量指定的Chro
阅读全文
摘要:爬虫实战:抓取某个qq群的所有群成员昵称、头像,然后把所有人的头像拼到一个图片里,所有人的昵称,生成一个词云图片 分析步骤: 1.分析qq群的请求 2.使用requests模块发送请求,下载qq头像 3.获取每个人的qq号,昵称 4.使用wordcloud模块生成昵称词云 5.使用pillow模块拼
阅读全文
摘要:这篇博客介绍一下怎么用python把多张图片按比例缩小,拼成一张图片,比如说我要把我所有微信好友的头像,到一个图片里,如下图: 先分析下需求,把思路缕清 这个拼图片,就像要做一个照片墙一样,做照片墙怎么做呢,假如说现在有一块640*640的一块正方形的墙壁。 那我正常做的话,怎么办,肯定要先有一块6
阅读全文
摘要:什么是词云呢? 词云就是一些关键词组成的一个图片。大家在网上经常看到,下面看一些例子: 那用python生成一个词云的话怎么办呢,首先要有一些词,随便找个吧,用see you again的歌词好了,放到again.txt里面,放着待会用。 然后呢,咱们用 wrodcloud这个模块,他可以实现分词,
阅读全文
摘要:PyQuery模块也是一个解析html的一个模块,它和Beautiful Soup用起来差不多,它是jquery实现的,和jquery语法差不多,会用jquery的人用起来就比较方便了。 Pyquery需要依赖lxml模块,不装的话,使用会报错。 安装 pip install lxml pip in
阅读全文
摘要:这篇介绍Beautiful Soup怎么用,这个模块是用来解析html的,它操作很简单,用起来比较方便 这是第三方模块需要安装 pip install beautifulsoup4 pip install lxml Beautiful Soup对象 Beautiful将复杂HTML文档转换成一个复杂
阅读全文
摘要:写了怎么发请求和获取到数据,接下来就是该怎么处理数据了,打开一个网站之后,它会返回很多数据,数据很多,有很多都是咱们不需要的,咱们写爬虫的话只获取到对咱们自己有用的数据,就要从返回的数据里面找到咱们需要的数据,然后保存起来。那怎么筛选到咱们需要的数据呢,就得用正则表达式了,正则表达就是写各种规则来匹
阅读全文
摘要:爬虫的原理就是写代码自动化的获取数据,保存下来数据,那怎么写代码来请求一个网址,获取结果呢?就用到requests模块了。 requests模块是python的一个第三方模块,它是基于python自带的urllib模块封装的,用来发送http请求和获取返回的结果。 requests模块是第三方模块,
阅读全文
摘要:爬虫就是发送http请求(浏览器里面打开发送的都是http请求),然后获取到response,咱们再从response里面找到想要的数据,存储到本地。 接下来就说一下什么是http请求,它里面都有哪些东西,我们在写爬虫的时候,怎么http请求,里面哪些对我们的爬虫有影响。 http请求过程 咱们打开
阅读全文
摘要:什么是爬虫? 爬虫是什么呢,一般说的爬虫都是网络爬虫。那什么是网络爬虫呢? 百度百科: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 总结来
阅读全文
摘要:Scrapy是python开发的一个爬虫框架;Scrapy很多模块都是基于Linux下的,所以在windows上面安装的时候,可能会有各种各样的问题 下面整理遇到的问题: 1.直接安装pip install scrapy 2、安装的时候scrapy它要依赖很多其他的模块,一般都是其他的模块安装的时候
阅读全文

浙公网安备 33010602011771号