随笔分类 -  爬虫

008爬虫之短短20行代码下载周杰伦所有歌曲
摘要:今天废话不多说直接上代码。下载周杰伦所有歌曲。 # 下载周杰伦歌曲 import requests import re for i in range(36): url = f"http://search.kuwo.cn/r.s?all=%E5%91%A8%E6%9D%B0%E4%BC%A6&ft=m 阅读全文
posted @ 2023-03-18 18:49 stone_wei 阅读(188) 评论(0) 推荐(1)
007爬虫之requests模块进阶
摘要:前面基本将爬虫的基础知识学习得差不多了,今天最后深入下requests模块,这个写完之后,一般的网站大家都可以去爬取了,后面会慢慢给大家分享一些烧脑的东西,今天还是先说说requests模块。 思考问题1:如果一个网站需要账号密码登录后才能获得自己想要的东西,这个时候怎么进行爬取呢? 答案分享:如果 阅读全文
posted @ 2022-12-10 21:51 stone_wei 阅读(66) 评论(0) 推荐(0)
006爬虫之xpath获取猪八戒网商家信息
摘要:今天来学习一个之后会一直用到的解析方式:xpath,这个是重点,必须会。 首先我们需要安装lxml模块: pip install lxml 用法: 1、将要解析的html内容构造出etree对象; 2、使用etree对象的xpath()方法配合xpath表达式来完成对数据的提取。 我们先来看看xpa 阅读全文
posted @ 2022-12-10 15:38 stone_wei 阅读(293) 评论(0) 推荐(0)
005爬虫之获取电影天堂必看热片电影的下载地址
摘要:今天还是继续用正则表达式提取电影天堂电影的下载地址,这里有一点不同的是需要先获取主页面的源代码,然后通过解析主页源代码再获取子页面的源代码,最后通过解析子页面的源代码获取电影的下载地址。 还是按照思路编写: 1.提取到主页面中的每一个电影的背后的那个url地址 1.1 拿到“2022必看热片”那一部 阅读全文
posted @ 2022-12-04 16:06 stone_wei 阅读(1011) 评论(0) 推荐(0)
004爬虫之获取豆瓣TOP250电影数据
摘要:今天我们继续通过正则表达式解析页面源代码,获取的网页为豆瓣TOP250,具体网址为:https://movie.douban.com/top250 今天的主要思路: 1、获取网页源代码; 2、通过正则表达式解析网页的信息; 3、将获取的内容存到本地文件中。 网页的信息截图: 经过爬取后的数据结果截图 阅读全文
posted @ 2022-12-04 13:31 stone_wei 阅读(229) 评论(0) 推荐(0)
003爬虫之数据解析概述-正则表达式
摘要:当我们爬到了网页的源代码之后,我们就需要对指定的数据进行获取,比如上一篇中只获取电影名称和上映时间,这里我们需要对获取的数据进行解析,以下提供四种解析方式: 1. re解析 2. bs4解析 3. xpath解析 4. pyquery解析 第一个re解析就是正则表达式(Regular Express 阅读全文
posted @ 2022-11-27 21:05 stone_wei 阅读(159) 评论(0) 推荐(0)
002爬虫之requests模块
摘要:我们的第一个爬虫用的是urllib来抓取页面源代码,这个是python内置的一个模块。但是它并不是我们常用的爬虫工具,常用的抓取页面的模块通常使用一个第三方模块requests,这个模块的优势就是比urllib还要简单, 并且处理各种请求都比较方便。 我们直接上第一个程序,还是爬取百度: impor 阅读全文
posted @ 2022-11-26 20:07 stone_wei 阅读(37) 评论(0) 推荐(0)
001第一个爬虫程序
摘要:重新编写第一个爬虫程序,开始记录自己的爬虫之旅,一定会很精彩。下面请参见第一个代码,爬取百度的源代码然后保存到一个文档中。大家可能会想这样做有什么意义呢? 其实你将百度的源代码弄下来只是第一步,第二步你可以修改这个源代码然后做出属于自己的搜索主页,比如可以修改百度页面上面所有的文字,也可以将背景换成 阅读全文
posted @ 2022-11-24 21:22 stone_wei 阅读(48) 评论(0) 推荐(0)