爬虫 - 随笔分类 - stone_wei

008爬虫之短短20行代码下载周杰伦所有歌曲

摘要：今天废话不多说直接上代码。下载周杰伦所有歌曲。 # 下载周杰伦歌曲 import requests import re for i in range(36): url = f"http://search.kuwo.cn/r.s?all=%E5%91%A8%E6%9D%B0%E4%BC%A6&ft=m 阅读全文

posted @ 2023-03-18 18:49 stone_wei 阅读(199) 评论(0) 推荐(1)

007爬虫之requests模块进阶

摘要：前面基本将爬虫的基础知识学习得差不多了，今天最后深入下requests模块，这个写完之后，一般的网站大家都可以去爬取了，后面会慢慢给大家分享一些烧脑的东西，今天还是先说说requests模块。思考问题1：如果一个网站需要账号密码登录后才能获得自己想要的东西，这个时候怎么进行爬取呢？答案分享：如果阅读全文

posted @ 2022-12-10 21:51 stone_wei 阅读(71) 评论(0) 推荐(0)

006爬虫之xpath获取猪八戒网商家信息

摘要：今天来学习一个之后会一直用到的解析方式：xpath，这个是重点，必须会。首先我们需要安装lxml模块： pip install lxml 用法： 1、将要解析的html内容构造出etree对象； 2、使用etree对象的xpath()方法配合xpath表达式来完成对数据的提取。我们先来看看xpa 阅读全文

posted @ 2022-12-10 15:38 stone_wei 阅读(302) 评论(0) 推荐(0)

005爬虫之获取电影天堂必看热片电影的下载地址

摘要：今天还是继续用正则表达式提取电影天堂电影的下载地址，这里有一点不同的是需要先获取主页面的源代码，然后通过解析主页源代码再获取子页面的源代码，最后通过解析子页面的源代码获取电影的下载地址。还是按照思路编写： 1.提取到主页面中的每一个电影的背后的那个url地址 1.1 拿到“2022必看热片”那一部阅读全文

posted @ 2022-12-04 16:06 stone_wei 阅读(1020) 评论(0) 推荐(0)

004爬虫之获取豆瓣TOP250电影数据

摘要：今天我们继续通过正则表达式解析页面源代码，获取的网页为豆瓣TOP250，具体网址为：https://movie.douban.com/top250 今天的主要思路： 1、获取网页源代码； 2、通过正则表达式解析网页的信息； 3、将获取的内容存到本地文件中。网页的信息截图：经过爬取后的数据结果截图阅读全文

posted @ 2022-12-04 13:31 stone_wei 阅读(240) 评论(0) 推荐(0)

003爬虫之数据解析概述-正则表达式

摘要：当我们爬到了网页的源代码之后，我们就需要对指定的数据进行获取，比如上一篇中只获取电影名称和上映时间，这里我们需要对获取的数据进行解析，以下提供四种解析方式： 1. re解析 2. bs4解析 3. xpath解析 4. pyquery解析第一个re解析就是正则表达式（Regular Express 阅读全文

posted @ 2022-11-27 21:05 stone_wei 阅读(169) 评论(0) 推荐(0)

002爬虫之requests模块

摘要：我们的第一个爬虫用的是urllib来抓取页面源代码，这个是python内置的一个模块。但是它并不是我们常用的爬虫工具，常用的抓取页面的模块通常使用一个第三方模块requests，这个模块的优势就是比urllib还要简单, 并且处理各种请求都比较方便。我们直接上第一个程序，还是爬取百度： impor 阅读全文

posted @ 2022-11-26 20:07 stone_wei 阅读(44) 评论(0) 推荐(0)

001第一个爬虫程序

摘要：重新编写第一个爬虫程序，开始记录自己的爬虫之旅，一定会很精彩。下面请参见第一个代码，爬取百度的源代码然后保存到一个文档中。大家可能会想这样做有什么意义呢？其实你将百度的源代码弄下来只是第一步，第二步你可以修改这个源代码然后做出属于自己的搜索主页，比如可以修改百度页面上面所有的文字，也可以将背景换成阅读全文

posted @ 2022-11-24 21:22 stone_wei 阅读(51) 评论(0) 推荐(0)

随笔分类 - 爬虫