摘要:
今天废话不多说直接上代码。下载周杰伦所有歌曲。 # 下载周杰伦歌曲 import requests import re for i in range(36): url = f"http://search.kuwo.cn/r.s?all=%E5%91%A8%E6%9D%B0%E4%BC%A6&ft=m
阅读全文
posted @ 2023-03-18 18:49
stone_wei
阅读(189)
推荐(1)
摘要:
Hello everyone, I'm very happy to introduce myself here.I'm stone. I was born in Hubei Province. My friends say that I'm an easygoing and helpful pers
阅读全文
posted @ 2018-09-09 11:07
stone_wei
阅读(101)
推荐(0)
摘要:
看了Alex的博客之后,决定自己也开通一个。这个博客的内容主要是研究和讨论python,以及自己最喜欢的English。接下来我会慢慢将自己学习这些东西的心得以及知识点在接下来的博客中慢慢讨论。各位看官敬请期待。 大家以后叫我stone就行。这几天写了两个代码,一个是九九乘法表,一个是用户登录验证,
阅读全文
posted @ 2018-06-28 11:09
stone_wei
阅读(83)
推荐(0)
2022年12月10日
摘要:
前面基本将爬虫的基础知识学习得差不多了,今天最后深入下requests模块,这个写完之后,一般的网站大家都可以去爬取了,后面会慢慢给大家分享一些烧脑的东西,今天还是先说说requests模块。 思考问题1:如果一个网站需要账号密码登录后才能获得自己想要的东西,这个时候怎么进行爬取呢? 答案分享:如果
阅读全文
posted @ 2022-12-10 21:51
stone_wei
阅读(66)
推荐(0)
摘要:
今天来学习一个之后会一直用到的解析方式:xpath,这个是重点,必须会。 首先我们需要安装lxml模块: pip install lxml 用法: 1、将要解析的html内容构造出etree对象; 2、使用etree对象的xpath()方法配合xpath表达式来完成对数据的提取。 我们先来看看xpa
阅读全文
posted @ 2022-12-10 15:38
stone_wei
阅读(293)
推荐(0)
2022年12月4日
摘要:
今天还是继续用正则表达式提取电影天堂电影的下载地址,这里有一点不同的是需要先获取主页面的源代码,然后通过解析主页源代码再获取子页面的源代码,最后通过解析子页面的源代码获取电影的下载地址。 还是按照思路编写: 1.提取到主页面中的每一个电影的背后的那个url地址 1.1 拿到“2022必看热片”那一部
阅读全文
posted @ 2022-12-04 16:06
stone_wei
阅读(1011)
推荐(0)
摘要:
今天我们继续通过正则表达式解析页面源代码,获取的网页为豆瓣TOP250,具体网址为:https://movie.douban.com/top250 今天的主要思路: 1、获取网页源代码; 2、通过正则表达式解析网页的信息; 3、将获取的内容存到本地文件中。 网页的信息截图: 经过爬取后的数据结果截图
阅读全文
posted @ 2022-12-04 13:31
stone_wei
阅读(229)
推荐(0)
2022年11月27日
摘要:
当我们爬到了网页的源代码之后,我们就需要对指定的数据进行获取,比如上一篇中只获取电影名称和上映时间,这里我们需要对获取的数据进行解析,以下提供四种解析方式: 1. re解析 2. bs4解析 3. xpath解析 4. pyquery解析 第一个re解析就是正则表达式(Regular Express
阅读全文
posted @ 2022-11-27 21:05
stone_wei
阅读(159)
推荐(0)
2022年11月26日
摘要:
我们的第一个爬虫用的是urllib来抓取页面源代码,这个是python内置的一个模块。但是它并不是我们常用的爬虫工具,常用的抓取页面的模块通常使用一个第三方模块requests,这个模块的优势就是比urllib还要简单, 并且处理各种请求都比较方便。 我们直接上第一个程序,还是爬取百度: impor
阅读全文
posted @ 2022-11-26 20:07
stone_wei
阅读(37)
推荐(0)
2022年11月24日
摘要:
重新编写第一个爬虫程序,开始记录自己的爬虫之旅,一定会很精彩。下面请参见第一个代码,爬取百度的源代码然后保存到一个文档中。大家可能会想这样做有什么意义呢? 其实你将百度的源代码弄下来只是第一步,第二步你可以修改这个源代码然后做出属于自己的搜索主页,比如可以修改百度页面上面所有的文字,也可以将背景换成
阅读全文
posted @ 2022-11-24 21:22
stone_wei
阅读(48)
推荐(0)
2018年7月27日
摘要:
赋值场景一: a = 1 b = a a = 2 print('a==', a) print('b==', b) 打印出结果: a==2 b==1 解析:当a=1的时候,内存中开辟两个空间,一个空间存放数字1,一个空间存放数字1的物理地址0X52446C40,当b=a的时候,是将a的值赋予b,内存中
阅读全文
posted @ 2018-07-27 16:16
stone_wei
阅读(88)
推荐(0)