2022年12月4日
摘要: 今天还是继续用正则表达式提取电影天堂电影的下载地址,这里有一点不同的是需要先获取主页面的源代码,然后通过解析主页源代码再获取子页面的源代码,最后通过解析子页面的源代码获取电影的下载地址。 还是按照思路编写: 1.提取到主页面中的每一个电影的背后的那个url地址 1.1 拿到“2022必看热片”那一部 阅读全文
posted @ 2022-12-04 16:06 stone_wei 阅读(1011) 评论(0) 推荐(0)
摘要: 今天我们继续通过正则表达式解析页面源代码,获取的网页为豆瓣TOP250,具体网址为:https://movie.douban.com/top250 今天的主要思路: 1、获取网页源代码; 2、通过正则表达式解析网页的信息; 3、将获取的内容存到本地文件中。 网页的信息截图: 经过爬取后的数据结果截图 阅读全文
posted @ 2022-12-04 13:31 stone_wei 阅读(229) 评论(0) 推荐(0)