2019 年 10月 27 日随笔档案 - lattesea

2019年10月27日

摘要：最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影,获取的信息是一样的,这里提供一个另外的解法. 说实话,对于网页信息的匹配,还是推荐用xpath,虽然阅读全文

posted @ 2019-10-27 03:14 lattesea 阅读(634) 评论(0) 推荐(0)

爬取股吧指定时间段的文章标题

摘要：这个可以作为xpath的练手项目,爬取股吧2016年6月份到2016年12月份的文章标题和发帖时间代码如下: 阅读全文

posted @ 2019-10-27 03:13 lattesea 阅读(364) 评论(0) 推荐(0)

selenium自动化测试工具模拟登陆爬取当当网top500畅销书单

摘要： selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制. 当当网目前还没有对这方面加以限制,所以今天就用这个练习熟悉一下selenium操作,我们可以试一阅读全文

posted @ 2019-10-27 03:12 lattesea 阅读(568) 评论(0) 推荐(0)

爬取安居客指定市的所有小区信息

摘要：在爬取的过程中发现,访问频率太快会导致网站弹出滑动验证,所以设定了时间随机时间延迟,这样子就能保证爬取的信息完整,我选的是青岛市的小区,后续也可以添加输入市名爬取相关内容,二级页面的房子的平均价格是动态生成的,需要发送一个请求得到一个json,请求的url比较复杂,而且还要再发送一次请求,因此直接在阅读全文

posted @ 2019-10-27 03:11 lattesea 阅读(2215) 评论(6) 推荐(0)

爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2019-10-27 03:10 lattesea 阅读(20) 评论(0) 推荐(0)

爬取电影天堂最新电影的名称和下载链接

摘要：此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """ 爬取电影天堂2019年的电影名称和链接 """ import requests import csv from fake_user 阅读全文

posted @ 2019-10-27 03:09 lattesea 阅读(1855) 评论(0) 推荐(0)

爬取YY评级信息

摘要：该网站主要是访问频率太高会被封账号阅读全文

posted @ 2019-10-27 03:07 lattesea 阅读(1161) 评论(0) 推荐(1)

lattesea

学无止境

公告