摘要: 最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影,获取的信息是一样的,这里提供一个另外的解法. 说实话,对于网页信息的匹配,还是推荐用xpath,虽然 阅读全文
posted @ 2019-10-27 03:14 lattesea 阅读(632) 评论(0) 推荐(0)
摘要: 这个可以作为xpath的练手项目,爬取股吧2016年6月份到2016年12月份的文章标题和发帖时间 代码如下: 阅读全文
posted @ 2019-10-27 03:13 lattesea 阅读(360) 评论(0) 推荐(0)
摘要: selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制. 当当网目前还没有对这方面加以限制,所以今天就用这个练习熟悉一下selenium操作,我们可以试一 阅读全文
posted @ 2019-10-27 03:12 lattesea 阅读(565) 评论(0) 推荐(0)
摘要: 在爬取的过程中发现,访问频率太快会导致网站弹出滑动验证,所以设定了时间随机时间延迟,这样子就能保证爬取的信息完整,我选的是青岛市的小区,后续也可以添加输入市名爬取相关内容,二级页面的房子的平均价格是动态生成的,需要发送一个请求得到一个json,请求的url比较复杂,而且还要再发送一次请求,因此直接在 阅读全文
posted @ 2019-10-27 03:11 lattesea 阅读(2209) 评论(6) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2019-10-27 03:10 lattesea 阅读(20) 评论(0) 推荐(0)
摘要: 此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """ 爬取电影天堂2019年的电影名称和链接 """ import requests import csv from fake_user 阅读全文
posted @ 2019-10-27 03:09 lattesea 阅读(1841) 评论(0) 推荐(0)
摘要: 该网站主要是访问频率太高会被封账号 阅读全文
posted @ 2019-10-27 03:07 lattesea 阅读(1153) 评论(0) 推荐(1)