摘要: 之前写脚本爬斗鱼主播信息时用了一个pymongo的去重语句 这句话以主播和时间为索引判断数据库中如果没有同一主播同一时间的数据就更新到数据库。一开始还是很好用的,爬取速度还可以,但是我的计划是每天晚上爬取黄金时间整点段的数据,几个小时过后数据量就达到了十几万条,然后速度越来越慢,mongodb进程占 阅读全文
posted @ 2018-12-30 23:46 放脚一搏 阅读(1733) 评论(0) 推荐(0) 编辑
摘要: 一、Scrapy安装(Windows)。 在CMD下执行以下命令验证是否安装完成。 没有报错说明安装成功。 二、开始一个project scrapy startproject zhihu 查看相应目录,在pycharm打开。 setting.py items.py zhihu.py 直接在pycha 阅读全文
posted @ 2018-11-02 16:51 放脚一搏 阅读(241) 评论(0) 推荐(1) 编辑
摘要: 接上一篇的,发现爬斗鱼主播信息存入Mongodb数据库后,发现很多重复的数据,毕竟斗鱼不可能有这么多的主播,所以很多页是有重复的主播房间的。 查了一下怎么去重,发现比较麻烦,与其存入重复的数据后面再去重,还不如在存入数据库的时候就检查,不去存入重复的数据,这样就避免了后期再去做去重工作。于是改动如下 阅读全文
posted @ 2018-10-25 11:52 放脚一搏 阅读(6331) 评论(0) 推荐(1) 编辑
摘要: 先看代码 执行后只爬了两页就报错误: 这样的错误是说我已经点击了翻页,但是还没有完成翻页,于是又爬了一次当前页,然后再要执行翻页时页面已经刷新了,前面找到的翻页元素已经过期了,无法执行点击。 当然最有效的方法是在点击翻页后强制sleep几秒,但是这样会浪费时间,而且太low了。于是我加了等待当前页为 阅读全文
posted @ 2018-10-25 01:09 放脚一搏 阅读(26117) 评论(1) 推荐(4) 编辑
摘要: 之前用request+bs4+Mongodb爬斗鱼主播信息,需要自己写很长一大段, 现在用pyspider试试。开始安装pyspider。 python3.7还不支持,3.6版本直接pip install pyspider就好了。 浏览器输入http://localhost:5000 Creaet按 阅读全文
posted @ 2018-10-23 23:55 放脚一搏 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 前面写了曼城新闻的爬虫脚本,现在把它放到Django框架中来。直接把py文件copy到Django目录下,然后在view里import一下调用就好了。后面想要定时爬新闻也不难。 之前的爬虫脚本没有import lxml也没有报错,但是放到Django后不import一下会报错。 关于Django的创 阅读全文
posted @ 2018-09-26 23:45 放脚一搏 阅读(1702) 评论(1) 推荐(0) 编辑
摘要: 想完成一个Django框架的爬虫,将曼城的新闻内容爬到并放入数据库,然后通过Django框架用网页显示出来。现在第一步是爬新浪、网易、腾讯的曼城新闻内容并放入Mongodb中。本来搜狐也是一个计划中的门户网站,但是爬出来的内容中文不能正常显示,不像是编码的问题,于是就直接跳过了。 这个程序关键的地方 阅读全文
posted @ 2018-09-25 01:03 放脚一搏 阅读(645) 评论(0) 推荐(0) 编辑
摘要: 花点时间改良了一下代码。如下 这个爬虫没有包含翻页,只爬取了每个类别下面的首页,翻页爬所有主播请参考这个脚本。 https://www.cnblogs.com/lkd8477604/p/9848958.html 阅读全文
posted @ 2018-09-01 15:55 放脚一搏 阅读(852) 评论(0) 推荐(0) 编辑
摘要: 最近看了个爬虫的教程,想着自己也常在斗鱼看直播,不如就拿它来练练手。于是就写了个爬取斗鱼所有在线主播的信息,分别为类别、主播ID、房间标题、人气值、房间地址。 需要用到的工具python3下的bs4,requests,pymongo。我用的IDE是pycharm,感觉这个软件实在太强大,有点离开它什 阅读全文
posted @ 2018-08-31 22:18 放脚一搏 阅读(339) 评论(0) 推荐(0) 编辑