随笔分类 -  爬虫

摘要:一、写在前面 有时候你的爬虫刚开始的时候可以正常运行,能够正常的爬取数据,但是过了一会,却出现了一个“403 Forbidden",或者是”您的IP访问频率太高“这样的提示,这就意味着你的IP被ban了,好一点的情况是过一段时间你就能继续爬取了,坏一点的情况就是你的IP已经进入别人的黑名单了,然后你 阅读全文
posted @ 2019-02-15 11:33 onionono 阅读(5306) 评论(3) 推荐(4)
摘要:一、写在前面 之前写过一篇用Python发送天气预报邮件的博客,但是因为要手动输入城市名称,还要打开邮箱才能知道天气情况,这也太麻烦了。于是乎,有了这一篇博客,这次我要做的就是用Python获取本机IP地址,并根据这个IP地址获取物理位置也就是我所在的城市名称,然后用之前的办法实现查询天气,再利用百 阅读全文
posted @ 2019-02-10 09:02 onionono 阅读(1890) 评论(0) 推荐(1)
摘要:一、写在前面 这个标题是借用的路人甲大佬的一篇文章的标题(百度一下,坑死你),而且这次的爬虫也是看了这篇文章后才写出来的,感兴趣的可以先看下这篇文章。 前段时间有篇文章《搜索引擎百度已死》引起了很多讨论,而百度对此的回复是:百家号的内容在百度搜索结果中不超过10%。但是这个10%是第一页的10%还是 阅读全文
posted @ 2019-02-01 14:47 onionono 阅读(3368) 评论(6) 推荐(3)
摘要:我相信对于很多爱好和习惯写博客的人来说,如果自己的博客有很多人阅读和评论的话,自己会非常开心,但是你发现自己用心写的博客却没什么人看,多多少少会觉得有些伤心吧?我们今天就来看一下为什么你的博客没人看呢? 一、页面分析 首先进入博客园首页,可以看到一页有20篇博客简介,然后有200页,也就是说总共有2 阅读全文
posted @ 2019-01-24 09:01 onionono 阅读(874) 评论(7) 推荐(1)
摘要:一、基本概念 进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动。进程是操作系统动态执行的基本单元。 线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源。线程是独立运行和独立调度的基本单元。 协程:协程是一种用户态的轻量级线程。协程无需线程上下文切换的开销, 阅读全文
posted @ 2019-01-16 16:38 onionono 阅读(4606) 评论(0) 推荐(1)
摘要:在网上找到了一份斗鱼弹幕服务器第三方接入协议v1.6.2,有了第三方接口,做起来就容易多了。 一、协议分析 斗鱼后台协议头设计如下: 这里的消息长度是我们发送的数据部分的长度和头部的长度之和,两个消息长度是一样。然后要注意的是该协议使用的是小端整数,所以我们要对数据进行处理后再发送,这里可以使用in 阅读全文
posted @ 2019-01-09 14:27 onionono 阅读(3416) 评论(1) 推荐(1)
摘要:本次爬虫的爬取目标是大众点评上的一些店铺的店铺名称、推荐菜和评分信息。 一、页面分析 进入大众点评,然后选择美食(http://www.dianping.com/wuhan/ch10),可以看到一页有15家店铺,而除了店铺的名称,还能看到店铺的地址、推荐菜、评分等信息,看起来都没什么问题。 打开开发 阅读全文
posted @ 2018-12-28 14:02 onionono 阅读(10251) 评论(9) 推荐(0)
摘要:此次的目标是爬取指定城市的天气预报信息,然后再用Python发送邮件到指定的邮箱。 一、爬取天气预报 1、首先是爬取天气预报的信息,用的网站是中国天气网,网址是http://www.weather.com.cn/static/html/weather.shtml,任意选择一个城市(比如武汉),然后要 阅读全文
posted @ 2018-12-16 15:56 onionono 阅读(1857) 评论(0) 推荐(2)
摘要:一、页面分析 首先打开猫眼电影,然后点击一个正在热播的电影(比如:毒液)。打开开发者工具,点击左上角的箭头,然后用鼠标点击网页上的票价,可以看到源码中显示的不是数字,而是某些根本看不懂的字符,这是因为使用了font-face定义字符集,并通过unicode去映射展示,所以我们在网页上看到的是数字,但 阅读全文
posted @ 2018-12-07 10:57 onionono 阅读(1403) 评论(1) 推荐(0)
摘要:此次爬虫要实现的是爬取某个微博用户的关注和粉丝的用户公开基本信息,包括用户昵称、id、性别、所在地和其粉丝数量,然后将爬取下来的数据保存在MongoDB数据库中,最后再生成几个图表来简单分析一下我们得到的数据。 一、具体步骤: 这里我们选取的爬取站点是https://m.weibo.cn,此站点是微 阅读全文
posted @ 2018-11-21 13:50 onionono 阅读(2447) 评论(0) 推荐(4)
摘要:一、思路分析: 在之前写拉勾网的爬虫的时候,总是得到下面这个结果(真是头疼),当你看到下面这个结果的时候,也就意味着被反爬了,因为一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会禁止这个IP的访问: 对于拉勾网,我们要 阅读全文
posted @ 2018-11-14 19:37 onionono 阅读(2438) 评论(1) 推荐(2)
摘要:此次要实现的目标是登录12306网站和查看火车票信息。 具体步骤 一、登录 登录功能是通过使用selenium实现的,用到了超级鹰来识别验证码。没有超级鹰账号的先注册一个账号,充值一点题分,然后把下载这个Python接口文件,再在里面添加一个use_cjy的函数,以后使用的时候传入文件名就可以了(验 阅读全文
posted @ 2018-11-01 12:50 onionono 阅读(2608) 评论(12) 推荐(1)
摘要:此次的目标是爬取网易云音乐上指定歌曲所有评论并生成词云 具体步骤: 一:实现JS加密 找到这个ajax接口没什么难度,问题在于传递的数据,是通过js加密得到的,因此需要查看js代码。 通过断掉调试可以找到数据是由core_8556f33641851a422ec534e33e6fa5a4.js?855 阅读全文
posted @ 2018-10-23 16:16 onionono 阅读(4115) 评论(4) 推荐(2)
摘要:一、目标: 下载网易云音乐热门歌单 二、用到的模块: requests,multiprocessing,re。 三、步骤: (1)页面分析:首先打开网易云音乐,选择热门歌单,可以看到以下歌单列表,然后打开开发者工具 因此我们需要请求的url就是https://music.163.com/discov 阅读全文
posted @ 2018-09-02 13:50 onionono 阅读(4345) 评论(13) 推荐(3)
摘要:经过测试,可以下载要付费下载的歌曲(n_n) 准备工作:Python3.5+Pycharm 使用到的库:requests,re,json,time,fakeuseragent 步骤: 打开酷狗音乐的官网,输入想要搜索的歌曲(例如《天后》),然后回车搜索,得到如下页面: 右键检查或者按F12打开开发者 阅读全文
posted @ 2018-08-23 15:52 onionono 阅读(7351) 评论(17) 推荐(4)
摘要:selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。 环境配置: 1、Windows系统 阅读全文
posted @ 2018-08-02 21:29 onionono 阅读(1758) 评论(0) 推荐(0)
摘要:Python版本:3.5 IDE:Pycharm 今天跟着网上的教程做了第一个Scrapy项目,遇到了很多问题,花了很多时间终于解决了== 一、Scrapy终端(scrapy shell) Scrapy终端是一个交互终端,供我们在未启动spider的情况下尝试及调试爬取代码。 其本意是用来测试提取数 阅读全文
posted @ 2018-07-27 11:19 onionono 阅读(2530) 评论(0) 推荐(0)
摘要:Python版本:3.5 系统:Windows 一、准备工作 需要先安装几个库(pip,lxml,pywin32,Twisted,pyOpenSSL),这些都比较容易,如果使用的是Pycharm,就可以更方便的安装模块,在settings里可以选择版本进行下载。 如果在命令行模式下输入pip -V出 阅读全文
posted @ 2018-07-27 09:48 onionono 阅读(3843) 评论(0) 推荐(0)