随笔分类 -  爬虫

自己学习的一些爬虫项目
摘要:在使用 scrapy 来爬取网页的时候,我们难免会使用到调试功能,下面介绍两种调试方法: 1.终端使用 exampleurl 为你要爬取网站的 url 。 开启调试界面后终端显示如下(类似 IPython): 接下来就可以在命令行中输入各种方法来获取网页内容查看实时效果了。如通过 response. 阅读全文
posted @ 2018-05-22 22:17 希希里之海 阅读(7907) 评论(0) 推荐(1)
摘要:最近听到一首很喜欢的歌,许薇的《我以为》,评论也很有趣,遂有想爬取该歌曲下的所有评论并用词云工具展示。 我们使用chrome开发者工具,发现歌曲的评论都隐藏在以 R_SO_4 开头的 XHR 文件中 接下来思路就很明确,拿到该文件,解析该文件的 json 数据,拿到全部评论。 我们可以看到该文件有两 阅读全文
posted @ 2018-04-22 09:54 希希里之海 阅读(6280) 评论(4) 推荐(0)
摘要:如题,开启节能模式代码不会自动补全。 阅读全文
posted @ 2018-03-23 16:40 希希里之海 阅读(1129) 评论(0) 推荐(0)
摘要:思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息。 一、新建一个scrapy项目 移动到新建目录下: 新建spider项目: 二、这里以爬取知乎大V轮子哥 阅读全文
posted @ 2018-02-16 13:52 希希里之海 阅读(1523) 评论(3) 推荐(2)
摘要:1.创建一个新项目: 2.在新项目中创建一个新的spider文件: mydomain为spider文件名,mydomain.com为爬取网站域名 3.全局命令: 4.只在项目中使用的命令(局部命令): 5.运行spider文件: 6.检查spider文件有无语法错误: 7.列出spider路径下的s 阅读全文
posted @ 2018-02-08 14:14 希希里之海 阅读(8337) 评论(0) 推荐(1)
摘要:Mac下安装Redis使用home-brew一键安装:brew install redis启动Redis服务:brew services start redis 或 redis-server /usr/local/etc/redis.conf关闭Redis服务:brew services stop 阅读全文
posted @ 2018-01-17 23:12 希希里之海 阅读(3489) 评论(0) 推荐(0)
摘要:利用框架 pyspider 能实现快速抓取网页信息,而且代码简洁,抓取速度也不错。 环境:macOS;Python 版本:Python3。 1.首先,安装 pyspider 框架,使用pip3一键安装: 2.终端输入 pyspider all 启动 pyspider: 打开 Chrome,地址栏输入 阅读全文
posted @ 2017-09-10 20:54 希希里之海 阅读(763) 评论(0) 推荐(0)
摘要:首先分析街拍图集的网页请求头部: 在 preview 选项卡我们可以找到 json 文件,分析 data 选项,找到我们要找到的图集地址 article_url: 选中其中一张图片,分析 json 请求,可以找到图片地址在 gallery 一栏: 找到图片地址,接下来我们就可以来写代码了: 1.导入 阅读全文
posted @ 2017-08-21 11:24 希希里之海 阅读(583) 评论(0) 推荐(0)
摘要:主要爬取猫眼电影最受期待榜的电影排名、图片链接、名称、主演、上映时间。 思路:1.定义一个获取网页源代码的函数; 2.定义一个解析网页源代码的函数; 3.定义一个将解析的数据保存为本地文件的函数; 4.定义主函数; 5.使用多进程爬取。 步骤一:首先,导入相关的库: 步骤二:定义获取网页源代码的函数 阅读全文
posted @ 2017-08-13 20:48 希希里之海 阅读(907) 评论(0) 推荐(0)