摘要: 写爬虫时获取网页的请求头时,拿到的数据往往不是字典类型,我们可以使用 Pycharm 的正则表达式替换功能,替换为字典类型。 阅读全文
posted @ 2018-03-17 14:50 希希里之海 阅读(788) 评论(0) 推荐(0)
摘要: 思路: 使用搜狗搜索爬取微信文章时由于官方有反爬虫措施,不更换代理容易被封,所以使用更换代理的方法爬取微信文章,代理池使用的是GitHub上的开源项目,地址如下:https://github.com/jhao104/proxy_pool,代理池配置参考开源项目的配置。 步骤: 1)分析网页结构,拿到 阅读全文
posted @ 2018-03-15 18:21 希希里之海 阅读(1372) 评论(0) 推荐(0)
摘要: 思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息。 一、新建一个scrapy项目 移动到新建目录下: 新建spider项目: 二、这里以爬取知乎大V轮子哥 阅读全文
posted @ 2018-02-16 13:52 希希里之海 阅读(1524) 评论(3) 推荐(2)
摘要: 1.构造选择器: 2.使用选择器(在response使用xpath或CSS查询): .xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。 xpath中 //选取标签,/选择属性, CSS中用 :: 选取属性。 调用 extract() 来获 阅读全文
posted @ 2018-02-09 12:29 希希里之海 阅读(218) 评论(0) 推荐(0)
摘要: 1.创建一个新项目: 2.在新项目中创建一个新的spider文件: mydomain为spider文件名,mydomain.com为爬取网站域名 3.全局命令: 4.只在项目中使用的命令(局部命令): 5.运行spider文件: 6.检查spider文件有无语法错误: 7.列出spider路径下的s 阅读全文
posted @ 2018-02-08 14:14 希希里之海 阅读(8339) 评论(0) 推荐(1)
摘要: Mac下安装Redis使用home-brew一键安装:brew install redis启动Redis服务:brew services start redis 或 redis-server /usr/local/etc/redis.conf关闭Redis服务:brew services stop 阅读全文
posted @ 2018-01-17 23:12 希希里之海 阅读(3490) 评论(0) 推荐(0)
摘要: 利用框架 pyspider 能实现快速抓取网页信息,而且代码简洁,抓取速度也不错。 环境:macOS;Python 版本:Python3。 1.首先,安装 pyspider 框架,使用pip3一键安装: 2.终端输入 pyspider all 启动 pyspider: 打开 Chrome,地址栏输入 阅读全文
posted @ 2017-09-10 20:54 希希里之海 阅读(764) 评论(0) 推荐(0)
摘要: 首先分析街拍图集的网页请求头部: 在 preview 选项卡我们可以找到 json 文件,分析 data 选项,找到我们要找到的图集地址 article_url: 选中其中一张图片,分析 json 请求,可以找到图片地址在 gallery 一栏: 找到图片地址,接下来我们就可以来写代码了: 1.导入 阅读全文
posted @ 2017-08-21 11:24 希希里之海 阅读(587) 评论(0) 推荐(0)
摘要: 主要爬取猫眼电影最受期待榜的电影排名、图片链接、名称、主演、上映时间。 思路:1.定义一个获取网页源代码的函数; 2.定义一个解析网页源代码的函数; 3.定义一个将解析的数据保存为本地文件的函数; 4.定义主函数; 5.使用多进程爬取。 步骤一:首先,导入相关的库: 步骤二:定义获取网页源代码的函数 阅读全文
posted @ 2017-08-13 20:48 希希里之海 阅读(909) 评论(0) 推荐(0)
摘要: 1.升级 vim 我自己 MacBook Pro 的系统还是 10.11 ,其自带的 vim 版本为 7.3 ,我们将其升至最新版: 使用 homebrew : 这将下载最新的 vim 版本并替换系统自带的 vim 。 安装完成后重启终端,更新环境变量,输入 vim 后 vim 的版本便为最新版本了 阅读全文
posted @ 2017-07-30 23:36 希希里之海 阅读(14373) 评论(0) 推荐(1)