希希里之海

2018年3月17日

摘要：写爬虫时获取网页的请求头时，拿到的数据往往不是字典类型，我们可以使用 Pycharm 的正则表达式替换功能，替换为字典类型。阅读全文

posted @ 2018-03-17 14:50 希希里之海阅读(788) 评论(0) 推荐(0)

2018年3月15日

摘要：思路：使用搜狗搜索爬取微信文章时由于官方有反爬虫措施，不更换代理容易被封，所以使用更换代理的方法爬取微信文章，代理池使用的是GitHub上的开源项目，地址如下：https://github.com/jhao104/proxy_pool，代理池配置参考开源项目的配置。步骤： 1）分析网页结构，拿到阅读全文

posted @ 2018-03-15 18:21 希希里之海阅读(1372) 评论(0) 推荐(0)

2018年2月16日

利用 Scrapy 爬取知乎用户信息

摘要：思路：通过获取知乎某个大V的关注列表和被关注列表，查看该大V和其关注用户和被关注用户的详细信息，然后通过层层递归调用，实现获取关注用户和被关注用户的关注列表和被关注列表，最终实现获取大量用户信息。一、新建一个scrapy项目移动到新建目录下：新建spider项目：二、这里以爬取知乎大V轮子哥阅读全文

posted @ 2018-02-16 13:52 希希里之海阅读(1524) 评论(3) 推荐(2)

2018年2月9日

Scrapy选择器的用法

摘要： 1.构造选择器： 2.使用选择器（在response使用xpath或CSS查询）： .xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。 xpath中 //选取标签，/选择属性， CSS中用 :: 选取属性。调用 extract() 来获阅读全文

posted @ 2018-02-09 12:29 希希里之海阅读(218) 评论(0) 推荐(0)

2018年2月8日

Scrapy命令行基本用法

摘要： 1.创建一个新项目： 2.在新项目中创建一个新的spider文件： mydomain为spider文件名，mydomain.com为爬取网站域名 3.全局命令： 4.只在项目中使用的命令（局部命令）： 5.运行spider文件： 6.检查spider文件有无语法错误： 7.列出spider路径下的s 阅读全文

posted @ 2018-02-08 14:14 希希里之海阅读(8339) 评论(0) 推荐(1)

2018年1月17日

Mac下安装Redis

摘要： Mac下安装Redis使用home-brew一键安装：brew install redis启动Redis服务：brew services start redis 或 redis-server /usr/local/etc/redis.conf关闭Redis服务：brew services stop 阅读全文

posted @ 2018-01-17 23:12 希希里之海阅读(3490) 评论(0) 推荐(0)

2017年9月10日

利用 pyspider 框架抓取猫途鹰酒店信息

摘要：利用框架 pyspider 能实现快速抓取网页信息，而且代码简洁，抓取速度也不错。环境：macOS；Python 版本：Python3。 1.首先，安装 pyspider 框架，使用pip3一键安装： 2.终端输入 pyspider all 启动 pyspider：打开 Chrome，地址栏输入阅读全文

posted @ 2017-09-10 20:54 希希里之海阅读(764) 评论(0) 推荐(0)

2017年8月21日

分析 ajax 请求并抓取今日头条街拍美图

摘要：首先分析街拍图集的网页请求头部：在 preview 选项卡我们可以找到 json 文件，分析 data 选项，找到我们要找到的图集地址 article_url: 选中其中一张图片，分析 json 请求，可以找到图片地址在 gallery 一栏：找到图片地址，接下来我们就可以来写代码了： 1.导入阅读全文

posted @ 2017-08-21 11:24 希希里之海阅读(587) 评论(0) 推荐(0)

2017年8月13日

Python 爬取猫眼电影最受期待榜

摘要：主要爬取猫眼电影最受期待榜的电影排名、图片链接、名称、主演、上映时间。思路：1.定义一个获取网页源代码的函数； 2.定义一个解析网页源代码的函数； 3.定义一个将解析的数据保存为本地文件的函数； 4.定义主函数； 5.使用多进程爬取。步骤一：首先，导入相关的库：步骤二：定义获取网页源代码的函数阅读全文

posted @ 2017-08-13 20:48 希希里之海阅读(909) 评论(0) 推荐(0)

2017年7月30日

Mac 下升级 vim 并自己配置 vim 的过程

摘要： 1.升级 vim 我自己 MacBook Pro 的系统还是 10.11 ，其自带的 vim 版本为 7.3 ，我们将其升至最新版：使用 homebrew ：这将下载最新的 vim 版本并替换系统自带的 vim 。安装完成后重启终端，更新环境变量，输入 vim 后 vim 的版本便为最新版本了阅读全文

posted @ 2017-07-30 23:36 希希里之海阅读(14373) 评论(0) 推荐(1)

Java 小码农一枚，喜欢分享写作交流，欢迎关注我的个人公众号：希希里之海。

公告