正文内容加载中...
posted @ 2018-07-11 09:33 ospider 阅读 (1141) 评论 (0) 编辑
摘要:欢迎关注我的公众号 spider learn (https://github.com/sharkdp/fd) 是 命令的一个更现代的替换。 对比一下 查找名字含有某个字符的文件 OLD NEW 使用正则表达式查找 比如说查找符合 模式的文件。 使用的正则表达式非常古老,比如说在这里我们不能使用 ,也 阅读全文
posted @ 2018-04-09 18:28 ospider 阅读 (719) 评论 (0) 编辑
摘要:楔子 好友李博士要买房了, 前几天应邀帮他抓链家的数据分析下房价, 爬到一半遇到了验证码. 李博士的想法是每天把链家在售的二手房数据都抓一遍, 然后按照时间序列分析. 链家线上在交易的二手房数据大概有30000余套, 而一天只有86400秒, 也就是最慢3s也要访问一个页面. 测试按照这种频率, 大 阅读全文
posted @ 2017-10-07 19:31 ospider 阅读 (10795) 评论 (0) 编辑
摘要:最近看过不少讲爬虫的教程[1][2],基本都是一个模式: 1. 开始先来拿正则、lxml、jquery/pyquery等等教大家从页面上抠出一个一个的值来 2. 然后深入一些在讲讲http 协议,讲讲怎么拿出 cookie 来模拟登录之类的,讲讲基本的反爬虫和反反爬虫的方法 3. 最后在上一个 简单 阅读全文
posted @ 2017-04-30 23:30 ospider 阅读 (5605) 评论 (2) 编辑
摘要:Chapter I 简介 ====== 为什么要写爬虫? 1. 每个网站都应该提供 API,然而这是不可能的 2. 即使提供了 API,往往也会限速,不如自己找接口 注意已知条件(robots.txt 和 sitemap.xml) 1. robots.txt 中可能会有陷阱 2. sitemap 中 阅读全文
posted @ 2017-02-06 22:53 ospider 阅读 (931) 评论 (0) 编辑
摘要:原文链接: "http://yifei.me/note/464" 最近要做下微信爬虫,之前写个小东西都是直接用正则提取数据就算了,如果需要更稳定的提取数据,还是使用 xpath 定位元素比较可靠。周末没事,从爬虫的角度研究了一下 python xml 相关的库。 Python 标准库中自带了 xml 阅读全文
posted @ 2016-09-27 02:11 ospider 阅读 (49654) 评论 (2) 编辑
摘要:最近经常在服务器上开发,经常会遇到不认识的单词,然而 linux 下实在没有什么好用的词典,索性自己写一个好了。 词典 API 首先,Google 了一下可用的词典的 API,发现金山的 iciba 还是不错的。要使用 iciba 的 API 需要首先申请一个 key,目前 key 是免费的,并且没 阅读全文
posted @ 2016-04-21 07:58 ospider 阅读 (729) 评论 (0) 编辑
摘要:下午小伙伴问了一个有趣的问题, 怎么用 Python 的 with 语句同时打开多个文件? 首先, Python 本身是支持同时在 with 中打开多个文件的 当然, 小伙伴的问题不可能这么简单, 他需要从打开一个列表中的所有文件, 而不是打开固定的一个文件, 这时候上面的语法显然就没法满足要求了. 阅读全文
posted @ 2016-03-12 01:30 ospider 阅读 (5256) 评论 (0) 编辑
摘要:前两天(其实是几个月以前了)看到了代码中有 一段,感觉好像是 OpenMP,以前看到并行化的东西都是直接躲开,既然躲不开了,不妨研究一下: OpenMP 是 Open MultiProcessing 的缩写。OpenMP 并不是一个简单的函数库,而是一个诸多编译器支持的框架,或者说是协议吧,总之,不 阅读全文
posted @ 2016-03-11 15:48 ospider 阅读 (38306) 评论 (0) 编辑
摘要:搭建服务器 假设服务器的名字是 git.example.com.首先,添加一个叫做git的用户 。然后如果不存在的话, 为这个用户新建一个主目录 ,然后把这个目录设为git所有 再在本地把你的ssh公钥拷贝到服务器上 ssh copy id git@git.example.com服务器就这样搞好... 阅读全文
posted @ 2016-01-15 19:53 ospider 阅读 (224) 评论 (1) 编辑