随笔分类 -  01_爬虫_crawler

摘要:在使用正则表达式时,有时我们需要捕获的内容前后必须是特定内容,但又不捕获这些特定内容的时候,零宽断言就起到作用了。 (?=exp):零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。 #匹配后面为_path,结果为product 'product_path'.scan /(prod 阅读全文
posted @ 2017-03-02 16:54 cphmvp 阅读(221) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2017-01-03 21:09 cphmvp 阅读(1) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2016-08-19 15:49 cphmvp 阅读(8) 评论(0) 推荐(0) 编辑
摘要:1:创建表 2:构建测试数据 在/home/cphmvp下vim文件 aaas.com 内容如下 两列以\t分割 构建初始导入 3: 查询 select * from tbl_spider where site='aaaa.com'; 数据上传备份方案1: load方式 2:put方式 2.1 判断 阅读全文
posted @ 2016-07-21 20:16 cphmvp 阅读(542) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2016-01-18 14:26 cphmvp 阅读(2) 评论(0) 推荐(0) 编辑
摘要:[转载,后续补上实践case]有了 Docker,用 JavaScript 框架开发的 Web 站点也能很好地支持网络爬虫的内容抓取【编者的话】Prerender 服务能够为网络爬虫提供预先渲染的动态页面内容,解决了用 JavaScript 框架构建的 Web 站点不支持爬虫抓取的问题。本文详细描述... 阅读全文
posted @ 2015-12-29 10:42 cphmvp 阅读(334) 评论(0) 推荐(0) 编辑
摘要:项目中要对数据公式webkit渲染,phantmjs 2.0的效果好比1.9好不少。 安装过程中 坑比较多。转载文章:phantomjs 2.0最新版的官方不提供编译好的文件下载,只能自己编译,有教程但是过于简单,特别是服务器上要安装N多的支持。折腾到现在终于装好了并且能正常运行了,截图mark一下... 阅读全文
posted @ 2015-12-09 17:36 cphmvp 阅读(920) 评论(0) 推荐(0) 编辑
摘要:经常写爬虫的童鞋,难免要处理含有中文的url,大部分时间,都知道url_encode,各个语言也都有支持,今天简单整理下原理,供大家科普1、特征: 如果URL中含有非ASCII字符的话, 浏览器会对URL进行URL_ENCODE, 然后发送给服务器. URL_ENCODE的过程就是把URL作为字符... 阅读全文
posted @ 2015-09-10 14:11 cphmvp 阅读(569) 评论(0) 推荐(1) 编辑
摘要:主要处理 嵌套 div,正则无法很好的处理清洗 比如文本: 想要移除 class =quizPutTag 的div ,内部可能嵌套的还有未知层级的div【前提是html文本段是闭合标签的】这是testtestH2C2O4•2H2O△.CO↑+CO2↑+3H2O↑保留的实现codeload(''.$... 阅读全文
posted @ 2015-08-13 18:29 cphmvp 阅读(428) 评论(0) 推荐(0) 编辑
摘要:1:ps aux|grep Spider4Test.jar查看端口2: lsof -p [端口号]在爬虫运行期间如果看到 大量的TIME_WAIT WAIT_CLOSE 说明请求关闭阻塞【采用httpclient默认方法 ,其实没有关闭掉,需要跑等3分钟 才会关闭】 大量并发时 会有阻塞3: 解决... 阅读全文
posted @ 2015-07-16 12:24 cphmvp 阅读(227) 评论(0) 推荐(0) 编辑
摘要:配置普通HTTP正向代理安装1sudo apt-get install squid squid-common配置 squid31sudo vim /etc/squid3/squid.conf搜索此句1http_access deny all修改为1http_access allow all启动/重启... 阅读全文
posted @ 2015-03-25 12:22 cphmvp 阅读(623) 评论(0) 推荐(0) 编辑
摘要:在工作中要用到android,然后进行网络请求的时候,打算使用httpClient。总结一下httpClient的一些基本使用。版本是4.2.2。使用这个版本的过程中,百度很多,结果都是出现的org.apache.commons.httpclient.这个包名,而不是我这里的org.apache.h... 阅读全文
posted @ 2015-03-24 21:35 cphmvp 阅读(210) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2015-03-19 16:18 cphmvp 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2015-03-17 09:26 cphmvp 阅读(157) 评论(0) 推荐(0) 编辑
摘要:代理中心:简单讲: 精细化控制限制资源的使用,保证有限资源的充分利用及有效性。支持动态增减,实时更新。需求rest api提供请求输入与输出客户端使用代理心跳接收,用于更新代理的使用次数,被占用情况监测代理可用情况,检查代理对指定请求的响应按客户端,线程名称,请求任务号,分配代理代理中心表的curd... 阅读全文
posted @ 2014-12-31 10:10 cphmvp 阅读(388) 评论(0) 推荐(0) 编辑
摘要:使用的是http4.X版本,里面推荐使用的post是keyvalue的形式Listformparams=newArrayList(); for(Stringkey:params.keySet()){formparams.add(newBasicNameValuePair(key,newString(... 阅读全文
posted @ 2014-12-05 10:01 cphmvp 阅读(1784) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2014-12-02 15:01 cphmvp 阅读(1) 评论(0) 推荐(0) 编辑
摘要:InstallationDownload, extract and compile Redis with:$ wget http://download.redis.io/releases/redis-2.8.17.tar.gz$ tar xzf redis-2.8.17.tar.gz$ cd red... 阅读全文
posted @ 2014-11-26 16:21 cphmvp 阅读(161) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2014-11-26 10:08 cphmvp 阅读(3) 评论(0) 推荐(0) 编辑
摘要:大数据生态架构 阅读全文
posted @ 2014-11-18 14:23 cphmvp 阅读(233) 评论(0) 推荐(0) 编辑

爬虫在线测试小工具: http://tool.haoshuju.cn/