上一页 1 2 3 4 5 6 ··· 10 下一页

2017年8月31日

WebDriver中如何处理Iframe 及 嵌套Iframe

摘要: 最近在用webdriver进行爬虫的时候,遇到了网站存在iframe的情况,处理了好久没有解决,后来发现原来webdriver自带处理方法,汗颜。。 1、iFrame有ID 或者 name的情况 //进入id="frame1"的frame中,定位id="div1"的div和id="input1"的输 阅读全文

posted @ 2017-08-31 08:58 波比12 阅读(1170) 评论(0) 推荐(0) 编辑

2017年3月13日

【转载】Java JVM : Xms Xmx PermSize MaxPermSize 区别

摘要: 转载自:http://cxh61207.iteye.com/blog/1160663 转载自:http://cxh61207.iteye.com/blog/1160663 java JVM虚拟机选项: Xms Xmx PermSize MaxPermSize 区别 Xms 是指设定程序启动时占用内存 阅读全文

posted @ 2017-03-13 09:47 波比12 阅读(538) 评论(0) 推荐(0) 编辑

2017年2月7日

Flume入门——Selector、Chanel等

摘要: 1、selector (http://blog.csdn.net/looklook5/article/details/40430965) (http://blog.csdn.net/xiao_jun_0820/article/details/38116103#) 选择器可以工作在复制 多路复用(路由 阅读全文

posted @ 2017-02-07 18:42 波比12 阅读(975) 评论(0) 推荐(0) 编辑

2017年1月10日

Flume 入门--几种不同的Sinks

摘要: 主要介绍几种常见Flume的Sink--汇聚点 1.Logger Sink 记录INFO级别的日志,一般用于调试。前面介绍Source时候用到的Sink都是这个类型的Sink 必须配置的属性: 属性说明: !channel – !type – The component type name, nee 阅读全文

posted @ 2017-01-10 21:33 波比12 阅读(9692) 评论(1) 推荐(0) 编辑

2017年1月9日

Flume 入门--几种不同的Sources

摘要: 1.flume概念 flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的系统。 flume目前是apache的一个顶级项目。 flume需要java运行环境,要求java1.6以上,推荐java1.7. 将下载好的flume安装包解压 阅读全文

posted @ 2017-01-09 22:28 波比12 阅读(23073) 评论(1) 推荐(0) 编辑

2017年1月6日

urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250

摘要: 对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务。 1、urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的。安装方式:pip install beautifulsoup4 其官方文档中文版地址:https:/ 阅读全文

posted @ 2017-01-06 15:54 波比12 阅读(1426) 评论(0) 推荐(0) 编辑

2016年12月30日

Hive 中parse_url的使用

摘要: 1、Hive的parse_url函数 parse_url(url, partToExtract[, key]) - extracts a part from a URL 解析URL字符串,partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUT 阅读全文

posted @ 2016-12-30 14:55 波比12 阅读(19133) 评论(1) 推荐(2) 编辑

2016年12月16日

ubuntu下安装rpm 文件

摘要: 正想着如何把rpm package 安装到ubuntu上, 发现了这篇文章,转载一下 Ubuntu的软件包格式是deb,如果要安装rpm的包,则要先用alien把rpm转换成deb。 sudo apt-get install alien #alien默认没有安装,所以首先要安装它 sudo alie 阅读全文

posted @ 2016-12-16 16:11 波比12 阅读(2153) 评论(0) 推荐(0) 编辑

2016年12月14日

【转载】 Java 7之基础 - 强引用、弱引用、软引用、虚引用

摘要: 原文地址:http://blog.csdn.net/mazhimazh/article/details/19752475 1、强引用(StrongReference) 强引用是使用最普遍的引用。如果一个对象具有强引用,那垃圾回收器绝不会回收它。如下: 当内存空间不足,Java虚拟机宁愿抛出OutOf 阅读全文

posted @ 2016-12-14 21:53 波比12 阅读(465) 评论(0) 推荐(0) 编辑

2016年12月13日

Python爬虫库Scrapy入门1--爬取当当网商品数据

摘要: 1.关于scrapy库的介绍,可以查看其官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/ 2.安装:pip install scrapy 注意这个库的运行需要pywin32的支持,因此还需要安装pywin32。可以在这个网站上选择合适的版本下载安 阅读全文

posted @ 2016-12-13 22:21 波比12 阅读(2828) 评论(1) 推荐(1) 编辑

上一页 1 2 3 4 5 6 ··· 10 下一页

导航