上一页 1 2 3 4 5 6 7 8 ··· 15 下一页
摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理Excell格式的文章,如下:package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;... 阅读全文
posted @ 2015-11-18 19:19 孟尧 阅读(1657) 评论(0) 推荐(0)
摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理PDF格式的文章,如下: 1 package com.mengyao.tika.app; 2 3 import java.io.File; 4 import java.io.FileInp... 阅读全文
posted @ 2015-11-03 12:05 孟尧 阅读(3820) 评论(0) 推荐(0)
摘要: 在spark-submit脚本的第27行,可以看到如下 $SPARK_HOME/bin/spark-class可以忽略(它主要是构建应用程序所需的cmd命令),即所有的参数传递到SparkSubmit类中并执行作业提交,如下: object SparkSubmit extends CommandLi 阅读全文
posted @ 2015-11-01 17:56 孟尧 阅读(639) 评论(0) 推荐(0)
摘要: package org.apache.flume.sink;import com.google.common.base.Strings;import org.apache.flume.Channel;import org.apache.flume.Context;import org.apache.... 阅读全文
posted @ 2015-10-24 16:33 孟尧 阅读(863) 评论(0) 推荐(0)
摘要: 在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制,能够减少机器之间的数据重排(Data Shuffle)。Spa... 阅读全文
posted @ 2015-09-14 00:02 孟尧 阅读(865) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2015-08-30 22:10 孟尧 阅读(8) 评论(0) 推荐(0)
摘要: WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy,目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API,在基本不改变开发... 阅读全文
posted @ 2015-08-30 22:06 孟尧 阅读(793) 评论(0) 推荐(0)
摘要: Hadoop集群规范硬盘选型 尽管建议采用RAID(Redundant Array of Independent Disk,即磁盘阵列)作为NameNode的存储器以保护元数据,但是若将RAID作为DataNode的存储设备则不会给HDFS带来益处。HDFS所提供的节点间数据复制技术已能满足数据备... 阅读全文
posted @ 2015-08-26 16:36 孟尧 阅读(2602) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2015-08-19 15:18 孟尧 阅读(17) 评论(0) 推荐(0)
摘要: 使用阿里开源类库FastJson,当需要处理超大JSON文本时,需要Stream API,在fastjson-1.1.32版本中开始提供Stream API。文档参考GitHub:https://github.com/alibaba/fastjson/wiki/Stream-api 1 /** 2 ... 阅读全文
posted @ 2015-08-18 18:53 孟尧 阅读(2526) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 15 下一页