孟尧 - 博客园

2015年11月18日

摘要：通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理Excell格式的文章，如下：package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;... 阅读全文

posted @ 2015-11-18 19:19 孟尧阅读(1672) 评论(0) 推荐(0)

2015年11月3日

Apache-Tika解析PDF文档

摘要：通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理PDF格式的文章，如下： 1 package com.mengyao.tika.app; 2 3 import java.io.File; 4 import java.io.FileInp... 阅读全文

posted @ 2015-11-03 12:05 孟尧阅读(3834) 评论(0) 推荐(0)

2015年11月1日

Spark on YARN的yarn-cluster模式介绍

摘要：在spark-submit脚本的第27行，可以看到如下 $SPARK_HOME/bin/spark-class可以忽略（它主要是构建应用程序所需的cmd命令），即所有的参数传递到SparkSubmit类中并执行作业提交，如下： object SparkSubmit extends CommandLi 阅读全文

posted @ 2015-11-01 17:56 孟尧阅读(640) 评论(0) 推荐(0)

2015年10月24日

Flume源码-LoggerSink

摘要： package org.apache.flume.sink;import com.google.common.base.Strings;import org.apache.flume.Channel;import org.apache.flume.Context;import org.apache.... 阅读全文

posted @ 2015-10-24 16:33 孟尧阅读(865) 评论(0) 推荐(0)

2015年9月14日

Spark计算模型-RDD介绍

摘要：在Spark集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Distributed DataSet，RDD），它是逻辑集中的实体，在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制，能够减少机器之间的数据重排（Data Shuffle）。Spa... 阅读全文

posted @ 2015-09-14 00:02 孟尧阅读(870) 评论(0) 推荐(0)

2015年8月30日

WebMagic开源垂直爬虫-JD爬取1

该文被密码保护。阅读全文

posted @ 2015-08-30 22:10 孟尧阅读(8) 评论(0) 推荐(0)

WebMagic开源垂直爬虫介绍

摘要： WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy，目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的API，在基本不改变开发... 阅读全文

posted @ 2015-08-30 22:06 孟尧阅读(801) 评论(0) 推荐(0)

2015年8月26日

Hadoop集群与RAID磁盘阵列

摘要： Hadoop集群规范硬盘选型尽管建议采用RAID（Redundant Array of Independent Disk，即磁盘阵列）作为NameNode的存储器以保护元数据，但是若将RAID作为DataNode的存储设备则不会给HDFS带来益处。HDFS所提供的节点间数据复制技术已能满足数据备... 阅读全文

posted @ 2015-08-26 16:36 孟尧阅读(2618) 评论(0) 推荐(0)

2015年8月19日

使用Ant实现自动部署发布j2se工程

该文被密码保护。阅读全文

posted @ 2015-08-19 15:18 孟尧阅读(17) 评论(0) 推荐(0)

2015年8月18日

高性能JSON工具-FastJson处理超大JSON文本

摘要：使用阿里开源类库FastJson，当需要处理超大JSON文本时，需要Stream API，在fastjson-1.1.32版本中开始提供Stream API。文档参考GitHub：https://github.com/alibaba/fastjson/wiki/Stream-api 1 /** 2 ... 阅读全文

posted @ 2015-08-18 18:53 孟尧阅读(2535) 评论(0) 推荐(0)

孟尧

前途宽广，贵在坚持

公告