会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
孟尧
前途宽广,贵在坚持
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
15
下一页
2015年11月18日
Apache-Tika解析Excell文档
摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理Excell格式的文章,如下:package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;...
阅读全文
posted @ 2015-11-18 19:19 孟尧
阅读(1657)
评论(0)
推荐(0)
2015年11月3日
Apache-Tika解析PDF文档
摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理PDF格式的文章,如下: 1 package com.mengyao.tika.app; 2 3 import java.io.File; 4 import java.io.FileInp...
阅读全文
posted @ 2015-11-03 12:05 孟尧
阅读(3820)
评论(0)
推荐(0)
2015年11月1日
Spark on YARN的yarn-cluster模式介绍
摘要: 在spark-submit脚本的第27行,可以看到如下 $SPARK_HOME/bin/spark-class可以忽略(它主要是构建应用程序所需的cmd命令),即所有的参数传递到SparkSubmit类中并执行作业提交,如下: object SparkSubmit extends CommandLi
阅读全文
posted @ 2015-11-01 17:56 孟尧
阅读(639)
评论(0)
推荐(0)
2015年10月24日
Flume源码-LoggerSink
摘要: package org.apache.flume.sink;import com.google.common.base.Strings;import org.apache.flume.Channel;import org.apache.flume.Context;import org.apache....
阅读全文
posted @ 2015-10-24 16:33 孟尧
阅读(863)
评论(0)
推荐(0)
2015年9月14日
Spark计算模型-RDD介绍
摘要: 在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制,能够减少机器之间的数据重排(Data Shuffle)。Spa...
阅读全文
posted @ 2015-09-14 00:02 孟尧
阅读(865)
评论(0)
推荐(0)
2015年8月30日
WebMagic开源垂直爬虫-JD爬取1
该文被密码保护。
阅读全文
posted @ 2015-08-30 22:10 孟尧
阅读(8)
评论(0)
推荐(0)
WebMagic开源垂直爬虫介绍
摘要: WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy,目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API,在基本不改变开发...
阅读全文
posted @ 2015-08-30 22:06 孟尧
阅读(793)
评论(0)
推荐(0)
2015年8月26日
Hadoop集群与RAID磁盘阵列
摘要: Hadoop集群规范硬盘选型 尽管建议采用RAID(Redundant Array of Independent Disk,即磁盘阵列)作为NameNode的存储器以保护元数据,但是若将RAID作为DataNode的存储设备则不会给HDFS带来益处。HDFS所提供的节点间数据复制技术已能满足数据备...
阅读全文
posted @ 2015-08-26 16:36 孟尧
阅读(2602)
评论(0)
推荐(0)
2015年8月19日
使用Ant实现自动部署发布j2se工程
该文被密码保护。
阅读全文
posted @ 2015-08-19 15:18 孟尧
阅读(17)
评论(0)
推荐(0)
2015年8月18日
高性能JSON工具-FastJson处理超大JSON文本
摘要: 使用阿里开源类库FastJson,当需要处理超大JSON文本时,需要Stream API,在fastjson-1.1.32版本中开始提供Stream API。文档参考GitHub:https://github.com/alibaba/fastjson/wiki/Stream-api 1 /** 2 ...
阅读全文
posted @ 2015-08-18 18:53 孟尧
阅读(2526)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
15
下一页
公告