大数据和AI躺过的坑

2016年12月13日

Hadoop HDFS编程 API入门系列之合并小文件到HDFS（三）

摘要：不多说，直接上代码。代码版本1 代码版本2 阅读全文

posted @ 2016-12-13 23:38 大数据和AI躺过的坑阅读(2554) 评论(0) 推荐(0)

Hadoop HDFS编程 API入门系列之路径过滤上传多个文件到HDFS（二）

摘要：不多说，直接上代码。代码版本1 在Hadoop集群里测试的代码版本在Eclipse/MyEclipse集群里测试的代码版本代码版本2 阅读全文

posted @ 2016-12-13 23:26 大数据和AI躺过的坑阅读(2469) 评论(0) 推荐(0)

Hadoop HDFS编程 API入门系列之从本地上传文件到HDFS（一）

摘要：不多说，直接上代码。代码版本1 代码版本2 阅读全文

posted @ 2016-12-13 23:12 大数据和AI躺过的坑阅读(8957) 评论(0) 推荐(0)

Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）

摘要：不多说，直接上代码。 Hadoop MapReduce编程 API入门系列之小文件合并（二十九）生成的结果，作为输入源。代码 package zhouls.bigdata.myMapReduce.ParseTVDataCompressAndCounter; import java.net.URI 阅读全文

posted @ 2016-12-13 21:08 大数据和AI躺过的坑阅读(411) 评论(0) 推荐(0)

Hadoop MapReduce编程 API入门系列之小文件合并（二十九）

摘要：不多说，直接上代码。 Hadoop 自身提供了几种机制来解决相关的问题，包括HAR，SequeueFile和CombineFileInputFormat。 Hadoop 自身提供的几种小文件合并机制 Hadoop HAR 将众多小文件打包成一个大文件进行存储，并且打包后原来的文件仍然可以通过Map- 阅读全文

posted @ 2016-12-13 20:48 大数据和AI躺过的坑阅读(4086) 评论(0) 推荐(0)

Hadoop MapReduce编程 API入门系列之网页排序（二十八）

摘要：不多说，直接上代码。 Map output bytes=247 Map output materialized bytes=275 Input split bytes=139 Combine input records=0 Combine output records=0 Reduce input 阅读全文

posted @ 2016-12-13 19:18 大数据和AI躺过的坑阅读(873) 评论(0) 推荐(0)

Hadoop MapReduce编程 API入门系列之计数器（二十七）

摘要：不多说，直接上代码。 MapReduce 计数器是什么？计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器，记录数据或者进度的变化情况。 MapReduce 计数器能做什么？ MapReduce 计数器（Counter）为我们提供一个窗口，用于观察阅读全文

posted @ 2016-12-13 11:34 大数据和AI躺过的坑阅读(490) 评论(0) 推荐(0)

2016年12月12日

Hadoop MapReduce编程 API入门系列之join（二十六）（未完）

摘要：不多说，直接上代码。天气记录数据库气象站数据库气象站和天气记录合并之后的示意图如下所示。连接操作的具体实现技术取决于数据集的规模及分区方式。如果一个数据集很大而另外一个集合很小，以至于可以分发到集群中的每一个节点之中，则可以执行一个 MapReduce 作业，将各个气象站的天气记录放到一块阅读全文

posted @ 2016-12-12 23:01 大数据和AI躺过的坑阅读(808) 评论(0) 推荐(0)

Hadoop MapReduce编程 API入门系列之Crime数据分析（二十五）（未完）

摘要：不多说，直接上代码。一共12列，我们只需提取有用的列：第二列（犯罪类型）、第四列（一周的哪一天）、第五列（具体时间）和第七列（犯罪场所）。思路分析基于项目的需求，我们通过以下几步完成： 1、首先根据数据集，分别统计出不同犯罪类别在周时段内发生犯罪次数和不同区域在周时段内发生犯罪的次数。 2、然阅读全文

posted @ 2016-12-12 22:38 大数据和AI躺过的坑阅读(1020) 评论(0) 推荐(1)

Hadoop MapReduce编程 API入门系列之倒排索引（二十四）

摘要：不多说，直接上代码。 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2 阅读全文

posted @ 2016-12-12 21:58 大数据和AI躺过的坑阅读(937) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告