thinker1017 - 博客园

2016年10月10日

摘要： Hive的分析函数又叫窗口函数，在oracle中就有这样的分析函数，主要用来做数据统计分析的。 Hive的分析函数又叫窗口函数，在oracle中就有这样的分析函数，主要用来做数据统计分析的。 Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为阅读全文

posted @ 2016-10-10 21:20 thinker1017 阅读(1241) 评论(0) 推荐(0)

2016年10月4日

搭建Data Mining环境（Spark版本）

摘要：前言：工欲善其事，必先利其器。倘若不懂得构建一套大数据挖掘环境，何来谈Data Mining！何来领悟“Data Mining Engineer”中的工程二字！也仅仅是在做数据分析相关的事罢了！此文来自于笔者在实践项目开发中的记录，真心希望日后成为所有进入大数据领域挖掘工程师们的良心参考资料。下面是阅读全文

posted @ 2016-10-04 16:43 thinker1017 阅读(264) 评论(0) 推荐(0)

工具类commons-io的Tailer用来监控文件

摘要：一、前言：在Linux下有使用tail命令一、前言：在Linux下有使用tail命令在Commons-io中也提供这种方法二、他采用的是线程方式来监控文件内容的变化 1、Tailer类（采用线程的方式进行文件的内容变法） 2、TailerListener类 3、TailerListenerAd 阅读全文

posted @ 2016-10-04 16:12 thinker1017 阅读(1481) 评论(0) 推荐(0)

使用Spark Streaming + Kudu + Impala构建一个预测引擎

摘要：随着用户使用天数的增加，不管你的业务是扩大还是缩减了，为什么你的大数据中心架构保持线性增长的趋势？很明显需要一个稳定的基本架构来保障你的业务线。当你的客户处在休眠期，或者你的业务处在淡季，你增加的计算资源就处在浪费阶段；相对应地，当你的业务在旺季期，或者每周一每个人对上周的数据进行查询分析，有多少次阅读全文

posted @ 2016-10-04 15:39 thinker1017 阅读(748) 评论(0) 推荐(0)

hive实现根据用户分组，按用户记录求上下两条记录的时间差

摘要：想计算每次抽奖时间之间的间隔以便判断是否是并发插入我的方法如下使用一个临时变量记录前一次的抽奖时间有没更方便的方法实现这一功能呢？对所有用户都求相邻记录时间差该如何操作？ hive做法如下： 1.Hive row_number() 函数的高级用法 row_num 按照某个字段分区显示第几条数据阅读全文

posted @ 2016-10-04 15:19 thinker1017 阅读(3074) 评论(0) 推荐(0)

2016年9月30日

国外互联网公司大数据技术架构研究

摘要： Google大数据技术架构探秘一、Google Google是大数据时代的奠基者，其大数据技术架构一直是互联网公司争相学习和研究的重点，也是行业大数据技术架构的标杆和示范。 1、谷歌的数据中心谷歌已经建立了世界上最快、最强大、最高质量的数据中心，它的8个主要数据中心都远离其位于加州山景城阅读全文

posted @ 2016-09-30 23:33 thinker1017 阅读(5299) 评论(2) 推荐(0)

2016年9月28日

Hadoop源码解析之 rpc通信 client到server通信

摘要： rpc是Hadoop分布式底层通信的基础，无论是client和namenode，namenode和datanode，以及yarn新框架之间的通信模式等等都是采用的rpc方式。下面我们来概要分析一下Hadoop2的rpc。 Hadoop通信模式主要是C/S方式，及客户端和服务端的模式。客户端采用传阅读全文

posted @ 2016-09-28 20:12 thinker1017 阅读(719) 评论(0) 推荐(0)

一致性哈希与java实现

摘要：一致性哈希算法是分布式系统中常用的算法。比如，一个分布式的存储系统，要将数据存储到具体的节点上，如果采用普通的hash方法，将数据映射到具体的节点上，如key%N，key是数据的key，N是机器节点数，如果有一个机器加入或退出这个集群，则所有的数据映射都无效了，如果是持久化存储则要做数据迁移，如果是阅读全文

posted @ 2016-09-28 20:04 thinker1017 阅读(306) 评论(0) 推荐(0)

spark 对hbase 操作

摘要：本文将分两部分介绍，第一部分讲解使用 HBase 新版 API 进行 CRUD 基本操作；第二部分讲解如何将 Spark 内的 RDDs 写入 HBase 的表中，反之，HBase 中的表又是如何以 RDDs 形式加载进 Spark 内的。环境配置为了避免版本不一致带来不必要的麻烦，API 和阅读全文

posted @ 2016-09-28 20:01 thinker1017 阅读(8429) 评论(0) 推荐(0)

2016年9月27日

Spark MLlib（下）--机器学习库SparkMLlib实战

摘要： 1、MLlib实例 1.1 聚类实例 1.1.1 算法说明聚类（Cluster analysis）有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能相似，簇与簇之间的object尽可能相异。聚类算法是机器学习（或者说是数据挖掘更合适）中重要的一部阅读全文

posted @ 2016-09-27 08:39 thinker1017 阅读(616) 评论(0) 推荐(0)

公告