大数据 - 随笔分类 - 哼哼哈哈二将

Hive教程之metastore的三种模式

摘要：Hive中metastore（元数据存储）的三种方式：内嵌Derby方式 Local方式 Remote方式 [一]、内嵌Derby方式这个是Hive默认的启动模式，一般用于单元测试，这种存储方式有一个缺点：在同一时间只能有一个进程连接使用数据库。 hive-site.xml 中jdbc URL、阅读全文

posted @ 2016-09-19 19:59 哼哼哈哈二将阅读(14281) 评论(0) 推荐(1)

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

摘要：Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义，以及分析 Z 阅读全文

posted @ 2016-09-18 14:12 哼哼哈哈二将阅读(304) 评论(0) 推荐(0)

ZooKeeper典型应用场景

摘要：ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的阅读全文

posted @ 2016-09-18 14:10 哼哼哈哈二将阅读(249) 评论(0) 推荐(0)

HBase Java API类介绍

摘要：几个相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库（DataBase) HBaseConfiguration HTable 表（Table) HTableDescriptor 列族（Column Family) Put 列修饰符（Column 阅读全文

posted @ 2016-09-09 10:55 哼哼哈哈二将阅读(385) 评论(0) 推荐(0)

Spark执行样例报警告：WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources

摘要：搭建Spark环境后，调测Spark样例时，出现下面的错误：WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that worke 阅读全文

posted @ 2016-09-01 21:51 哼哼哈哈二将阅读(6044) 评论(1) 推荐(0)

hadoop 的job.setOutputKeyClass和job.setOutputValueClass的几个问题

摘要：昨天写了一个mapreduce函数一直有错误，找不到错误，今天找了一天终于解决了，原来是hadoop 的job.setOutputKeyClass和job.setOutputValueClas设置输出的问题。 job.setOutputKeyClass和job.setOutputValueClas在阅读全文

posted @ 2016-09-01 11:03 哼哼哈哈二将阅读(531) 评论(0) 推荐(0)

ZooKeeper应用场景

摘要：ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的阅读全文

posted @ 2016-08-26 22:19 哼哼哈哈二将阅读(1209) 评论(0) 推荐(0)

hadoop2.x配合ZooKeeper集群环境搭建

摘要：前期准备就不详细说了，课堂上都介绍了1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 ######注意######如果你们公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等） /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙5.ssh免登阅读全文

posted @ 2016-08-26 22:17 哼哼哈哈二将阅读(423) 评论(0) 推荐(0)

HDFS原理分析之HA机制：avatarnode原理

摘要：一、问题描述由于namenode 是HDFS的大脑，而这个大脑又是单点，如果大脑出现故障，则整个分布式存储系统就瘫痪了。HA（High Available）机制就是用来解决这样一个问题的。碰到这么个问题，首先本能的想到的就是冗余备份，备份的方式有很多种，前辈们设计的有元数据备份方案，seconda 阅读全文

posted @ 2016-08-26 18:46 哼哼哈哈二将阅读(456) 评论(0) 推荐(0)

搜索引擎-倒排索引基础知识

摘要：搜索引擎的索引 1.单词——文档矩阵单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型，图3-1展示了其含义。图3-1的每列代表一个文档，每行代表一个单词，打对勾的位置代表包含关系。图3-1 单词-文档矩阵从纵向即文档这个维度来看，每列代表文档包含了哪些单词，比如文档1包含了词汇1和词阅读全文

posted @ 2016-08-26 09:45 哼哼哈哈二将阅读(324) 评论(0) 推荐(0)

hadoop下远程调试方法

摘要：JPDA 简介Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构，使您能够在各种环境中轻松调试 Java 应用程序。JPDA 由两个接口（分别是 JVM Tool Interface 和 JDI）、一个协议（J 阅读全文

posted @ 2016-08-24 16:41 哼哼哈哈二将阅读(437) 评论(0) 推荐(0)

Hbase rowkey热点问题

摘要：当处理由连续事件得到的数据时，即时间上连续的数据。这些数据可能来自于某个传感器网络、证券交易或者一个监控系统。它们显著的特点就是rowkey中含有事件发生时间。带来的一个问题便是HBase对于row的不均衡分布，它们被存储在一个唯一的rowkey区间中，被称为region，区间的范围被称为Start 阅读全文

posted @ 2016-08-20 15:34 哼哼哈哈二将阅读(391) 评论(0) 推荐(0)

Hadoop 2.2 & HBase 0.96 Maven 依赖总结

摘要：由于Hbase 0.94对Hadoop 2.x的支持不是非常好，故直接添加Hbase 0.94的jar依赖可能会导致问题。但是直接添加Hbase0.96的依赖，由于官方并没有发布Hbase 0.96的jar包，通过maven编译项目的时候会出现找不到jar包导致编译失败。通过网上的资料，得知Hb 阅读全文

posted @ 2016-08-20 12:35 哼哼哈哈二将阅读(636) 评论(0) 推荐(0)

通过Java Api与HBase交互

摘要：HBase提供了Java Api的访问接口，掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要，本文将继续前两篇文章中blog表的示例，介绍常用的Api。阅读全文

posted @ 2016-08-20 11:35 哼哼哈哈二将阅读(239) 评论(0) 推荐(0)

从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码

摘要：问题导读：1.如何通过官网src包，获取hadoop的全部代码2.通过什么样的操作，可以查看hadoop某个函数或则类的实现？3.maven的作用是什么？我们如果想搞开发，研究源码对我们的帮助很大。不明白原理就如同黑盒子，遇到问题，我们也摸不着思路。所以这里交给大家一.如何获取源码二.如何关联源码一阅读全文

posted @ 2016-08-17 12:03 哼哼哈哈二将阅读(2052) 评论(0) 推荐(0)

win7如何安装maven、安装protoc

摘要：问题导读1.protoc安装需要安装哪些软件？2.如何验证maven是否安装成功？3.如何验证protoc是否安装成功？一、安装mvaven包1.首先我们下载maven包apache-maven-3.2.1.zip链接：http://pan.baidu.com/s/1jG9QhWa 密码：vmee 阅读全文

posted @ 2016-08-17 12:02 哼哼哈哈二将阅读(2383) 评论(0) 推荐(0)

如何通过eclipse查看、阅读hadoop2.4源码

摘要：问题导读：1.官网src包下载包，能否直接使用？2.如何跟踪和查看hadoop源码？此篇是从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码基础上的一个继续，上文其实已经把源代码下载下来了。下载之后，我们如何查看源码代码。我们还是通过eclipse的导入功能，这里简阅读全文

posted @ 2016-08-17 12:02 哼哼哈哈二将阅读(828) 评论(0) 推荐(0)

hadoop、storm和spark的区别、比较

摘要：一、hadoop、Storm该选哪一个？为了区别hadoop和Storm，该部分将回答如下问题：1.hadoop、Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什么场景，什么情况下使用hadoop4.什么是吞吐量首先整体认识：Hadoop是磁盘级计算，进行计算时阅读全文

posted @ 2016-08-15 16:53 哼哼哈哈二将阅读(25209) 评论(2) 推荐(2)

Spark学习体系整理(基础篇、中级篇、高级篇所涉及内容)

摘要：新手刚开始学习比较迷茫，参考下面，然后找相关资料学习1 Spark基础篇 1.1 Spark生态和安装部署在安装过程中，理解其基本操作步骤。安装部署 Spark安装简介 Spark的源码编译 Spark Standalone安装 Spark Standalone HA安装 Spark应用程序部署阅读全文

posted @ 2016-08-15 16:37 哼哼哈哈二将阅读(1076) 评论(0) 推荐(1)

如何向map和reduce脚本传递参数,加载文件和目录

摘要：本文主要讲解三个问题： 1 使用Java编写MapReduce程序时，如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何向map、reduce脚本传递参数。 3 使用Streaming编写MapReduc 阅读全文

posted @ 2016-08-11 18:34 哼哼哈哈二将阅读(1204) 评论(0) 推荐(0)

哼哼哈哈二将

随笔分类 - 大数据

公告