07 2018 档案
摘要:1)netcat(nc)是一个简单而有用的工具,被誉为网络安全界的“瑞士军刀”,不仅可以通过使用TCP或UDP协议的网络连接读写数据,同时还是一个功能强大的网络调试和探测工具,能够建立你需要的几乎所有类型的网络连接。 2)在Linux终端窗口可以直接使用yum工具进行安装: 3)安装完毕后,在终端模
阅读全文
摘要:1.hbase的特点是什么? 答:1)hbase是一个分布式的,基于列式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。 2)hbase 适合存储半结构化或非结构化的数据,对于数据结构字段不够确定或者杂乱无章很难按照一个概念去抽取的数据。 3)hbase为null的数据不会
阅读全文
摘要:一、HBase的RowKey设计原则 1.我们知道HBase是三维有序存储的,通过RowKey(行键),ColumnKey(Column family和qualifier)和TimeStamp(时间戳),这三个维度,对HBase中的数据进行快速的定位,Hbase中的RowKey可以唯一的标识一行记录
阅读全文
摘要:这两天把要前几天的知识点回顾一下,接下来我会用自己对知识点的理解来写一些东西 一、知识点回顾 1.hbase集群启动:$>start-hbase.sh >hbase-daemon.sh start hmaster + hbase-daemon.sh start regionserver hbase集
阅读全文
摘要:一位10年Java工作经验的架构师聊Java和工作经验 一位10年Java工作经验的架构师聊Java和工作经验 (转)http://blog.csdn.net/lifuxiangcaohui/article/details/48342315 黄勇( 博客),从事近十年的 JavaEE 应用开发工作,
阅读全文
摘要:光阴似箭,日月如梭,时间过得很快,很多事情已经过去了,遗憾一件一件,小成绩也有一些。 2018目标: 1.每天花30分钟看书,花10分钟写日记。戒除某些不良习惯。 2.马上就要开学了,坚持每次课都高质量的上完,坚决不逃课! 3.再减肥10公斤,保持65KG以下的体重。 4.剩下5个月的时间保证高质量
阅读全文
摘要:这个错误找了好长时间,日志看半天,找度娘没什么用,再看stackoverflow,上面有几篇相关的帖子,但是没人回答。 看半天,没有cause,只好到idea中去看sortLocalSorts源码,结果才知道是dns解析相关的配置,查了几个主机上的hbase-site.xml没问题,HA配置也没问题
阅读全文
摘要:一、 1.预切割:在创建表的时候,预先对表进行region切割。切割线就是rowkey 2.创建文件的时候进行预切割,结果如下图,查看WEBUI16010 3.批量与缓存 1)扫描器缓存,是面向行一级的 2)批量扫描是面向列一级的,批量可以让用户选择每次ResultScanner实例的next()操
阅读全文
摘要:一、HBASE内部原理 1.hbase系统架构 上图组件介绍; 1):Client 包含访问 hbase 的接口, client 维护着一些 cache 来加快对 hbase 的访问,比如 region 的位置信息。 2):Zookeeper 1 保证任何时候,集群中只有一个 master 2 存贮
阅读全文
摘要:一、数据库OLAP和OLTP简单的介绍比较 1.OLTP:on-line transaction processing在线事务处理,应用在传统关系型数据库比较多,执行日常基本的事务处理,比如数据库记录的增删改查,如银行的一笔交易记录,就是一个典型的事务处理,强调数据库内存效率,强调内存各种指标的命令
阅读全文
摘要:Hive 最常见的几个面试题 1.hive 的使用, 内外部表的区别,分区作用, UDF 和 Hive 优化(1)hive 使用:仓库、工具(2)hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除 外部表:不加载数据到 hive 所在的 hdfs 目录,删
阅读全文
摘要:一、UDF 1.显示所有函数:show functions ; 2.显示指定函数的帮助:$hive>desc function current_database(); 3. 什么是 UDF? 当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF: user
阅读全文
摘要:1、 hadoop 运行原理2、 mapreduce 原理3、 mapreduce 的优化4、举一个简单的例子说下 mapreduce 是怎么运行的5、 hadoop 中 combiner 的作用6、简述 hadoop 的安装7、请列出 hadoop 的进程名8、简述 hadoop 的调度器9、列出
阅读全文
摘要:事务的四个特性 1.automicity:原子性 2.consistency:一致性 3. isolation:独立性 4.durability:持久性 5.支持事务有几个条件需要满足:1.所有的事务都支持自动提交;2.只支持ORC格式的数据;3.桶表 7.配置hive的参数使其支持事务: 在hiv
阅读全文
摘要:
阅读全文
摘要:Hive 是什么? 1.Hive 是基于 Hadoop处理结构化数据的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能。 2.Hive 利用 HDFS 存储数据,利用MapReduce 查询分析数据。本质是将 SQL 转换为 MapReduce 程序,比直接用
阅读全文
摘要:深入理解hadoop之机架感知 机架感知 hadoop的replication为3,机架感知的策略为: 第一个block副本放在和client所在的datanode里(如果client不在集群范围内,则这第一个node是随机选取的)。第二个副本放置在与第一个节点不同的机架中的datanode中(随机
阅读全文
摘要:MapReduce的排序是默认按照Key排序的,也就是说输出的时候,key会按照大小或字典顺序来输出,比如一个简单的wordcount,出现的结果也会是左侧的字母按照字典顺序排列。下面我们主要聊聊面试中比较常见的全排序和二次排序 一、全排序 全排序的方法一般有以下几种: 1.使用一个分区。 但是该方
阅读全文
摘要:深入理解hadoop之数据倾斜 1、什么是数据倾斜 我们在用map /reduce程序执行时,有时候会发现reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的r
阅读全文
摘要:深入理解hadoop之HDFS 刚刚才写完关于mapreduce的一篇博文,趁热打铁接下来聊聊HDFS。本博文参考资料为HADOOP权威指南第3版完版,博文如有错漏之处,敬请指正。 HDFS即Hadoop Distributed FileSystem,是hadoop旗舰机的文件系统。HDFS以流式数
阅读全文
摘要:本文系原创,若有转载需要,请注明出处。https://www.cnblogs.com/bigdata-stone/ 1.mapReduce简介 MapReduce是面向大数据并行处理的计算模型、框架和平台。 2.图解计算框架:(画图不易,请勿挑剔) 2.1. inputformat工作机制 在 Ma
阅读全文

浙公网安备 33010602011771号