打赏
上一页 1 ··· 124 125 126 127 128 129 130 131 132 ··· 180 下一页
摘要: HBase是一个类似BigTable的分布式数据库, 它是一个稀疏的长期存储的(存在硬盘上)、多维度的、排序的映射表。这张表(HBase)的索引是行关键字、列关键字和时间戳。 HBase中的数据都是字符串,没有类型。 用户在表格中存储数据,每一行都有一个可排序的主键和任意多的列。由于HBase是稀疏 阅读全文
posted @ 2016-12-07 09:20 大数据和AI躺过的坑 阅读(763) 评论(0) 推荐(0)
摘要: 在 HBase里的HRegion 里,谈过,HRegion是按照表名+开始/结束主键,即表名+主键范围来区分的。由于主键范围是连续的,所以一般用开始主键就可以表示相应的HRegion了。 不过,因为我们有合并和分隔操作,此时,如果正好在执行这些操作的过程中出现死机,那么就可能存在多份表名和开始主键相 阅读全文
posted @ 2016-12-06 13:31 大数据和AI躺过的坑 阅读(5272) 评论(0) 推荐(1)
摘要: 首先,要区分,HRegion服务器包含两大部分:HLog部分和HRegion部分 HBase里的HRegion服务器 HBase里的HRegion 当表的大小超过设置值的时候,HBase会自动将表划分为不同的区域,每个区域包含所有行的一个子集。对用户来说,每个表是一堆数据的集合,每个表靠主键来区分。 阅读全文
posted @ 2016-12-06 13:06 大数据和AI躺过的坑 阅读(1276) 评论(0) 推荐(0)
摘要: 每台HRegion服务器都会和HMaster服务器通信,HMaster的主要任务就是告诉每个HRegion服务器它要维护哪些HRegion。 当一台新的HRegion服务器登录到HMaster服务器时,HMaster会告诉它先等待分配数据。 而当一台HRegion死机时,HMaster会把它负责的H 阅读全文
posted @ 2016-12-06 13:02 大数据和AI躺过的坑 阅读(3395) 评论(0) 推荐(0)
摘要: 所有的数据库数据一般是保存在Hadoop分布式系统上面的,用户通过一系列HRegion服务器获取这些数据。一台机器上一般只运行一个HRegion服务器,而且每一分区段的HRegion也只会被一个HRegion服务器维护。 HRegion服务器包含两大部分:HLog部分和HRegion部分。 HReg 阅读全文
posted @ 2016-12-06 12:46 大数据和AI躺过的坑 阅读(3415) 评论(0) 推荐(0)
摘要: 首先,明确,HRegion服务器包含两大部分:HLog和HRegion。 HLog用来存储数据日志,采用的是先写日志的方式。 当用户需要更新数据的时候,数据会被分配到对应的HRegion服务器上提交修改。数据首先被提交到HLog文件里面,在操作写入HLog之后,commit()调用才会将其返回给客户 阅读全文
posted @ 2016-12-06 12:33 大数据和AI躺过的坑 阅读(2078) 评论(0) 推荐(1)
摘要: 最近,因科研需要,学习Nessus。 Nessus是一款优秀的漏洞扫描软件,在其v6 HOME版本中在线更新漏洞插件不成功,采用离线更新,成功地更新了插件,在此将更新方法进行分享。 1、Nessus软件安装包的下载 http://www.tenable.com/products/nessus/sel 阅读全文
posted @ 2016-12-05 17:53 大数据和AI躺过的坑 阅读(5246) 评论(0) 推荐(0)
摘要: Hive与JDBC示例 在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口。在hive安装目录下的bin,使用下面命令进行开启: hive -service hiveserver & //Hive低版本提供的服务是:Hiveserver hive --service 阅读全文
posted @ 2016-12-04 16:49 大数据和AI躺过的坑 阅读(2884) 评论(0) 推荐(0)
摘要: 为了更好地理解Spark Streaming 子框架的处理机制,必须得要自己弄清楚这些最基本概念。 1、离散流(Discretized Stream,DStream):这是Spark Streaming对内部持续的实时数据流的抽象描述,即我们处理的一个实时数据流,在Spark Streaming中对 阅读全文
posted @ 2016-12-04 12:33 大数据和AI躺过的坑 阅读(1057) 评论(0) 推荐(0)
摘要: Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。 其中包括:资源管理框架,Apache YARN、Apache Mesos;基于内存的分布式文件系统,Tachyon;随后是Spark,更上面则是实现各种功能的系统,比如机器学习MLli 阅读全文
posted @ 2016-12-04 12:16 大数据和AI躺过的坑 阅读(1162) 评论(0) 推荐(0)
上一页 1 ··· 124 125 126 127 128 129 130 131 132 ··· 180 下一页