大数据和AI躺过的坑

2016年12月7日

摘要： HBase是一个类似BigTable的分布式数据库，它是一个稀疏的长期存储的（存在硬盘上）、多维度的、排序的映射表。这张表（HBase）的索引是行关键字、列关键字和时间戳。 HBase中的数据都是字符串，没有类型。用户在表格中存储数据，每一行都有一个可排序的主键和任意多的列。由于HBase是稀疏阅读全文

posted @ 2016-12-07 09:20 大数据和AI躺过的坑阅读(764) 评论(0) 推荐(0)

2016年12月6日

Hadoop HBase概念学习系列之META表和ROOT表（六）

摘要：在 HBase里的HRegion 里，谈过，HRegion是按照表名+开始/结束主键，即表名+主键范围来区分的。由于主键范围是连续的，所以一般用开始主键就可以表示相应的HRegion了。不过，因为我们有合并和分隔操作，此时，如果正好在执行这些操作的过程中出现死机，那么就可能存在多份表名和开始主键相阅读全文

posted @ 2016-12-06 13:31 大数据和AI躺过的坑阅读(5276) 评论(0) 推荐(1)

Hadoop HBase概念学习系列之HBase里的HRegion（五）

摘要：首先，要区分，HRegion服务器包含两大部分：HLog部分和HRegion部分 HBase里的HRegion服务器 HBase里的HRegion 当表的大小超过设置值的时候，HBase会自动将表划分为不同的区域，每个区域包含所有行的一个子集。对用户来说，每个表是一堆数据的集合，每个表靠主键来区分。阅读全文

posted @ 2016-12-06 13:06 大数据和AI躺过的坑阅读(1279) 评论(0) 推荐(0)

Hadoop HBase概念学习系列之HMaster服务器（四）

摘要：每台HRegion服务器都会和HMaster服务器通信，HMaster的主要任务就是告诉每个HRegion服务器它要维护哪些HRegion。当一台新的HRegion服务器登录到HMaster服务器时，HMaster会告诉它先等待分配数据。而当一台HRegion死机时，HMaster会把它负责的H 阅读全文

posted @ 2016-12-06 13:02 大数据和AI躺过的坑阅读(3398) 评论(0) 推荐(0)

Hadoop HBase概念学习系列之HRegion服务器（三）

摘要：所有的数据库数据一般是保存在Hadoop分布式系统上面的，用户通过一系列HRegion服务器获取这些数据。一台机器上一般只运行一个HRegion服务器，而且每一分区段的HRegion也只会被一个HRegion服务器维护。 HRegion服务器包含两大部分：HLog部分和HRegion部分。 HReg 阅读全文

posted @ 2016-12-06 12:46 大数据和AI躺过的坑阅读(3418) 评论(0) 推荐(0)

Hadoop HBase概念学习系列之HLog（二）

摘要：首先，明确，HRegion服务器包含两大部分：HLog和HRegion。 HLog用来存储数据日志，采用的是先写日志的方式。当用户需要更新数据的时候，数据会被分配到对应的HRegion服务器上提交修改。数据首先被提交到HLog文件里面，在操作写入HLog之后，commit()调用才会将其返回给客户阅读全文

posted @ 2016-12-06 12:33 大数据和AI躺过的坑阅读(2081) 评论(0) 推荐(1)

2016年12月5日

Kali linux 2016.2（Rolling）之 Nessus安装及Plugins Download Fail 解决方法

摘要：最近，因科研需要，学习Nessus。 Nessus是一款优秀的漏洞扫描软件，在其v6 HOME版本中在线更新漏洞插件不成功，采用离线更新，成功地更新了插件，在此将更新方法进行分享。 1、Nessus软件安装包的下载 http://www.tenable.com/products/nessus/sel 阅读全文

posted @ 2016-12-05 17:53 大数据和AI躺过的坑阅读(5253) 评论(0) 推荐(0)

2016年12月4日

Hadoop Hive概念学习系列之hive里的JDBC编程入门（二十二）

摘要： Hive与JDBC示例在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口。在hive安装目录下的bin，使用下面命令进行开启: hive -service hiveserver & //Hive低版本提供的服务是：Hiveserver hive --service 阅读全文

posted @ 2016-12-04 16:49 大数据和AI躺过的坑阅读(2888) 评论(0) 推荐(0)

Spark Streaming基础概念

摘要：为了更好地理解Spark Streaming 子框架的处理机制，必须得要自己弄清楚这些最基本概念。 1、离散流（Discretized Stream，DStream）：这是Spark Streaming对内部持续的实时数据流的抽象描述，即我们处理的一个实时数据流，在Spark Streaming中对阅读全文

posted @ 2016-12-04 12:33 大数据和AI躺过的坑阅读(1059) 评论(0) 推荐(0)

Spark Streaming概述

摘要： Spark Streaming是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。其中包括：资源管理框架，Apache YARN、Apache Mesos；基于内存的分布式文件系统，Tachyon；随后是Spark，更上面则是实现各种功能的系统，比如机器学习MLli 阅读全文

posted @ 2016-12-04 12:16 大数据和AI躺过的坑阅读(1165) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告