随笔分类 -  BigData

上一页 1 ··· 3 4 5 6 7 8 9 10 11 下一页
摘要:在hive中创建外部表: CREATE EXTERNAL TABLE hive_hbase_table(key string, name string,desc string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 阅读全文
posted @ 2019-01-21 20:38 匠人先生 阅读(2394) 评论(0) 推荐(1)
摘要:hive及其他组件(比如spark、impala等)都会依赖hive metastore,依赖的配置文件位于hive-site.xml hive metastore重要配置 hive.metastore.warehouse.dirhive2及之前版本默认为/user/hive/warehouse/, 阅读全文
posted @ 2019-01-21 18:07 匠人先生 阅读(1256) 评论(0) 推荐(1)
摘要:ElasticSearch 6.6.0 官方:https://www.elastic.co/ 一 简介 ElasticSearch简单来说是对lucene的分布式封装,增加了shard(每个shard是一个子索引,也是一个lucene的index)和replica的概念;所以在ElasticSear 阅读全文
posted @ 2019-01-21 15:44 匠人先生 阅读(623) 评论(0) 推荐(1)
摘要:impala2.12 官方:http://impala.apache.org/ 一 简介 Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloude 阅读全文
posted @ 2019-01-21 13:38 匠人先生 阅读(3274) 评论(0) 推荐(1)
摘要:kudu 1.7 官方:https://kudu.apache.org/ 一 简介 kudu有很多概念,有分布式文件系统(HDFS),有一致性算法(Zookeeper),有Table(Hive Table),有Tablet(Hive Table Partition),有列式存储(Parquet),有 阅读全文
posted @ 2019-01-21 12:45 匠人先生 阅读(3490) 评论(1) 推荐(2)
摘要:Fortunately, Elasticsearch provides a very comprehensive and powerful REST API that you can use to interact with your cluster. Among the few things th 阅读全文
posted @ 2019-01-20 22:16 匠人先生 阅读(2706) 评论(0) 推荐(1)
摘要:ambari2.7.3(hdp3.1) 安装 impala2.12(自动安装最新) ambari的hdp中原生不支持impala安装,下面介绍如何通过mpack方式使ambari支持impala安装: 一 安装Service 1 下载 # wget https://github.com/cas-bi 阅读全文
posted @ 2019-01-19 23:46 匠人先生 阅读(5597) 评论(4) 推荐(2)
摘要:ambari2.7.3(hdp3.1) 安装 airflow1.10 ambari的hdp中原生不支持airflow安装,下面介绍如何通过mpack方式使ambari支持airflow安装: 1 下载 # wget https://github.com/miho120/ambari-airflow- 阅读全文
posted @ 2019-01-17 21:54 匠人先生 阅读(2042) 评论(1) 推荐(2)
摘要:ambari metrics collector内置hbase目录位于 /usr/lib/ams-hbase 配置位于 /etc/ams-hbase/conf 通过ruby启动 /usr/lib/ams-hbase/bin/hirb.rb 实际的启动命令为 /usr/lib/ams-hbase/bi 阅读全文
posted @ 2019-01-17 21:21 匠人先生 阅读(5002) 评论(0) 推荐(2)
摘要:hbase 2.0.2 hbase standalone方式启动报错: 2019-01-17 15:49:08,730 ERROR [Thread-24] master.HMaster: Failed to become active master java.lang.IllegalStateExc 阅读全文
posted @ 2019-01-17 16:43 匠人先生 阅读(3186) 评论(0) 推荐(3)
摘要:ambari2.7.3(hdp3.1) 安装 elasticsearch6.3.2 ambari的hdp中原生不支持elasticsearch安装,下面介绍如何通过mpack方式使ambari支持elasticsearch安装: 一 安装Service 1 下载 Mpack include vers 阅读全文
posted @ 2019-01-17 13:04 匠人先生 阅读(6536) 评论(1) 推荐(1)
摘要:ambari安装第一步是输入集群name,点击next时页面卡住不动,如下图: 注意到其中一个接口请求结果异常,http://ambari.server:8080/api/v1/version_definitions 重现如下: curl -u admin:admin "http://ambari. 阅读全文
posted @ 2019-01-15 18:57 匠人先生 阅读(2642) 评论(1) 推荐(2)
摘要:官方:http://ambari.apache.org/ The Apache Ambari project is aimed at making Hadoop management simpler by developing software for provisioning, managing, 阅读全文
posted @ 2019-01-15 12:26 匠人先生 阅读(5937) 评论(2) 推荐(1)
摘要:有些工作只能在一台server上进行,比如master,这时HA(High Availability)首先要求部署多个server,其次要求多个server自动选举出一个active状态server,其他server处于standby状态,只有active状态的server允许进行特定的操作;当ac 阅读全文
posted @ 2019-01-11 15:25 匠人先生 阅读(1751) 评论(0) 推荐(1)
摘要:在yarn中的application详情页面 http://resourcemanager/cluster/app/$applicationId 或者通过application命令 yarn application -status $applicationId 只能看到应用启动以来占用的资源*时间统 阅读全文
posted @ 2019-01-10 16:54 匠人先生 阅读(14719) 评论(1) 推荐(0)
摘要:spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇, 下面看spark on yarn任务提交过程: spark on yarn提交任务时会把mainClass修改为Cl 阅读全文
posted @ 2019-01-10 16:18 匠人先生 阅读(2378) 评论(0) 推荐(0)
摘要:spark中join有两种,一种是RDD的join,一种是sql中的join,分别来看: 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements wit 阅读全文
posted @ 2019-01-09 17:42 匠人先生 阅读(3447) 评论(0) 推荐(2)
摘要:spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行insert overwrite table流程: 1 创建临时目录,比如 .hive-staging_hiv 阅读全文
posted @ 2019-01-09 15:05 匠人先生 阅读(2425) 评论(0) 推荐(1)
摘要:一 场景分析 定位分析广泛应用,比如室外基站定位,室内蓝牙beacon定位,室内wifi探针定位等,实现方式是三点定位 Trilateration 理想情况 这种理想情况要求3个基站‘同时’采集‘准确’的距离信息, 实际情况 3个基站采集数据的时间是分开的; 采集数据的距离不准确; 解决方法是: 增 阅读全文
posted @ 2018-12-29 13:26 匠人先生 阅读(571) 评论(0) 推荐(0)
摘要:一 场景分析 用户行为分析应用的场景很多,像线上网站访问统计,线下客流分析(比如图像人脸识别、wifi探针等),比较核心的指标有几个: PV | UV | SD | SC 指标说明: PV(Page View):网站浏览量或者商场门店的访问量UV(Unique Visitor):独立访客数,即去重后 阅读全文
posted @ 2018-12-29 12:18 匠人先生 阅读(932) 评论(0) 推荐(1)

上一页 1 ··· 3 4 5 6 7 8 9 10 11 下一页