BigData - 随笔分类(第7页) - 匠人先生

大叔经验分享（25）hive通过外部表读写hbase数据

摘要：在hive中创建外部表： CREATE EXTERNAL TABLE hive_hbase_table(key string, name string,desc string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 阅读全文

posted @ 2019-01-21 20:38 匠人先生阅读(2397) 评论(0) 推荐(1)

大叔经验分享（24）hive metastore的几种部署方式

摘要：hive及其他组件（比如spark、impala等）都会依赖hive metastore，依赖的配置文件位于hive-site.xml hive metastore重要配置 hive.metastore.warehouse.dirhive2及之前版本默认为/user/hive/warehouse/，阅读全文

posted @ 2019-01-21 18:07 匠人先生阅读(1263) 评论(0) 推荐(1)

大数据基础之ElasticSearch（1）简介、安装、使用

摘要：ElasticSearch 6.6.0 官方：https://www.elastic.co/ 一简介 ElasticSearch简单来说是对lucene的分布式封装，增加了shard（每个shard是一个子索引，也是一个lucene的index）和replica的概念；所以在ElasticSear 阅读全文

posted @ 2019-01-21 15:44 匠人先生阅读(625) 评论(0) 推荐(1)

大数据基础之Impala（1）简介、安装、使用

摘要：impala2.12 官方：http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloude 阅读全文

posted @ 2019-01-21 13:38 匠人先生阅读(3288) 评论(0) 推荐(1)

大数据基础之Kudu（1）简介、安装、使用

摘要：kudu 1.7 官方：https://kudu.apache.org/ 一简介 kudu有很多概念，有分布式文件系统（HDFS），有一致性算法（Zookeeper），有Table（Hive Table），有Tablet（Hive Table Partition），有列式存储（Parquet），有阅读全文

posted @ 2019-01-21 12:45 匠人先生阅读(3500) 评论(1) 推荐(2)

大数据基础之ElasticSearch（2）常用API整理

摘要：Fortunately, Elasticsearch provides a very comprehensive and powerful REST API that you can use to interact with your cluster. Among the few things th 阅读全文

posted @ 2019-01-20 22:16 匠人先生阅读(2708) 评论(0) 推荐(1)

大数据基础之Ambari（4）通过Ambari部署Impala

摘要：ambari2.7.3（hdp3.1）安装 impala2.12（自动安装最新） ambari的hdp中原生不支持impala安装，下面介绍如何通过mpack方式使ambari支持impala安装：一安装Service 1 下载 # wget https://github.com/cas-bi 阅读全文

posted @ 2019-01-19 23:46 匠人先生阅读(5604) 评论(4) 推荐(2)

大数据基础之Ambari（3）通过Ambari部署Airflow

摘要：ambari2.7.3（hdp3.1）安装 airflow1.10 ambari的hdp中原生不支持airflow安装，下面介绍如何通过mpack方式使ambari支持airflow安装： 1 下载 # wget https://github.com/miho120/ambari-airflow- 阅读全文

posted @ 2019-01-17 21:54 匠人先生阅读(2047) 评论(1) 推荐(2)

大叔问题定位分享（25）ambari metrics collector内置standalone hbase启动失败

摘要：ambari metrics collector内置hbase目录位于 /usr/lib/ams-hbase 配置位于 /etc/ams-hbase/conf 通过ruby启动 /usr/lib/ams-hbase/bin/hirb.rb 实际的启动命令为 /usr/lib/ams-hbase/bi 阅读全文

posted @ 2019-01-17 21:21 匠人先生阅读(5014) 评论(0) 推荐(2)

大叔问题定位分享（24）hbase standalone方式启动报错

摘要：hbase 2.0.2 hbase standalone方式启动报错： 2019-01-17 15:49:08,730 ERROR [Thread-24] master.HMaster: Failed to become active master java.lang.IllegalStateExc 阅读全文

posted @ 2019-01-17 16:43 匠人先生阅读(3188) 评论(0) 推荐(3)

大数据基础之Ambari（2）通过Ambari部署ElasticSearch（ELK）

摘要：ambari2.7.3（hdp3.1）安装 elasticsearch6.3.2 ambari的hdp中原生不支持elasticsearch安装，下面介绍如何通过mpack方式使ambari支持elasticsearch安装：一安装Service 1 下载 Mpack include vers 阅读全文

posted @ 2019-01-17 13:04 匠人先生阅读(6553) 评论(1) 推荐(1)

大叔问题定位分享（23）Ambari安装向导点击下一步卡住

摘要：ambari安装第一步是输入集群name，点击next时页面卡住不动，如下图：注意到其中一个接口请求结果异常，http://ambari.server:8080/api/v1/version_definitions 重现如下： curl -u admin:admin "http://ambari. 阅读全文

posted @ 2019-01-15 18:57 匠人先生阅读(2649) 评论(1) 推荐(2)

大数据基础之Ambari（1）简介、编译安装、使用

摘要：官方：http://ambari.apache.org/ The Apache Ambari project is aimed at making Hadoop management simpler by developing software for provisioning, managing, 阅读全文

posted @ 2019-01-15 12:26 匠人先生阅读(5948) 评论(2) 推荐(1)

大数据基础之Hadoop（1）HA实现原理

摘要：有些工作只能在一台server上进行，比如master，这时HA（High Availability）首先要求部署多个server，其次要求多个server自动选举出一个active状态server，其他server处于standby状态，只有active状态的server允许进行特定的操作；当ac 阅读全文

posted @ 2019-01-11 15:25 匠人先生阅读(1754) 评论(0) 推荐(1)

大叔经验分享（21）yarn中查看每个应用实时占用的内存和cpu资源

摘要：在yarn中的application详情页面 http://resourcemanager/cluster/app/$applicationId 或者通过application命令 yarn application -status $applicationId 只能看到应用启动以来占用的资源*时间统阅读全文

posted @ 2019-01-10 16:54 匠人先生阅读(14744) 评论(1) 推荐(0)

大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%

摘要：spark 2.1.1 系统中希望监控spark on yarn任务的执行进度，但是监控过程发现提交任务之后执行进度总是10%，直到执行成功或者失败，进度会突然变为100%，很神奇，下面看spark on yarn任务提交过程： spark on yarn提交任务时会把mainClass修改为Cl 阅读全文

posted @ 2019-01-10 16:18 匠人先生阅读(2386) 评论(0) 推荐(0)

大数据基础之Spark（8）Spark中Join实现原理

摘要：spark中join有两种，一种是RDD的join，一种是sql中的join，分别来看： 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements wit 阅读全文

posted @ 2019-01-09 17:42 匠人先生阅读(3449) 评论(0) 推荐(2)

大叔经验分享（23）spark sql插入表时的文件个数研究

摘要：spark sql执行insert overwrite table时，写到新表或者新分区的文件个数，有可能是200个，也有可能是任意个，为什么会有这种差别？首先看一下spark sql执行insert overwrite table流程： 1 创建临时目录，比如 .hive-staging_hiv 阅读全文

posted @ 2019-01-09 15:05 匠人先生阅读(2431) 评论(0) 推荐(1)

大叔案例分享（4）定位分析--见证scala的强大

摘要：一场景分析定位分析广泛应用，比如室外基站定位，室内蓝牙beacon定位，室内wifi探针定位等，实现方式是三点定位 Trilateration 理想情况这种理想情况要求3个基站‘同时’采集‘准确’的距离信息，实际情况 3个基站采集数据的时间是分开的；采集数据的距离不准确；解决方法是：增阅读全文

posted @ 2018-12-29 13:26 匠人先生阅读(573) 评论(0) 推荐(0)

大叔案例分享（3）用户行为分析--见证scala的强大

摘要：一场景分析用户行为分析应用的场景很多，像线上网站访问统计，线下客流分析（比如图像人脸识别、wifi探针等），比较核心的指标有几个： PV | UV | SD | SC 指标说明： PV（Page View）：网站浏览量或者商场门店的访问量UV（Unique Visitor）：独立访客数，即去重后阅读全文

posted @ 2018-12-29 12:18 匠人先生阅读(935) 评论(0) 推荐(1)

Thinking in BigData

匠人先生

随笔分类 - BigData

公告