Fork me on GitHub

随笔分类 -  大数据技术栈

上一页 1 ··· 3 4 5 6 7 8 9 10 下一页
Hadoop、hive、spark、hive等
摘要:检查集群是否正确启动 http://192.168.1.101:9200/_cat/nodes?v {"error":{"root_cause":[{"type":"master_not_discovered_exception","reason":null}],"type":"master_not 阅读全文
posted @ 2019-03-26 23:11 kris12 阅读(4476) 评论(0) 推荐(1)
摘要:1、数仓分层 分层 提高复用性、 减少重复开发 数据集市与数据仓库的区别 数据集市:狭义ADS层; 广义上指DWD DWS ADS 从hadoop同步到RDS的数据 数仓命名规范 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命 阅读全文
posted @ 2019-03-24 23:39 kris12 阅读(5880) 评论(1) 推荐(5)
摘要:1. ElasticSearch概述 Elasticsearch是一个高度可伸缩的 基于Apache Lucene(TM)的 开源全文搜索引擎。Elasticsearch让你可以快速、实时地存储、搜索和分析大量数据,它通常作为互联网应用的内部搜 索引擎,为需要复杂搜索功能的应用提供支持。 Elast 阅读全文
posted @ 2019-03-24 10:14 kris12 阅读(1001) 评论(4) 推荐(0)
摘要:数仓分层搭建导入数据 1.ODS层 ① 用户行为数据日志表 创建输入支持lzo压缩、输出是text,支持Json解析解析的分区表 hive (gmall)> drop table if exists ods_log; CREATE EXTERNAL TABLE ods_log (`line` str 阅读全文
posted @ 2019-03-24 10:14 kris12 阅读(52332) 评论(8) 推荐(8)
摘要:只要是insert into 的就是没分区 数据需求 需求一:用户活跃主题 DWS层--(用户行为宽表层) 目标:统计当日、当周、当月活动的每个设备明细 1 每日活跃设备明细 dwd_start_log >dws_uv_detail_day --把相同的字段collect_set到一个数组, 按mi 阅读全文
posted @ 2019-03-20 22:31 kris12 阅读(3008) 评论(1) 推荐(3)
摘要:用户行为数据 1、数据的生成 1. 目标数据 收集和分析的数据主要包括页面数据、事件数据、曝光数据、启动数据和错误数据。 页面、事件、曝光、启动、错误等数据,还有公共信息: common "common": { -- 公共信息 "ar": "230000", -- 地区编码 "ba": "iPhon 阅读全文
posted @ 2019-03-19 00:07 kris12 阅读(2795) 评论(2) 推荐(2)
摘要:OLAP(online analytical processing) OLAP是一种软件技术,它使分析人员迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,从各方面观察信息,也就是从不同的维度分析数据,因为OLAP也称为多维分析。 Kylin对接的就是数仓中的dwd层星型模型 或雪花模 阅读全文
posted @ 2019-03-13 12:44 kris12 阅读(2553) 评论(0) 推荐(0)
摘要:1. sqoop概述 Sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数 阅读全文
posted @ 2019-03-12 08:28 kris12 阅读(656) 评论(0) 推荐(0)
摘要:|的ascII最大ctrl+shift+t查找类 ctrl+p显示提示 HBase API操作 依赖的jar包 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</arti 阅读全文
posted @ 2019-03-10 10:29 kris12 阅读(1092) 评论(0) 推荐(0)
摘要:GFS -->hdfsmapreduce >hadoop mrbigtable-->hbase HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统 海量存储;列式存储;极易扩展;高并发;稀疏(针对HBase列的灵活性,在列族中,你可以指定任意多的列;稀疏性体现了它的非结构化特点) hb 阅读全文
posted @ 2019-03-10 10:23 kris12 阅读(584) 评论(0) 推荐(0)
摘要:1. Azkaban安装部署 https://azkaban.github.io/azkaban/docs/2.5/ 安装Azkaban 1) 在/opt/module/目录下创建azkaban目录 [kris@hadoop101 module]$ mkdir azkaban 2) 解压azkaba 阅读全文
posted @ 2019-03-05 08:30 kris12 阅读(454) 评论(0) 推荐(0)
摘要:ctrl+Hnew 它的实现类ctrl+r替换格式化ctrl+alt+l ctrl+fctrl+alt+v 替换 &lt " &lt < &gt > Kafka生产者Java API 创建生产者 不带回调函数的 new producer<String, String>( "主题", 分区int, " 阅读全文
posted @ 2019-03-03 17:24 kris12 阅读(318) 评论(0) 推荐(0)
摘要:Oozie的功能模块 workflow 由多个工作单元组成 工作单元之间有依赖关系 MR1->MR2->MR3->result hadoop jar:提交1个MR oozie:监控当前工作单元状态,完成之后自动提交下一个工作单元scheduler crontab:是linux简单调度脚本 定时调度工 阅读全文
posted @ 2019-03-03 15:15 kris12 阅读(1105) 评论(0) 推荐(0)
摘要:1.kafka Manager 1.上传压缩包kafka-manager-1.3.3.15.zip到集群 2.解压到/opt/module 3.修改配置文件conf/application.conf kafka-manager.zkhosts="kafka-manager-zookeeper:218 阅读全文
posted @ 2019-03-03 00:43 kris12 阅读(1649) 评论(0) 推荐(0)
摘要:1. 概述 数据层:结构化数据+非结构化数据+日志信息(大部分为结构化) 传输层: flume(采集日志 >存储性框架(如HDFS、kafka、Hive、Hbase))+ sqoop(关系型数据性数据库里数据 >hadoop)+ kafka(将实时日志在线 >sparkstream在数据进行实时处理 阅读全文
posted @ 2019-02-27 22:54 kris12 阅读(2279) 评论(0) 推荐(1)
摘要:HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(956) 评论(0) 推荐(0)
摘要:1. 概述 Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。 是CDH平台首选的PB级大数据实时查询分析引擎。 1.1 优点 1) 基于内存运算,不需要把中间结果写入磁盘,省掉了 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(1544) 评论(0) 推荐(0)
摘要:1. cloudera manager的概念 简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提 高集群管理的效率。 功能 1) 管理:对集群进行管理 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(3686) 评论(0) 推荐(1)
摘要:1. 自定义Source说明 实时监控MySQL,从MySQL中获取数据传输到HDFS或者其他存储框架,所以此时需要我们自己实现MySQLSource。 2. 自定义MySQLSource步骤 根据官方说明自定义mysqlsource需要继承AbstractSource类并实现Configurabl 阅读全文
posted @ 2019-02-24 14:32 kris12 阅读(1146) 评论(0) 推荐(0)

上一页 1 ··· 3 4 5 6 7 8 9 10 下一页
levels of contents