大数据技术栈 - 随笔分类(第4页) - kris12

Flink| Table API| SQL

摘要：Table API与SQL Table API是流处理和批处理通用的关系型API，Table API可以基于流输入或者批输入来运行而不需要进行任何修改。 Table API是SQL语言的超集并专门为Apache Flink设计的，Table API是Scala 和Java语言集成式的API。与常规S 阅读全文

posted @ 2020-01-31 22:27 kris12 阅读(560) 评论(0) 推荐(0)

即时查询工具| Druid

摘要：Druid是一个快速的列式分布式的支持实时分析的数据存储系统，在处理PB级别数据、毫秒级查询、数据实时处理方面，比传统的OLAP系统有了显著的性能改进。 Druid数据结构与Druid架构相辅相成的是其基于DataSource与Segment的数据结构，它们共同成就了Druid的高性能优势。 Dr 阅读全文

posted @ 2020-01-30 10:20 kris12 阅读(1271) 评论(0) 推荐(0)

OLAP分析工具之Presto

摘要：Presto Presto是一个开源的分布式SQL查询引擎，数据量支持GB到PB字节，主要用来处理秒级查询的场景。虽presto可以解析SQL，但它不是一个标准的数据库，不是MySQL、Oracle的代替品，也不能用来处理在线事务（OLTP）； Presto、Impala性能比较测试结论：Imp 阅读全文

posted @ 2020-01-09 23:36 kris12 阅读(2040) 评论(0) 推荐(0)

linux定时运行命令脚本crontab

摘要：简介 Linux中，周期执行的任务一般由cron这个守护进程来处理 ps -ef | grep cron cron读取一个或多个配置文件，这些配置文件中包含了命令行及其调用时间。 cron的配置文件称为“crontab”，是“cron table”的简写。 1、/var/spool/cron/ 这个阅读全文

posted @ 2020-01-02 11:16 kris12 阅读(379) 评论(0) 推荐(0)

Flink| time| watermark| Windows窗口

摘要：1. Window概述一般真实的流都是无界的，怎么处理无界的数据？可以把无限的数据流进行切分，得到有限的数据集进行处理也就是得到有界流。 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数据集；而window是把无限数据流为有限阅读全文

posted @ 2019-12-31 11:12 kris12 阅读(1406) 评论(0) 推荐(0)

多个线程运行MR程序时hadoop出现的问题

摘要：夜间多个任务同时并行，总有几个随机性有任务失败，查看日志：刷选关键词 Caused by 或者 FAILED cat -n ads_channel.log |grep "Caused by" 7732 Caused by: java.util.concurrent.ExecutionExcepti 阅读全文

posted @ 2019-12-21 11:38 kris12 阅读(1131) 评论(0) 推荐(0)

maxwell实时同步mysql中binlog

摘要：概述 Maxwell是一个能实时读取MySQL二进制日志binlog，并生成 JSON 格式的消息，作为生产者发送给 Kafka，Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维护缓存、收集表级别的dml指阅读全文

posted @ 2019-12-19 19:47 kris12 阅读(4498) 评论(2) 推荐(2)

Hive-05 参数调优

摘要：调优 Hive提供三种可以改变环境变量的方法，分别是：（1）修改${HIVE_HOME}/conf/hive-site.xml配置文件；所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中，如果需要对默认的配置进行修改，可以创建一个hive-site.xm 阅读全文

posted @ 2019-12-09 18:39 kris12 阅读(893) 评论(0) 推荐(0)

Flink| 运行架构

摘要：1. Flink运行时组件作业管理器（JobManager）任务的分配、调度管理以及checkpoint触发存盘操作。分析JAR包生产一个执行计划图（就可以知道有多少个任务task，需要多少个slot去执行，想RM去申请）控制每一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的J 阅读全文

posted @ 2019-11-03 10:45 kris12 阅读(1626) 评论(0) 推荐(0)

Flink| 概述| 配置安装

摘要：1. 流处理技术的演变在开源世界里，Apache Storm项目是流处理的先锋。Storm提供了低延迟的流处理，但是它为实时性付出了一些代价：很难实现高吞吐，并且其正确性没能达到通常所需的水平，换句话说，它并不能保证exactly-once，即便是它能够保证的正确性级别，其开销也相当大。在低延迟阅读全文

posted @ 2019-10-21 15:27 kris12 阅读(822) 评论(0) 推荐(0)

phoenix中添加二级索引

摘要：Phoenix创建Hbase二级索引官方文档 1. 配置Hbase支持Phoenix创建二级索引 1. 添加如下配置到Hbase的Hregionserver节点的hbase-site.xml  <property> <name>h 阅读全文

posted @ 2019-10-10 22:38 kris12 阅读(1702) 评论(0) 推荐(0)

Hbase| 02 原理| rowkey设计| 优化

摘要：Google 发表 GFS、MapReduce、BigTable 三篇论文，号称“三驾马车”，开启了大数据的时代。 GFS 对应的 Hadoop 分布式文件系统 HDFS，以及 MapReduce 对应的 Hadoop 分布式计算框架 MapReduce，BigTable 对应的 NoSQL 系统阅读全文

posted @ 2019-10-10 10:54 kris12 阅读(483) 评论(0) 推荐(0)

Hive-06 Hive和HBase的集成

摘要：1. 与Hive的集成 Hive和Hbase在大数据架构中处在不同位置，Hive是一个构建在Hadoop基础之上的数据仓库，主要解决分布式存储的大数据处理和计算问题，Hive提供了类SQL语句，叫HiveQL，通过它可以使用SQL查询存放在HDFS上的数据，sql语句最终被转化为Map/Reduc 阅读全文

posted @ 2019-09-20 10:07 kris12 阅读(1652) 评论(0) 推荐(0)

用户画像

摘要：用户画像从用户画像的数据架构谈需要掌握的大数据模块和开发语言日全量数据表中，每天对应的日期分区中插入截止到当天为止的全量数据，用户使用查询时，只需查询最近一天即可获得最新全量数据。下面以一个具体的日全量表结构例子来做说明。这里tagid表示标签名称，userid表示用户id，tagweigh 阅读全文

posted @ 2019-08-31 23:05 kris12 阅读(842) 评论(0) 推荐(0)

ClickHouse| 01 数据类型| 表索引| Sql语法

摘要：1. ClickHouse概述 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告 https://clickhouse.yandex/docs/zh/ 官网：https://clic 阅读全文

posted @ 2019-08-31 08:09 kris12 阅读(7273) 评论(0) 推荐(0)

Mondb

摘要：1. MongoDB简介 • MongoDB是为快速开发互联网Web应用而设计的数据库系统。• MongoDB的设计目标是极简、灵活、作为Web应用栈的一部分。• MongoDB的数据模型是面向文档的，所谓文档是一种类似于JSON的结构，简单理解MongoDB这个数据库中存的是各种各样的JSON。（阅读全文

posted @ 2019-08-28 00:04 kris12 阅读(352) 评论(0) 推荐(0)

Phoenix |安装配置| 命令行操作| 与hbase的映射| spark对其读写

摘要：Phoenix Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表，插入数据和查询HBase数据。 1.特点 1) 容易集成：如Spark，Hive，Pig，Flume和Map Reduce。 2) 性能好：直接使用HBase API以及协处理阅读全文

posted @ 2019-08-06 12:47 kris12 阅读(1614) 评论(0) 推荐(0)

kris12

Self-discipline gives me freedom.

随笔分类 - 大数据技术栈

公告