DB - 随笔分类 - cxc1357

[DB] 数据量

摘要：某光伏电站项目 7488个组件，容量2396kWp，单片功率320Wp，每24个一串，每13个串接入一台逆变器，共24台100kW组串式逆变器 10个方阵各3台逆变器1个月的5min间隔有功功率运行数据，数据量 8.5M 贝壳找房产品技术团队：1000人日志流式数据：线上服务2000个埋点数据阅读全文

posted @ 2021-07-29 16:20 cxc1357 阅读(189) 评论(0) 推荐(0)

[DB] Flink

摘要：概述流式计算，本质上是增量计算，需要不断查询过去的状态概念 Streams（流）：分为有界流（固定大小，不随时间增加而增长）和无界流（随时间增加而增长）， State（状态）：在进行流式计算过程中的信息，用于容错恢复和持久化 Time（时间）：支持Event time、Ingestion tim 阅读全文

posted @ 2021-07-29 15:39 cxc1357 阅读(95) 评论(0) 推荐(0)

[DB] ElasticSearch

摘要：安装 root用户解压，修改配置文件创建新用户es 修改文件权限：chown -R es:es /kkb/install/elasticsearch-6.7.0/ 用es用户启动ElasticSearch和kibana kibana启动：nohup bin/kibana >/dev/null 2> 阅读全文

posted @ 2020-10-28 13:02 cxc1357 阅读(115) 评论(0) 推荐(0)

[DB] Flink 读 MySQL

摘要：思路在 Flink 中创建一张表有两种方法：从一个文件中导入表结构（Structure）（常用于批计算）（静态）从 DataStream 或者 DataSet 转换成 Table （动态） package com.kaikeba.mysql.demo import org.apache.fli 阅读全文

posted @ 2020-10-11 16:57 cxc1357 阅读(273) 评论(0) 推荐(0)

[DB] mysql windows 安装

摘要：参考 mysql安装 https://www.cnblogs.com/zhangkanghui/p/9613844.html navicat for mysql 中文破解版（无需激活码） https://www.cnblogs.com/yinfei/p/11427259.html 阅读全文

posted @ 2020-09-17 11:23 cxc1357 阅读(117) 评论(0) 推荐(0)

[DB] CDH集群规划

摘要：配置三台机器：node01、node02、node03 node01：6G+60G node02：2G+40G node03：2G+40G 组件 Cloudera Managerment Service Service Monitor：node01 Activity Monitor：node01 阅读全文

posted @ 2020-07-18 00:41 cxc1357 阅读(432) 评论(0) 推荐(0)

[BD] 阿里云部署hadoop集群

摘要：安装方式 rpm包安装：下载rpm文件后离线装，安装过程中会下载相应依赖 bin文件安装：在线安装 tar包安装步骤下载安装文件：买香港机器，按量付费，传到windows电脑购买三台，按需付费，2G 8核开放端口：ECS实例>更多>安全组配置>配置规则关闭selinux：disabled（阅读全文

posted @ 2020-07-17 08:21 cxc1357 阅读(175) 评论(0) 推荐(0)

[DB] Kafka

摘要：介绍一种高吞吐量的分布式发布订阅消息系统消息类型：主体Topic（广播）、队列Queue（一对一）消息系统类型：同步消息系统、异步消息系统常见消息产品：Redis、Kafka、JMS 术语 Producer：生产者，向 Kafka Broker 上的 Topic 发布消息的应用程序 Brok 阅读全文

posted @ 2020-06-18 19:49 cxc1357 阅读(160) 评论(0) 推荐(0)

[DB] 数据库的连接

摘要：概述集合运算：交，差，并，笛卡尔积关系运算：选择，投影，连接，除集合运算是关系运算的基础，关系运算可以用SQL语句表达连接（join）：从两个关系（表）的笛卡儿积中选取属性（列）间满足一定条件的元组（行）内连接：分等值连接和不等值连接外连接：分为左外连接，右外连接，全外连接等值连接：两阅读全文

posted @ 2020-06-18 14:56 cxc1357 阅读(505) 评论(0) 推荐(0)

[DB] Spark Streaming

摘要：概述流式计算框架，类似Storm 严格来说不是真正的流式计算（实时计算），而是把连续的数据当做不连续的RDD处理，本质是离散计算 Flink：和 Spark Streaming 相反，把离散数据当成流式数据处理基础易用，已经集成在Spark中容错性，底层也是RDD 支持Java、Scala、阅读全文

posted @ 2020-06-14 23:48 cxc1357 阅读(266) 评论(0) 推荐(0)

[DB] Spark SQL

摘要：概述基于Spark，兼容Hive 集成在Spark中，不需单独安装提供统一的数据访问方式结构化的数据类型：JDBC、JSON、Hive、Parquet（Saprk SQL 默认数据源）支持标准的数据连接：JDBC、ODBC Hive把sql解析成了mapreduce程序，sparksql把s 阅读全文

posted @ 2020-06-13 17:24 cxc1357 阅读(167) 评论(0) 推荐(0)

[DB] Spark Core (3)

摘要：高级算子 mapPartitionWithIndex：对RDD中每个分区（有下标）进行操作，通过自己定义的一个函数来处理 def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) ⇒ Iterator[U]) f 是函数参数，接收两个参数 Int：分区号阅读全文

posted @ 2020-06-11 23:14 cxc1357 阅读(127) 评论(0) 推荐(0)

[DB] Spark Core (2)

摘要：RDD WordCount处理流程 sc.textFile("/root/temp/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect 调用任务过程客户端将任务通过SparkContext对象提交给Manager 阅读全文

posted @ 2020-06-08 20:14 cxc1357 阅读(123) 评论(0) 推荐(0)

[DB] Spark Core (1)

摘要：生态 Spark Core：最重要，其中最重要的是RDD（弹性分布式数据集） Spark SQL Spark Streaming Spark MLLib：机器学习算法 Spark Graphx：图计算特点针对大规模数据处理的快速通用引擎基于内存计算速度快，易用，兼容性强体系架构主节点：C 阅读全文

posted @ 2020-06-03 18:54 cxc1357 阅读(188) 评论(0) 推荐(0)

[BD] Storm

摘要：什么是实时计算离线计算：批处理，代表MapReduce、Spark Core，采集数据Sqoop、Flume 实时计算：源源不断，代表Storm等，采集数据Flume 框架 Apache Storm Spark Streaming：把流式数据转换成离散数据，本质是离线计算 JStrom：阿里基于S 阅读全文

posted @ 2020-05-28 11:07 cxc1357 阅读(154) 评论(0) 推荐(0)

[DB] MySQL 索引分类

摘要：按数据结构 B树索引数据位于叶子节点，到任何一个叶子节点的距离相同，一般不超过3-4层 B+树索引：每个叶子节点除了数据还存放前后叶子节点的指针，方便快速检索，是InnoDB采用的索引结构 Hash索引对数据建立Hash表，数据本身无序存储 LSM树索引所有写操作先进入内存中的分段，排序合并后阅读全文

posted @ 2020-05-22 23:06 cxc1357 阅读(164) 评论(0) 推荐(0)

[DB] MapReduce 例题

摘要：词频统计（word count）一篇文章用哈希表统计即可对互联网所有网页的词频进行统计（Google搜索引擎的需求），无法将所有网页读入内存 map：将单词提取出来，对每个单词输入一个<word,1>这样的<k,v>对，进而将相同的数据放在一起，形成<word,<1,1,1,...>>这样的<k 阅读全文

posted @ 2020-05-22 19:06 cxc1357 阅读(500) 评论(0) 推荐(0)

[DB] Memcache

摘要：什么是Memcache Redis的前身严格来说只能叫缓存，不支持持久化，停电后数据丢失 Strom、Spark Streaming实时计算的结果一般会保存在Redis中 JDBC是性能瓶颈关系型数据库将数据缓存到内存数据库服务器端先访问内存数据库，有数据就直接返回，否则通过JDBC访问数据库阅读全文

posted @ 2020-05-22 19:04 cxc1357 阅读(129) 评论(0) 推荐(0)

[DB] Redis

摘要：为什么用Redis 是什么一个小程序缓存 & 数据库单线程worker 新版本：IO threads epoll：多路复用与Memcache区别支持持久化：RDB快照、AOF日志丰富的数据类型速度硬盘：寻址时间ms，带宽（吞吐）百兆~G/s（固态硬盘pci-e nvme）内存：寻址阅读全文

posted @ 2020-05-22 18:06 cxc1357 阅读(189) 评论(0) 推荐(0)

[BD] Flume

摘要：什么是Flume 采集日志，存在HDFS上分布式、高可用、高可靠的海量日志采集、聚合和传输系统支持在日志系统中定制各类数据发送方，用于收集数据支持对数据进行简单处理，写到数据接收方组件 source：数据的来源 avro：接收另一个flume的数据 taildir：监控不断追加的日志文件 c 阅读全文

posted @ 2020-05-21 21:57 cxc1357 阅读(124) 评论(0) 推荐(0)

cxc1357

随笔分类 - DB

公告