随笔分类 - DB
摘要:某光伏电站项目 7488个组件,容量2396kWp,单片功率320Wp,每24个一串,每13个串接入一台逆变器,共24台100kW组串式逆变器 10个方阵各3台逆变器1个月的5min间隔有功功率运行数据,数据量 8.5M 贝壳找房 产品技术团队:1000人 日志流式数据:线上服务2000个 埋点数据
阅读全文
摘要:概述 流式计算,本质上是增量计算,需要不断查询过去的状态 概念 Streams(流):分为有界流(固定大小,不随时间增加而增长)和无界流(随时间增加而增长), State(状态):在进行流式计算过程中的信息,用于容错恢复和持久化 Time(时间):支持Event time、Ingestion tim
阅读全文
摘要:安装 root用户解压,修改配置文件 创建新用户es 修改文件权限:chown -R es:es /kkb/install/elasticsearch-6.7.0/ 用es用户启动ElasticSearch和kibana kibana启动:nohup bin/kibana >/dev/null 2>
阅读全文
摘要:思路 在 Flink 中创建一张表有两种方法: 从一个文件中导入表结构(Structure)(常用于批计算)(静态) 从 DataStream 或者 DataSet 转换成 Table (动态) package com.kaikeba.mysql.demo import org.apache.fli
阅读全文
摘要:参考 mysql安装 https://www.cnblogs.com/zhangkanghui/p/9613844.html navicat for mysql 中文破解版(无需激活码) https://www.cnblogs.com/yinfei/p/11427259.html
阅读全文
摘要:配置 三台机器:node01、node02、node03 node01:6G+60G node02:2G+40G node03:2G+40G 组件 Cloudera Managerment Service Service Monitor:node01 Activity Monitor:node01
阅读全文
摘要:安装方式 rpm包安装:下载rpm文件后离线装,安装过程中会下载相应依赖 bin文件安装:在线安装 tar包安装 步骤 下载安装文件:买香港机器,按量付费,传到windows电脑 购买三台,按需付费,2G 8核 开放端口:ECS实例>更多>安全组配置>配置规则 关闭selinux:disabled(
阅读全文
摘要:介绍 一种高吞吐量的分布式发布订阅消息系统 消息类型:主体Topic(广播)、队列Queue(一对一) 消息系统类型:同步消息系统、异步消息系统 常见消息产品:Redis、Kafka、JMS 术语 Producer:生产者,向 Kafka Broker 上的 Topic 发布消息的应用程序 Brok
阅读全文
摘要:概述 集合运算:交,差,并,笛卡尔积 关系运算:选择,投影,连接,除 集合运算是关系运算的基础,关系运算可以用SQL语句表达 连接(join):从两个关系(表)的笛卡儿积中选取属性(列)间满足一定条件的元组(行) 内连接:分等值连接和不等值连接 外连接:分为左外连接,右外连接,全外连接 等值连接:两
阅读全文
摘要:概述 流式计算框架,类似Storm 严格来说不是真正的流式计算(实时计算),而是把连续的数据当做不连续的RDD处理,本质是离散计算 Flink:和 Spark Streaming 相反,把离散数据当成流式数据处理 基础 易用,已经集成在Spark中 容错性,底层也是RDD 支持Java、Scala、
阅读全文
摘要:概述 基于Spark,兼容Hive 集成在Spark中,不需单独安装 提供统一的数据访问方式 结构化的数据类型:JDBC、JSON、Hive、Parquet(Saprk SQL 默认数据源) 支持标准的数据连接:JDBC、ODBC Hive把sql解析成了mapreduce程序,sparksql把s
阅读全文
摘要:高级算子 mapPartitionWithIndex:对RDD中每个分区(有下标)进行操作,通过自己定义的一个函数来处理 def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) ⇒ Iterator[U]) f 是函数参数,接收两个参数 Int:分区号
阅读全文
摘要:RDD WordCount处理流程 sc.textFile("/root/temp/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect 调用任务过程 客户端将任务通过SparkContext对象提交给Manager
阅读全文
摘要:生态 Spark Core:最重要,其中最重要的是RDD(弹性分布式数据集) Spark SQL Spark Streaming Spark MLLib:机器学习算法 Spark Graphx:图计算 特点 针对大规模数据处理的快速通用引擎 基于内存计算 速度快,易用,兼容性强 体系架构 主节点:C
阅读全文
摘要:什么是实时计算 离线计算:批处理,代表MapReduce、Spark Core,采集数据Sqoop、Flume 实时计算:源源不断,代表Storm等,采集数据Flume 框架 Apache Storm Spark Streaming:把流式数据转换成离散数据,本质是离线计算 JStrom:阿里基于S
阅读全文
摘要:按数据结构 B树索引 数据位于叶子节点,到任何一个叶子节点的距离相同,一般不超过3-4层 B+树索引:每个叶子节点除了数据还存放前后叶子节点的指针,方便快速检索,是InnoDB采用的索引结构 Hash索引 对数据建立Hash表,数据本身无序存储 LSM树索引 所有写操作先进入内存中的分段,排序合并后
阅读全文
摘要:词频统计(word count) 一篇文章用哈希表统计即可 对互联网所有网页的词频进行统计(Google搜索引擎的需求),无法将所有网页读入内存 map:将单词提取出来,对每个单词输入一个<word,1>这样的<k,v>对,进而将相同的数据放在一起,形成<word,<1,1,1,...>>这样的<k
阅读全文
摘要:什么是Memcache Redis的前身 严格来说只能叫缓存,不支持持久化,停电后数据丢失 Strom、Spark Streaming实时计算的结果一般会保存在Redis中 JDBC是性能瓶颈 关系型数据库将数据缓存到内存数据库 服务器端先访问内存数据库,有数据就直接返回,否则通过JDBC访问数据库
阅读全文
摘要:为什么用Redis 是什么 一个小程序 缓存 & 数据库 单线程worker 新版本:IO threads epoll:多路复用 与Memcache区别 支持持久化:RDB快照、AOF日志 丰富的数据类型 速度 硬盘:寻址时间ms,带宽(吞吐)百兆~G/s(固态硬盘pci-e nvme) 内存:寻址
阅读全文
摘要:什么是Flume 采集日志,存在HDFS上 分布式、高可用、高可靠的海量日志采集、聚合和传输系统 支持在日志系统中定制各类数据发送方,用于收集数据 支持对数据进行简单处理,写到数据接收方 组件 source:数据的来源 avro:接收另一个flume的数据 taildir:监控不断追加的日志文件 c
阅读全文

浙公网安备 33010602011771号