大数据 - 随笔分类 - 啊啊啊啊鹏

git-gitlab

摘要：方法/步骤 1 首先本地得安装git，然后切换到需要上传的项目所在路径下，点击鼠标右键步骤阅读 2 在弹出的框中选择Git Bash Here，这时候会弹出一个命令框，输入命令 git init 步骤阅读 3 这时候发现项目所在目录下创建了一个.git文件夹步骤阅读 4 接下来继续输入命令git 阅读全文

posted @ 2020-02-17 17:32 啊啊啊啊鹏阅读(179) 评论(0) 推荐(0)

sqoop1与sqoop2

摘要：Sqoop （sqoop.apache.org）工具是hadoop环境下连接关系数据库，和hadoop存储系统的桥梁，支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下，关系数据表存在于线上环境的备份环境，需要每天进行数据导入，根据每天的数据量而言，sqoop可以全表导入，对于阅读全文

posted @ 2019-12-15 15:05 啊啊啊啊鹏阅读(394) 评论(0) 推荐(0)

hbase相关

摘要：1、概述 HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式阅读全文

posted @ 2019-12-15 14:21 啊啊啊啊鹏阅读(177) 评论(0) 推荐(0)

Kafka如何保证读写的跨分区与会话

摘要：在Kafka0.11版本后，在保证精确一次性基础上通过事务来保证生产和消费可以跨分区与会话，实现的原理是添加一个TID来与produceID来绑定，这样produce向broker注册时会记录TID，这样如果挂掉了重启后PID随机生成但是Tid没变，可以通过Tid来将新的PID覆盖掉获取状态信息阅读全文

posted @ 2019-11-30 14:54 啊啊啊啊鹏阅读(353) 评论(0) 推荐(0)

Kafka topic中的partition的leader选举

摘要：Kafka通过zookeeper来指定一台Kafka broker为controller Kafka集群的所有topic的partition主从选举通过controller来完成。阅读全文

posted @ 2019-11-30 14:36 啊啊啊啊鹏阅读(2624) 评论(2) 推荐(0)

Kafka为什么这么快

摘要：1、采用追加数据到log中，为防止log过大采用分片和索引来加快查找并减小文件大小。 2、采用页面缓存 3、零拷贝，上层不用复制转发，直接从下层页缓存读取数据。阅读全文

posted @ 2019-11-30 14:27 啊啊啊啊鹏阅读(203) 评论(0) 推荐(0)

sqoop导入导出

摘要：导出：从hdfs到MySQL 添加sqoop参数： --input-null-string '\\N' \ --input-null-non-string '\\N' \这样导出时识别\N为空导入：从MySQL到hdfs导入数据时采用--null-string '\\N'和--null-non-st 阅读全文

posted @ 2019-11-26 10:54 啊啊啊啊鹏阅读(176) 评论(0) 推荐(0)

为什么要用redis去重

摘要：1、 Redis简介redis是Nosql数据库中使用较为广泛的非关系型内存数据库，redis内部是一个key-value存储系统。它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash（哈希类型，类似阅读全文

posted @ 2019-11-23 13:52 啊啊啊啊鹏阅读(2405) 评论(0) 推荐(0)

bypass SortShuffleManager的bypass运行机制

摘要：bypass运行机制下图说明了bypass SortShuffleManager的原理。bypass运行机制的触发条件如下： shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值。不是聚合类的shuffle算子（比如red 阅读全文

posted @ 2019-11-23 09:43 啊啊啊啊鹏阅读(1598) 评论(0) 推荐(0)

大数据常用端口号

摘要：组件端口及说明 CDH 7180： Cloudera Manager WebUI端口7182： Cloudera Manager Server 与 Agent 通讯端口 Hadoop 50070：HDFS WEB UI端口8020 ：高可用的HDFS RPC端口9000 ：非高可用的HDFS R 阅读全文

posted @ 2019-11-22 20:10 啊啊啊啊鹏阅读(1065) 评论(0) 推荐(0)

CDH端口号

摘要：阅读全文

posted @ 2019-11-22 20:03 啊啊啊啊鹏阅读(830) 评论(0) 推荐(0)

hive中parquet和SEQUENCEFILE区别

摘要：TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的；并且SEQUENCEFILE是存储为二进制文件 ORC和PARQUET是基于列式存储的。 ORC是列式存储，RC是行式存储目录概述 hive文件存储格式包括以下几类一、TEXTFILE 二、SEQUENCEFILE 三、RC 阅读全文

posted @ 2019-11-22 17:35 啊啊啊啊鹏阅读(5850) 评论(1) 推荐(0)

关于Hadoop读文件的并行度

摘要：等于切片个数，默认128M一片，无限制，一片一个map() 阅读全文

posted @ 2019-11-22 09:32 啊啊啊啊鹏阅读(309) 评论(0) 推荐(0)

hadoop公平调度器与容量调度器区别

摘要：公平调度器：多队列，同一时间队列中多任务按照缺额执行，队列并行度大于队列个数容量调度器：多队列，同一时间队列中只有一个任务执行，队列中按照先进先出分配任务，队列并行度等于队列个数。 Hadoop2.7.2默认容量调度器阅读全文

posted @ 2019-11-22 09:31 啊啊啊啊鹏阅读(1800) 评论(0) 推荐(0)

关于内存泄露与OOM的关系

摘要：内存泄漏达到一定程度会引发OOM。内存泄漏是指编写的代码中含有bug，不是指会引发程序执行结果错误那种，而是不可达的对象停留在堆中，即代码中含有对象的强引用没有没释放掉，导致该无用的对象无法被垃圾收集器收集。假设内存足够大，而内存泄漏的情况并不严重，只要还有足够的空间分配给新的对象，那样即使内存阅读全文

posted @ 2019-11-21 21:06 啊啊啊啊鹏阅读(1541) 评论(0) 推荐(0)

关于druid连接池与c3p0连接池区别

摘要：c3p0连接池：开源 druid连接池：性能好，对MySQL做了优化，阿里出品，淘宝和支付宝专用数据库连接池，但它不仅仅是一个数据库连接池，它还包含一个ProxyDriver，一系列内置的JDBC组件库，一个SQL Parser。支持所有JDBC兼容的数据库，包括Oracle、MySql、Derby 阅读全文

posted @ 2019-11-21 21:00 啊啊啊啊鹏阅读(2139) 评论(0) 推荐(0)

sc.textfile 读hdfs130M文件为什么是2个分区的问题？

摘要：一个application有多个job（一个行动算子触发一个job）；每个job在发生shuffle（比如：reduceByKey）时，就会被拆成一个stage；每个stage被拆为多个task，task被分配到executor上执行，一个task会有一个线程去执行，一个task处理一小片数据。 r 阅读全文

posted @ 2019-11-21 20:40 啊啊啊啊鹏阅读(424) 评论(0) 推荐(0)

关于phoenix多读少写与多写少读的二级索引问题与spark累加器只写、广播变量只读区分

摘要：phoenix二级索引分两种： 1、全局索引：全局索引知道所有的位置，索引查快，但是并不是和所有数据在一块所以写的话需要网络传输。所以适合多读少写。 2、本地索引：与数据在同一个region中，写快因为在本地不需要网络传输。但是知道的少所以适合多写少读。阅读全文

posted @ 2019-11-21 19:45 啊啊啊啊鹏阅读(199) 评论(0) 推荐(0)

RDD累加器与广播变量？

该文被密码保护。

posted @ 2019-11-21 19:28 啊啊啊啊鹏阅读(1) 评论(0) 推荐(0)

设置spark读取速率：每秒处理1000条数据

该文被密码保护。

posted @ 2019-11-21 11:28 啊啊啊啊鹏阅读(0) 评论(0) 推荐(0)

数据指南

随笔分类 - 大数据

公告