大数据 - 随笔分类 - Loading~

海量数据处理面试题

摘要：作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随时交流、指正。出处：http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题 1、海量日志数据，阅读全文

posted @ 2021-12-18 09:40 Loading~ 阅读(111) 评论(0) 推荐(0)

Mr、Hive、Spark、SparkStreaming实现wordCount

摘要：Hive： https://www.cnblogs.com/Coeus-P/p/13356392.html Spark： def main(args: Array[String]): Unit = { //println("Hello, WordCount") val conf = new Spar 阅读全文

posted @ 2020-10-05 12:14 Loading~ 阅读(153) 评论(0) 推荐(0)

Hbase和Hive的区别

摘要：一、区别： 1.Hbase即 HadoopDatabase 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如交易清单、日志明细、轨迹行为等。 Hive是Hadoop的数据仓库，严格地讲并非数据库，主要是让开发人员能够通过SQL来计算阅读全文

posted @ 2020-09-11 13:54 Loading~ 阅读(413) 评论(0) 推荐(0)

RPC-知乎高分回答

摘要：作者：洪春涛链接：https://www.zhihu.com/question/25536695/answer/221638079 来源：知乎本地过程调用RPC就是要像调用本地的函数一样去调远程函数。在研究RPC前，我们先看看本地调用是怎么调的。假设我们要调用函数Multiply来计算lval 阅读全文

posted @ 2020-09-10 20:44 Loading~ 阅读(300) 评论(0) 推荐(0)

Kafka高频面试题

摘要：转载： https://www.toutiao.com/i6773805985963180548/?tt_from=mobile_qq&utm_campaign=client_share&timestamp=1596427817&app=news_article&utm_source=mobile_ 阅读全文

posted @ 2020-08-03 12:15 Loading~ 阅读(464) 评论(0) 推荐(0)

kafka不支持读写分离

摘要：转载： https://blog.csdn.net/zl1zl2zl3/article/details/87982038?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.edu_w 阅读全文

posted @ 2020-08-03 11:50 Loading~ 阅读(300) 评论(0) 推荐(0)

高可用总结

摘要：1、HDFS zookeeper https://www.cnblogs.com/Coeus-P/p/13234266.html zookeeper Hadoop ZKFC（失效检测控制）是Hadoop里的一个Zookeeper客户端，在每一个NameNode节点上都启动一个ZKFC进程，来监控Na 阅读全文

posted @ 2020-07-30 10:42 Loading~ 阅读(119) 评论(0) 推荐(0)

负载均衡实现方案

摘要：基于DNS的负载均衡转载：https://www.cnblogs.com/arjenlee/p/9262737.html DNS（Domain Name System，域名系统），因特网上作为域名和IP地址相互映射的一个分布式数据库，能够使用户更方便的访问互联网，而不用去记住能够被机器直接读取的I 阅读全文

posted @ 2020-07-25 09:25 Loading~ 阅读(587) 评论(0) 推荐(0)

MR-Shuffle

摘要：阶段定义 MapTask: map sort map: Mapper.map()中将输出的key-value写出之前 sort: Mapper.map()中将输出的key-value写出之后 sort ①当在map()将输出的key-value写出后，记录是会被Partitioner计算一个分区号阅读全文

posted @ 2020-07-23 08:20 Loading~ 阅读(147) 评论(0) 推荐(0)

尚硅谷-MR执行流程浅析

摘要：二、MR的核心编程思想 1.概念 Job(作业) : 一个MR程序称为一个Job MRAppMaster（MR任务的主节点）: 一个Job在运行时，会先启动一个进程，这个进程为 MRAppMaster。负责Job中执行状态的监控，容错，和RM申请资源，提交Task等！ Task(任务)： Task 阅读全文

posted @ 2020-07-22 12:03 Loading~ 阅读(1123) 评论(0) 推荐(0)

转载 -Paxos https://www.douban.com/note/208430424/

摘要：原计划在介绍完ZK Client之后就着手ZK Server的介绍，但是发现ZK Server所包含的内容实在太多，并不是简简单单一篇Blog就能搞定的。于是决定从基础搞起比较好。那么ZK Server最基础的东西是什么呢？我想应该是Paxos了。所以本文会介绍Paxos以及它在ZK Server 阅读全文

posted @ 2020-07-16 12:45 Loading~ 阅读(396) 评论(0) 推荐(0)

MR计算框架

摘要：map数量计算向数据移动，map计算框架移动到Block map和Block不是一一对应，map与逻辑片（split）一一对应。原因：单个块可能过大，map处理时间长。所以block逻辑分块，多来几个map reduce数量按理说reduce应该和key数量一样，但是可能存在不同key对应的数据阅读全文

posted @ 2020-07-07 17:01 Loading~ 阅读(299) 评论(0) 推荐(0)

安装

摘要：全分布式安装 node0001-node0004安装JDK node0001-node0004ssh免密登录修改node0001 全分布式配置文件 [node0001 namenode] [node0002 secondarynode][node0002 node0003 node0004 dat 阅读全文

posted @ 2020-07-07 16:22 Loading~ 阅读(241) 评论(0) 推荐(0)

Zookeeper梳理

摘要：问题引入有这样一个场景：系统中有大约100w的用户，每个用户平均有3个邮箱账号，每隔5分钟，每个邮箱账需要收取100封邮件，最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力，从多个不同的网路出口进行访问外网，计算的压力得到缓解，那么每台机器的计算压力也不会很大了。阅读全文

posted @ 2020-07-04 11:18 Loading~ 阅读(159) 评论(0) 推荐(0)

Hadoop入门

摘要：1T 文件，数字，行存储 ⇒ 排序传统方法第一种方法：判断每一行的所属范围[0,100][101,200],取出一小部分数据[0,100]排序，放入文件第二种方法：分成N多个文件，文件内部有序，文件之间归并排序瓶颈：单机处理文件太大大数据采用多台服务器运算化整为零，并发执行=>Hado 阅读全文

posted @ 2020-07-03 11:48 Loading~ 阅读(142) 评论(0) 推荐(0)

fsimage 和 edits

摘要：转载地址：https://www.aboutyun.com/blog-40148-2944.html 怎么理解这两个文件？这两个文件本质上是一样，都是备份。先从盘古开天地讲起，（给你设计你会怎么设计）一开始，光有namenode进程，还并没有这两个文件的概念，当外部客户端有操作了，nameno 阅读全文

posted @ 2020-07-03 11:32 Loading~ 阅读(489) 评论(0) 推荐(0)

高并发负载均衡Nginx

摘要：拓扑结构正反向代理正向代理代理客户端，反向代理代理服务器。客户端是要进行一些正向代理的设置的。（自己知道自己在通过vpn访问google）反向代理代理的是服务器，作为客户端的我们是无法感知到服务器的真实存在的。（自己并不知道nginx给我们做了代理） Nginx Apache apache是阅读全文

posted @ 2020-07-03 09:12 Loading~ 阅读(336) 评论(0) 推荐(0)

高并发负载均衡keepalived

摘要：解决LVS问题 1.需要心跳机制探测后端RS是否提供服务。探测down，需要从lvs中删除该RS 探测发送从down到up，需要从lvs中再次添加RS。 2.Lvs DR，需要主备（HA）主广播自己状态，备随时观察主状态，准备代替主挂了，备推选原理 VRRP虚拟路由冗余协议 IP漂移缺点阅读全文

posted @ 2020-07-02 15:04 Loading~ 阅读(150) 评论(0) 推荐(0)

LVS负载均衡

摘要：应用层7 nginx 软件表示层6 会话层5 传输层4 lvs 内核网络层3 链路层2 物理层1 2. 整个互联网建立在下一跳的模式下 IP是逻辑上的两个端点 MAC是物理上连接的两个节点端点间TCP传输过程中确认机制状态机制不可分割解析数据包需要成本交换机：二层，只关心MAC地址阅读全文

posted @ 2020-07-02 12:37 Loading~ 阅读(208) 评论(0) 推荐(0)

No pain No gain

本博客用于知识的总结与梳理

随笔分类 - 大数据

公告