随笔分类 -  大数据

摘要:作者:July、youwang、yanxionglu。 时间:二零一一年三月二十六日 本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。 出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题 1、海量日志数据, 阅读全文
posted @ 2021-12-18 09:40 Loading~ 阅读(111) 评论(0) 推荐(0)
摘要:Hive: https://www.cnblogs.com/Coeus-P/p/13356392.html Spark: def main(args: Array[String]): Unit = { //println("Hello, WordCount") val conf = new Spar 阅读全文
posted @ 2020-10-05 12:14 Loading~ 阅读(153) 评论(0) 推荐(0)
摘要:一、区别: 1.Hbase即 HadoopDatabase 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如交易清单、日志明细、轨迹行为等。 Hive是Hadoop的数据仓库,严格地讲并非数据库,主要是让开发人员能够通过SQL来计算 阅读全文
posted @ 2020-09-11 13:54 Loading~ 阅读(413) 评论(0) 推荐(0)
摘要:作者:洪春涛 链接:https://www.zhihu.com/question/25536695/answer/221638079 来源:知乎 本地过程调用RPC就是要像调用本地的函数一样去调远程函数。在研究RPC前,我们先看看本地调用是怎么调的。 假设我们要调用函数Multiply来计算lval 阅读全文
posted @ 2020-09-10 20:44 Loading~ 阅读(300) 评论(0) 推荐(0)
摘要:转载: https://www.toutiao.com/i6773805985963180548/?tt_from=mobile_qq&utm_campaign=client_share&timestamp=1596427817&app=news_article&utm_source=mobile_ 阅读全文
posted @ 2020-08-03 12:15 Loading~ 阅读(464) 评论(0) 推荐(0)
摘要:转载 : https://blog.csdn.net/zl1zl2zl3/article/details/87982038?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.edu_w 阅读全文
posted @ 2020-08-03 11:50 Loading~ 阅读(300) 评论(0) 推荐(0)
摘要:1、HDFS zookeeper https://www.cnblogs.com/Coeus-P/p/13234266.html zookeeper Hadoop ZKFC(失效检测控制)是Hadoop里的一个Zookeeper客户端,在每一个NameNode节点上都启动一个ZKFC进程,来监控Na 阅读全文
posted @ 2020-07-30 10:42 Loading~ 阅读(119) 评论(0) 推荐(0)
摘要:基于DNS的负载均衡 转载:https://www.cnblogs.com/arjenlee/p/9262737.html DNS(Domain Name System,域名系统),因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的I 阅读全文
posted @ 2020-07-25 09:25 Loading~ 阅读(587) 评论(0) 推荐(0)
摘要:阶段定义 MapTask: map sort map: Mapper.map()中将输出的key-value写出之前 sort: Mapper.map()中将输出的key-value写出之后 sort ①当在map()将输出的key-value写出后,记录是会被Partitioner计算一个分区号 阅读全文
posted @ 2020-07-23 08:20 Loading~ 阅读(147) 评论(0) 推荐(0)
摘要:二、MR的核心编程思想 1.概念 Job(作业) : 一个MR程序称为一个Job MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程为 MRAppMaster。 负责Job中执行状态的监控,容错,和RM申请资源,提交Task等! Task(任务): Task 阅读全文
posted @ 2020-07-22 12:03 Loading~ 阅读(1123) 评论(0) 推荐(0)
摘要:原计划在介绍完ZK Client之后就着手ZK Server的介绍,但是发现ZK Server所包含的内容实在太多,并不是简简单单一篇Blog就能搞定的。于是决定从基础搞起比较好。 那么ZK Server最基础的东西是什么呢?我想应该是Paxos了。所以本文会介绍Paxos以及它在ZK Server 阅读全文
posted @ 2020-07-16 12:45 Loading~ 阅读(396) 评论(0) 推荐(0)
摘要:map数量 计算向数据移动,map计算框架移动到Block map和Block不是一一对应,map与逻辑片(split)一一对应。原因:单个块可能过大,map处理时间长。所以block逻辑分块,多来几个map reduce数量 按理说reduce应该和key数量一样,但是可能存在不同key对应的数据 阅读全文
posted @ 2020-07-07 17:01 Loading~ 阅读(299) 评论(0) 推荐(0)
摘要:全分布式安装 node0001-node0004安装JDK node0001-node0004ssh免密登录 修改node0001 全分布式配置文件 [node0001 namenode] [node0002 secondarynode][node0002 node0003 node0004 dat 阅读全文
posted @ 2020-07-07 16:22 Loading~ 阅读(241) 评论(0) 推荐(0)
摘要:问题引入 有这样一个场景:系统中有大约100w的用户,每个用户平 均有3个邮箱账号,每隔5分钟,每个邮箱账需要收取100封邮件,最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力,从 多个不同的网路出口进行访问外网,计算的压力得到缓解,那么每台机器的计算压力也不会很大了。 阅读全文
posted @ 2020-07-04 11:18 Loading~ 阅读(159) 评论(0) 推荐(0)
摘要:1T 文件,数字,行存储 ⇒ 排序 传统方法 第一种方法:判断每一行的所属范围[0,100][101,200],取出一小部分数据[0,100]排序,放入文件 第二种方法:分成N多个文件,文件内部有序,文件之间归并排序 瓶颈:单机处理文件太大 大数据 采用多台服务器运算 化整为零,并发执行=>Hado 阅读全文
posted @ 2020-07-03 11:48 Loading~ 阅读(142) 评论(0) 推荐(0)
摘要:转载地址:https://www.aboutyun.com/blog-40148-2944.html 怎么理解这两个文件? 这两个文件本质上是一样,都是备份。 先从盘古开天地讲起,(给你设计你会怎么设计) 一开始,光有namenode进程,还并没有这两个文件的概念,当外部客户端有操作了,nameno 阅读全文
posted @ 2020-07-03 11:32 Loading~ 阅读(489) 评论(0) 推荐(0)
摘要:拓扑结构 正反向代理 正向代理代理客户端,反向代理代理服务器。 客户端是要进行一些正向代理的设置的。(自己知道自己在通过vpn访问google) 反向代理代理的是服务器,作为客户端的我们是无法感知到服务器的真实存在的。(自己并不知道nginx给我们做了代理) Nginx Apache apache是 阅读全文
posted @ 2020-07-03 09:12 Loading~ 阅读(336) 评论(0) 推荐(0)
摘要:解决LVS问题 1.需要心跳机制探测后端RS是否提供服务。 探测down,需要从lvs中删除该RS 探测发送从down到up,需要从lvs中再次添加RS。 2.Lvs DR,需要主备(HA) 主广播自己状态,备随时观察主状态,准备代替 主挂了,备推选 原理 VRRP虚拟路由冗余协议 IP漂移 缺点 阅读全文
posted @ 2020-07-02 15:04 Loading~ 阅读(150) 评论(0) 推荐(0)
摘要:应用层7 nginx 软件 表示层6 会话层5 传输层4 lvs 内核 网络层3 链路层2 物理层1 2. 整个互联网建立在下一跳的模式下 IP是逻辑上的两个端点 MAC是物理上连接的两个节点 端点间TCP传输过程中 确认机制 状态机制 不可分割 解析数据包需要成本 交换机:二层,只关心MAC地址 阅读全文
posted @ 2020-07-02 12:37 Loading~ 阅读(208) 评论(0) 推荐(0)