04 2020 档案
摘要:一、安装 一般的命令可以直接使用yum安装,但是sar和mpstat命令这两个命令都是在sysstat包里 sudo yum install sysstat。 首次运行sar命令报错:Cannot open /var/log/sa/sa03: No such file or directory 首次
阅读全文
摘要:https://blog.csdn.net/qq_41772936/article/details/80380950
阅读全文
摘要:https://www.cnblogs.com/abin1129/p/11732838.html
阅读全文
摘要:HDFS / tmp目录主要用作mapreduce操作期间的临时存储。 Mapreduce工件,中间数据等将保存在该目录下。 mapreduce作业执行完成后,这些文件将自动清除。如果删除此临时文件,则可能会影响当前正在运行的mapreduce作业
阅读全文
摘要:https://blog.csdn.net/u014374284/article/details/49205885 https://blog.csdn.net/asn_forever/article/details/81233547 https://blog.csdn.net/u014374284/
阅读全文
摘要:https://blog.csdn.net/zhuiqiuuuu/article/details/86539385 ps:这篇文章写得比较好,解答了之前的困惑,需要重点看 个人疑惑:实际分配的内存不会算driver-memory的?
阅读全文
摘要:https://blog.csdn.net/jiaojiao521765146514/article/details/83750548 ElasticSearch引擎把文档数据写入到倒排索引(Inverted Index)的数据结构中,倒排索引建立的是分词(Term)和文档(Document)之间的
阅读全文
摘要:https://www.cnblogs.com/williamjie/p/9358291.html 那么hashmap什么时候进行扩容呢?当hashmap中的元素个数超过数组大小*loadFactor时,就会进行数组扩容,loadFactor的默认值为0.75,也就是说,默认情况下,数组大小为16,
阅读全文
摘要:1、数据结构不同 ArrayList是Array(动态数组)的数据结构,LinkedList是Link(链表)的数据结构。 2、效率不同 当随机访问List(get和set操作)时,ArrayList比LinkedList的效率更高,因为LinkedList是线性的数据存储方式,所以需要移动指针从前
阅读全文
摘要:https://www.cnblogs.com/beiyi888/p/9647147.html 首先,HDFS将每一个文件的数据进行分块存储,同时每一个数据块又保存有多个副本,这些数据块副本分布在不同的机器节点上,这种数据分块存储+副本的策略是HDFS保证可靠性和性能的关键,这是因为:一.文件分块存
阅读全文
摘要:https://www.cnblogs.com/williamjie/p/11081592.html
阅读全文
摘要:1、jstack(查看线程)、jmap(查看内存)和jstat(性能分析) jstack能得到运行java程序的java stack和native stack的信息。可以轻松得知当前线程的运行情况 用法:jstack pid 2、vim命令(文件操作) 分为三种模式:命令行模式、编辑模式、末行模式
阅读全文
摘要:https://www.jianshu.com/p/d2068b8247a7
阅读全文
摘要:参考这篇文章,个人觉得讲得比较清晰。https://blog.csdn.net/lhg_198910/article/details/89325499 https://blog.csdn.net/qq_32941881/article/details/81505069
阅读全文
摘要:数据同步工具:离线同步 sqoop /DataX 实时同步 cannal/Flink CDC 权限管理(kerberos,CDH cloudmanager=> sentry ,HDP ambari=>ranger;其中后两者可以做到目录级别用户级别权限管理) 数据质量监控工具-Apache Grif
阅读全文
摘要:https://blog.csdn.net/selfsojourner/article/details/80476741 星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花型模型要高 雪花模型使用的是规范化数据,也就是说数据在数据库内部是组织好的,以便消除冗余,因此它
阅读全文
摘要:https://www.cnblogs.com/raphael5200/p/5229164.html
阅读全文
摘要:https://www.jianshu.com/p/779e8f7cd1a2
阅读全文
摘要:https://www.cnblogs.com/alsodzy/p/8675935.html
阅读全文
摘要:https://blog.csdn.net/tpc4289/article/details/79088613
阅读全文
摘要:https://blog.csdn.net/hellozpc/article/details/80878563
阅读全文
摘要:1.业务层面乐观锁CAS,使用版本号解决ABA问题,实际使用中使用时间戳,更新的时候把查出来的时间戳带上,如果更新失败可以自旋,获取最近值和时间戳,直到更新成功。2.DB层面开启一个事务,然后select一行for update给这一行加上排它锁,再去更新行,然后提交,其他事务就会阻塞在select
阅读全文
摘要:https://www.jianshu.com/p/ec19558ff255
阅读全文
摘要:https://my.oschina.net/u/3892023/blog/3007172
阅读全文
摘要:https://blog.csdn.net/dkbnull/article/details/87219562
阅读全文
摘要:https://blog.csdn.net/w4hechuan2009/article/details/76601895 加密算法分对称加密和非对称算法,其中对称加密算法的加密与解密密钥相同,非对称加密算法的加密密钥与解密密钥不同,此外,还有一类不需要密钥的散列算法。 常见的对称加密算法主要有DES
阅读全文
摘要:https://www.jianshu.com/p/7c63f3a1de7d
阅读全文
摘要:个人理解:watermark是全局机制针对所有的key,如果要解决同一个key的乱序迟到问题就需要用到Allowed Lateness机制。 因为一般都是按照某个key分组,需要的也是解决同一个key的乱序迟到问题。 https://blog.csdn.net/yangxiaobo118/artic
阅读全文
摘要:https://www.jianshu.com/p/ee0de4c99f87
阅读全文
摘要:总说:笼统地看,这四个在hive中都有排序和聚集的作用,然而,它们在执行时所启动的MR却各不相同。 细讲:order by: order by会对所给的全部数据进行全局排序,并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样,不管来多少数据,都只启动一个reducer来处理。因此,数据量小
阅读全文
摘要:理论知识介绍:(个人理解使用广播变量是优化项之一) https://blog.csdn.net/Android_xue/article/details/79780463/ 一、为什么要使用共享变量 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外
阅读全文
摘要:https://www.jianshu.com/p/313cd335720f
阅读全文
摘要:https://blog.csdn.net/u010541670/article/details/91890649?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-t
阅读全文
摘要:https://www.jianshu.com/p/0f876ead2846
阅读全文
摘要:1、Hbase架构与数据存储 2、Hbase读写原理 3、Hbase 热点问题 读写热点解决办法: region预分区、rowkey前缀做MD5散列设计 4、Hbase调优 Scan 缓存 如果HBase的输入源是一个MapReduce Job,要确保输入的Scan的setCaching值要比默认值
阅读全文
摘要:https://blog.csdn.net/qq_37142346/article/details/81064721
阅读全文

浙公网安备 33010602011771号