spark性能调优之资源调优
摘要:转https://tech.meituan.com/spark-tuning-basic.html spark作业原理 使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启
阅读全文
spark性能调优之开发调优
摘要:转https://tech.meituan.com/spark-tuning-basic.html 原则1.避免创建重复的RDD // 需要对名为“hello.txt”的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。 // 错误的做法:对于同一
阅读全文
linux查看cpu个数,核数,逻辑cpu个数
摘要:物理CPU:物理CPU是相对于虚拟CPU而言的概念,指实际存在的处理器,就是我们可以看的见,摸得着的CPU,就是插在主板上面的。 物理核:CPU中包含的物理内核个数,比如我们通常说的双核CPU,单核CPU。 在linux系统下面的/proc/cpuinfo文件的条目中: 1.有多少个不同的physi
阅读全文
scala 方式删除本地文件
摘要:首先贴上我的程序:实现的是读入一个文本文件, 然后过滤出包含有“in”的单词 ,计算出现频率写入文件(win7系统) 但是这个程序只能执行一次,第二次本地已经有了\\opt\\eric\\spark-demo这个文件之后,程序就回报错,所以应该在saveasTextFile之前将其删除。 因此发现了
阅读全文
笔记--《hive编程指南》
摘要:一、命令: 1. “一次性执行”: hive -e "select * from mytable limit 3"; 2. 输出到文件中: -S :静默模式 hive -S -e "select * from mytable limit 3" > /tmp/myquery 3. 模糊查找“wareh
阅读全文
java实现binary tree的BFS
摘要:实现方案: 1.初始化一个空的Queue。 2.从根节点开始 ,把根节点插入Queue。 3.循环如果Queue非空的话: 1) 从Queue中取出节点,并将这个节点的所有孩子插入Queue。 2) 打印出取出的节点。 代码:
阅读全文
Linux 文件的分割 组合
摘要:分割: tar -jvf - <filename> | split -b <size> - <filename>.tar.bz2. eg: 组合: cat <filename>.tar.bz2.a* | tar -jx eg:
阅读全文