11 2018 档案

摘要:数据倾斜 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。 阅读全文
posted @ 2018-11-29 15:00 BoomOoO 阅读(189) 评论(0) 推荐(0)
摘要:数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算 阅读全文
posted @ 2018-11-29 14:59 BoomOoO 阅读(246) 评论(0) 推荐(0)
摘要:MapReduce客户端程序提交job之后,就会退出,那么如何判断mr程序有没有执行成功呢?1、到yarn的网页上看 8088端口;2、可以让客户端程序不退出,等待mr程序运行完成以后,再退出 具体实现,将客户端程序中 job.submit() 换成 job.waitForCompletion(tr 阅读全文
posted @ 2018-11-28 20:52 BoomOoO 阅读(185) 评论(0) 推荐(0)
摘要:Yarn :分布式计算程序(比如mapreduce程序,或者Spark程序,Stom)的运行调度平台;它本身也是一个分布式系统在Hadoop的 yarn-site.sh 中配置主节点主节点:ResourceManager从节点:NodeManage启动: start-yarn.sh 注意:一定要在配 阅读全文
posted @ 2018-11-27 20:39 BoomOoO 阅读(131) 评论(0) 推荐(0)
摘要:KEYIN:输入的KEY是maptask所读取到的一行文本的起始偏移量,longVALUEIN:输入的VALUE的类型,输入的VALUE是maptask所读取到的一行文本内容,StringKEYOUT:我们在本逻辑中输出单词做key,StringVALUEOUT:我们在本逻辑中输出1作value,I 阅读全文
posted @ 2018-11-27 20:37 BoomOoO 阅读(247) 评论(0) 推荐(0)
摘要:linux下如何批量杀JAVA进程或某个进程方法 在工作中经常需要停止JAVA进程,停止时间也比较长,那么有时候因为一些情况,需要把 linux 下JAVA所有进程 kill 掉,又不能用killall 直接杀掉某一进程名称包含的所有运行中进程(我们可能只需要杀掉其中的某一类或运行指定参数命令的进程 阅读全文
posted @ 2018-11-19 15:19 BoomOoO 阅读(2692) 评论(0) 推荐(0)
摘要:迭代器模式:就是提供一种方法对一个容器对象中的各个元素进行访问,而又不暴露该对象容器的内部细节。 概述 Java集合框架的集合类,我们有时候称之为容器。容器的种类有很多种,比如ArrayList、LinkedList、HashSet...,每种容器都有自己的特点,ArrayList底层维护的是一个数 阅读全文
posted @ 2018-11-17 21:44 BoomOoO 阅读(373) 评论(0) 推荐(0)
摘要:hadoop fs: FS relates to a generic file system which can point to any file systems like local, HDFS etc. So this can be used when you are dealing with 阅读全文
posted @ 2018-11-17 17:57 BoomOoO 阅读(559) 评论(0) 推荐(0)
摘要:遇到这个 Java Serializable 序列化这个接口,我们可能会有如下的问题 a,什么叫序列化和反序列化b,作用。为啥要实现这个 Serializable 接口,也就是为啥要序列化c,serialVersionUID 这个的值到底是在怎么设置的,有什么用。有的是1L,有的是一长串数字,迷惑i 阅读全文
posted @ 2018-11-12 19:46 BoomOoO 阅读(263) 评论(0) 推荐(0)
摘要:1. InputStream 和OutputStream,两个是为字节流设计的,主要用来处理字节或二进制对象, 2. Reader和 Writer.两个是为字符流(一个字符占两个字节)设计的,主要用来处理字符或字符串. 字符流处理的单元为2个字节的Unicode字符,分别操作字符、字符数组或字符串, 阅读全文
posted @ 2018-11-10 16:44 BoomOoO 阅读(2442) 评论(0) 推荐(1)
摘要:1:Java语言定义了许多类专门负责各种方式的输入或者输出,这些类都被放在java.io包中。其中, 所有输入流类都是抽象类InputStream(字节输入流),或者抽象类Reader(字符输入流)的子类; 而所有输出流都是抽象类OutputStream(字节输出流)或者Writer(字符输出流)的 阅读全文
posted @ 2018-11-10 16:31 BoomOoO 阅读(183) 评论(0) 推荐(0)
摘要:不管你是新程序员还是老手,你一定在面试中遇到过有关线程的问题。Java语言一个重要的特点就是内置了对并发的支持,让Java大受企业和程序员的欢迎。大多数待遇丰厚的Java开发职位都要求开发者精通多线程技术并且有丰富的Java程序开发、调试、优化经验,所以线程相关的问题在面试中经常会被提到。 在典型的 阅读全文
posted @ 2018-11-09 09:50 BoomOoO 阅读(173) 评论(0) 推荐(0)
摘要:联通大数据有限公司: 1、公司架构:专家委员会,综合部,市场部,业务拓展部,产品部,安全合规部门,技术部 2、子公司:智慧足迹数据科技有限公司 》联通高新大数据人工智能科技(成都)有限公司 3、产品体系:8+N 产品体系 平台级行业解决方案:(1)政务大数据,面向政府管理部门,解决数据规模大,整合难 阅读全文
posted @ 2018-11-08 21:50 BoomOoO 阅读(307) 评论(0) 推荐(0)
摘要:一、线程概述 进程:计算机中特定功能的程序在数据集上的一次运行。一款正在运行的app就可以认为是一个进程线程:线程是进程中的一个单元,功能的执行离不开线程 多线程:一个进程中有多个线程同时执行,如迅雷下载,可以同时下载多个电影 每一个下载任务就是一个线程单线程:任务的执行是依次的,必须等待前一个任务 阅读全文
posted @ 2018-11-07 15:48 BoomOoO 阅读(192) 评论(0) 推荐(0)
摘要:总结: 1.要想用git管理项目,先要将本地项目与git关联,才能进行commit、push、pull等操作; 2.将本地项目于git关联后,本地仓库的地址默认就是项目地址; 3.从远程仓库进行项目clone后,已默认用git进行项目管理; 4.clone的时候会将仓库里的所有内容一并clone; 阅读全文
posted @ 2018-11-06 11:24 BoomOoO 阅读(197) 评论(0) 推荐(0)