摘要: 1 概览 DistCp(Distributed Copy)是用于大规模集群内部或者集群之间的高性能拷贝工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝 备注:在工作中遇到部门间数据合作,夸不 阅读全文
posted @ 2019-05-29 17:55 云上的听者 阅读(2456) 评论(0) 推荐(1) 编辑
摘要: 1 eclipse下的java项目结构如下图所示: 2 打包的步骤如下: 3 修改minifest.mf文件: 4 。上传需要的三方jar包们和主类打的jar(案例是topV.jar)并且执行java -jar topV.jar 如图: 个人实践,方法简单 如有帮助 不胜荣幸! 阅读全文
posted @ 2019-04-22 16:34 云上的听者 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 1 shell下批量出去文件名中的空格 执行看现象: 上面的是执行for循环以后看到的; 然而源目录下的文件如下: 这样的话想要cat某个具体文件是拿不到的,所以需要去空格处理: 处理方式有很多:如 mv+sed 、rename方式。本次只做简单有效的方式--rename: rename 's/ / 阅读全文
posted @ 2018-12-25 16:55 云上的听者 阅读(8023) 评论(0) 推荐(0) 编辑
摘要: 简单介绍 combineByKey()是最通用的对key-value型rdd进行聚集操作的聚集函数(aggregation function)。类似于aggregate(),combineByKey()允许用户返回值的类型与输入不一致。 其定义如下,我们可以根据这个形式来分别定义createComb 阅读全文
posted @ 2018-12-11 17:03 云上的听者 阅读(2485) 评论(0) 推荐(0) 编辑
摘要: 讲说spark的资源调度和任务调度,基本的spark术语,这里不再多说,懂的人都懂了。。。 按照数字顺序阅读,逐渐深入理解:以下所有截图均为个人上传,不知道为什么总是显示别人的QQ,好尴尬,无所谓啦,开始吧~~ 1 宽窄依赖与Stage划分: 上熟悉的图: 在 Spark 里每一个操作生成一个 RD 阅读全文
posted @ 2018-10-11 17:39 云上的听者 阅读(3832) 评论(0) 推荐(1) 编辑
摘要: 谈清楚区别,说明白道理,从案例开始: 1 数据准备 用hdfs存放数据,且结合的hue上传准备的数据,我的hue截图: 每个文件下的数据: 以上是3个文件的数据,每一行用英文下的空格隔开; 2 测试 sc.textFile()和sc.wholeTextFiles()的效果 testFIle() 如图 阅读全文
posted @ 2018-10-10 14:41 云上的听者 阅读(7805) 评论(0) 推荐(0) 编辑
摘要: 01 概述: 推荐一直是电商平台的重要流量入口。以往在电商平台上,推荐的场景更多的覆盖在交易的各个环节,比如详情页、购物车、订单及支付等。近年来推荐发展逐渐的多样化,场景上逐渐覆盖到各流量入口,推荐的实体也扩展到活动、类目、运营位等。 在电商网站里进行商品推荐,可以提高整个网站商品销售的有效转化率, 阅读全文
posted @ 2018-09-28 17:46 云上的听者 阅读(293) 评论(0) 推荐(1) 编辑
摘要: 我的开篇博客没有写技术,没有写自己,想了想应该从一个例子开始,因为这就像5年前的我: 引用 Start 大家好,我是一位来自东北的29岁老男孩,现居深圳。说实话,在这个年纪选择转行确实是下了很大决心,因为横向去看一下同龄的同学,大多都已成家,且决意在本行业中一直做下去,人生基本定型稳定。都说20-3 阅读全文
posted @ 2018-09-19 16:10 云上的听者 阅读(372) 评论(0) 推荐(0) 编辑