云上的听者

[置顶] Hadoop源生实用工具之distcp

摘要： 1 概览 DistCp（Distributed Copy）是用于大规模集群内部或者集群之间的高性能拷贝工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝备注：在工作中遇到部门间数据合作，夸不阅读全文

posted @ 2019-05-29 17:55 云上的听者阅读(3189) 评论(0) 推荐(1)

[置顶] java类在eclipse上打jar包，Linux上成功运行的实例

摘要： 1 eclipse下的java项目结构如下图所示： 2 打包的步骤如下： 3 修改minifest.mf文件： 4 。上传需要的三方jar包们和主类打的jar（案例是topV.jar）并且执行java -jar topV.jar 如图: 个人实践，方法简单如有帮助不胜荣幸！阅读全文

posted @ 2019-04-22 16:34 云上的听者阅读(460) 评论(0) 推荐(0)

2018年12月25日

Linux之shell命令实现-批量去掉文件名中空格，以及批量修改文件名为数字序号文件名

摘要： 1 shell下批量出去文件名中的空格执行看现象：上面的是执行for循环以后看到的；然而源目录下的文件如下：这样的话想要cat某个具体文件是拿不到的，所以需要去空格处理：处理方式有很多：如 mv+sed 、rename方式。本次只做简单有效的方式--rename： rename 's/ / 阅读全文

posted @ 2018-12-25 16:55 云上的听者阅读(8787) 评论(0) 推荐(0)

2018年12月11日

讲明白combineByKey()算子，不是谈源码

摘要：简单介绍 combineByKey()是最通用的对key-value型rdd进行聚集操作的聚集函数（aggregation function）。类似于aggregate()，combineByKey()允许用户返回值的类型与输入不一致。其定义如下，我们可以根据这个形式来分别定义createComb 阅读全文

posted @ 2018-12-11 17:03 云上的听者阅读(2647) 评论(0) 推荐(0)

2018年10月11日

spark 图文详解:资源调度和任务调度

摘要：讲说spark的资源调度和任务调度，基本的spark术语，这里不再多说，懂的人都懂了。。。按照数字顺序阅读，逐渐深入理解：以下所有截图均为个人上传，不知道为什么总是显示别人的QQ，好尴尬，无所谓啦，开始吧~~ 1 宽窄依赖与Stage划分：上熟悉的图：在 Spark 里每一个操作生成一个 RD 阅读全文

posted @ 2018-10-11 17:39 云上的听者阅读(3939) 评论(0) 推荐(1)

2018年10月10日

举例实用详解sc.textFile()和wholeTextFiles()

摘要：谈清楚区别，说明白道理，从案例开始： 1 数据准备用hdfs存放数据，且结合的hue上传准备的数据，我的hue截图：每个文件下的数据：以上是3个文件的数据，每一行用英文下的空格隔开； 2 测试 sc.textFile（）和sc.wholeTextFiles()的效果 testFIle() 如图阅读全文

posted @ 2018-10-10 14:41 云上的听者阅读(8027) 评论(0) 推荐(0)

2018年9月28日

推荐系统之电商适用

摘要： 01 概述：推荐一直是电商平台的重要流量入口。以往在电商平台上，推荐的场景更多的覆盖在交易的各个环节，比如详情页、购物车、订单及支付等。近年来推荐发展逐渐的多样化，场景上逐渐覆盖到各流量入口，推荐的实体也扩展到活动、类目、运营位等。在电商网站里进行商品推荐，可以提高整个网站商品销售的有效转化率，阅读全文

posted @ 2018-09-28 17:46 云上的听者阅读(356) 评论(0) 推荐(1)

2018年9月19日

20-30岁的青春年华，每一步都算数

摘要：我的开篇博客没有写技术，没有写自己，想了想应该从一个例子开始，因为这就像5年前的我：引用 Start 大家好，我是一位来自东北的29岁老男孩，现居深圳。说实话，在这个年纪选择转行确实是下了很大决心，因为横向去看一下同龄的同学，大多都已成家，且决意在本行业中一直做下去，人生基本定型稳定。都说20-3 阅读全文

posted @ 2018-09-19 16:10 云上的听者阅读(433) 评论(0) 推荐(0)

公告