摘要:
算子的定义:RDD中定义的函数,可以对RDD中的数据进行转换和操作。下面根据算子类型的分类进行总结: 1. value型算子 从输入到输出可分为一对一(包括cache)、多对一、多对多、输出分区为输入分区自激 1)一对一, map,简单的一对一映射,集合不变; flatMap,一对一映射,并将最后映 阅读全文
阅读排行榜
Spark 数据ETL及部分代码示例
2017-07-28 17:22 by BB99, 1713 阅读, 收藏,
摘要:
1.数据如何处理?2.从数据中如何提取有用的特征?3.有哪些衍生特征?http://www.aboutyun.com/thread-18250-1-1.html数据处理以及转化 1、当我们完成了一些对数据集的探索和分析,我们知道了一些关于用户数据以及电影数据的特征,接下来我们该做些什么呢? 2、为了 阅读全文
scala
2017-07-06 22:14 by BB99, 1004 阅读, 收藏,
摘要:
beeline>create table testThrift (field1 String , field2 Int); beeline>insert into table testThrift select c.theyear,max(d.sumofamount) from tbDate c j 阅读全文
某大型银行电子渠道报表系统SSIS ETL优化报告
2017-07-12 02:02 by BB99, 752 阅读, 收藏,
摘要:
1. 问题分析 1.1 问题场景 在生产环境下,从电子渠道的多个交易系统通过SSIS(SQL Server Integration Services)进行数据服务平台的ETL数据抽取时出现性能问题。在初期使用过程中出现了数据抽取速度过慢和系统资源占用过高的问题,除数据库基础架构建设存在优化可能外,S 阅读全文
浙公网安备 33010602011771号