摘要:1.数据如何处理?2.从数据中如何提取有用的特征?3.有哪些衍生特征?http://www.aboutyun.com/thread-18250-1-1.html数据处理以及转化 1、当我们完成了一些对数据集的探索和分析,我们知道了一些关于用户数据以及电影数据的特征,接下来我们该做些什么呢? 2、为了 阅读全文
何时选择hbase
2017-07-25 20:38 by BB99, 264 阅读, 0 推荐, 收藏,
摘要:在数据库选型的过程中,我们首先要了解数据库的一些特性; hive提供查询。不能插入,删除,更新。所以智能成批的载入操作; 在使用Hbase一定要明白hbase的适用场合,因为HBase并非适用于每种情况。 首先,要确认有足够多的数据存入HBase。 如果有几亿或者几十亿条记录要存入HBase,那么H 阅读全文
某大型银行电子渠道报表系统SSIS ETL优化报告
2017-07-12 02:02 by BB99, 751 阅读, 0 推荐, 收藏,
摘要:1. 问题分析 1.1 问题场景 在生产环境下,从电子渠道的多个交易系统通过SSIS(SQL Server Integration Services)进行数据服务平台的ETL数据抽取时出现性能问题。在初期使用过程中出现了数据抽取速度过慢和系统资源占用过高的问题,除数据库基础架构建设存在优化可能外,S 阅读全文
scala
2017-07-06 22:14 by BB99, 1004 阅读, 0 推荐, 收藏,
摘要:beeline>create table testThrift (field1 String , field2 Int); beeline>insert into table testThrift select c.theyear,max(d.sumofamount) from tbDate c j 阅读全文
spark RDD功能与分类
2017-07-05 20:54 by BB99, 2362 阅读, 0 推荐, 收藏,
摘要:算子的定义:RDD中定义的函数,可以对RDD中的数据进行转换和操作。下面根据算子类型的分类进行总结: 1. value型算子 从输入到输出可分为一对一(包括cache)、多对一、多对多、输出分区为输入分区自激 1)一对一, map,简单的一对一映射,集合不变; flatMap,一对一映射,并将最后映 阅读全文
base常用点
2017-07-03 22:57 by BB99, 153 阅读, 0 推荐, 收藏,
摘要:HBase停止集群报错,pid不存在的问题 在hbase-env.sh中修改pid文件的存放路径 [java] # The directory where pid files are stored. /tmp by default. export HBASE_PID_DIR=/var/hadoop/ 阅读全文
浙公网安备 33010602011771号