Hive自定义函数UDF和UDTF
摘要:UDF(user defined functions) 用于处理单行数据,并生成单个数据行。 PS: l 一个普通UDF必须继承自“org.apache.hadoop.hive.ql.exec.UDF”。l 一个普通UDF必须至少实现一个evaluate()方法,evaluate函数支持重载。 主要
阅读全文
can not create symbolic link HDFS解压自动配置lib报错。
摘要:如题,使用FusionInsight解压生成样例代码的时候报错,找不到解释。只猜测是权限问题。然后并没有仔细静心思考,心里杂念很多,很浮躁。 解决方法是“以管理员身份运行“。 想想高中:面对问题,不能选择逃避,要正面解决它!如果能思考,总会想到办法的!
阅读全文
Spark大数据针对性问题。
摘要:1、海量日志数据,提取出某日访问百度次数最多的那个IP。 解决方案:首先是将这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP
阅读全文
使用Spark下的corr计算皮尔森相似度Pearson时,报错Can only zip RDDs with same number of elements in each partition....
摘要:实现代码如上,因为Statistics.corr(RDD[Double],RDD[Double]),所以SparkSQL读取后的数据生成的dataFrame必须转换,第一步是转换成RDD[Row],Row就相当于sql查询出来的一条数据,这里也转换过多次才成功,最后百度得到可以先.cast(Doub
阅读全文
虐翻
摘要:问安总一个问题,“怎么样结束Spark的远程调试?” 我以为会得到一个很简单的答案,比如一个操作,一个很简单的命令什么的,但是安总给我一个沉重的打击,从原理从底层结束了我的Spark执行进程。 秀了一波华丽丽的操作,期间我插了一句嘴,“安总,filter怎么用?”我以为会给我打个比方,结果给我讲解了
阅读全文
安装FusionInsight
摘要:1、在华为平台上下载整体客户端,不建议下载单个组件客户端,后期关联测试还是要装上的。 2、下载后需要将服务器上的客户端拷贝到本地。打开xShell,新建会话,登陆本地虚拟机上的Linux系统(192.168.56.110),然后使用远程命令 ssh root@192.168.95.41 //41~4
阅读全文
summaryなな
摘要:Word如果遇到有空白页不能删除的情况,将光标定位在空白页前一页的末尾,然后按Delete键就可以删除空白页了。 实时计算,强调的是实时。比如小明要查看他去年一年的消费总额度,那么当小明点下统计按钮的时候,服务器集群就在噼里啪啦的赶紧计算了,必须在小明能够忍耐的时间范围内得出结果。这种计算的背后实现
阅读全文