• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
暗时间&量变
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

随笔分类 -  BigData

上一页 1 2

对FusionInsight平台上以Spark为主的学习
 
Hive自定义函数UDF和UDTF
摘要:UDF(user defined functions) 用于处理单行数据,并生成单个数据行。 PS: l 一个普通UDF必须继承自“org.apache.hadoop.hive.ql.exec.UDF”。l 一个普通UDF必须至少实现一个evaluate()方法,evaluate函数支持重载。 主要 阅读全文
posted @ 2017-09-01 10:24 WuLei吴磊 阅读(1978) 评论(0) 推荐(0)
can not create symbolic link HDFS解压自动配置lib报错。
摘要:如题,使用FusionInsight解压生成样例代码的时候报错,找不到解释。只猜测是权限问题。然后并没有仔细静心思考,心里杂念很多,很浮躁。 解决方法是“以管理员身份运行“。 想想高中:面对问题,不能选择逃避,要正面解决它!如果能思考,总会想到办法的! 阅读全文
posted @ 2017-08-30 11:05 WuLei吴磊 阅读(1325) 评论(0) 推荐(0)
Spark大数据针对性问题。
摘要:1、海量日志数据,提取出某日访问百度次数最多的那个IP。 解决方案:首先是将这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP 阅读全文
posted @ 2017-08-24 10:37 WuLei吴磊 阅读(2221) 评论(0) 推荐(2)
使用Spark下的corr计算皮尔森相似度Pearson时,报错Can only zip RDDs with same number of elements in each partition....
摘要:实现代码如上,因为Statistics.corr(RDD[Double],RDD[Double]),所以SparkSQL读取后的数据生成的dataFrame必须转换,第一步是转换成RDD[Row],Row就相当于sql查询出来的一条数据,这里也转换过多次才成功,最后百度得到可以先.cast(Doub 阅读全文
posted @ 2017-08-07 10:36 WuLei吴磊 阅读(531) 评论(0) 推荐(0)
虐翻
摘要:问安总一个问题,“怎么样结束Spark的远程调试?” 我以为会得到一个很简单的答案,比如一个操作,一个很简单的命令什么的,但是安总给我一个沉重的打击,从原理从底层结束了我的Spark执行进程。 秀了一波华丽丽的操作,期间我插了一句嘴,“安总,filter怎么用?”我以为会给我打个比方,结果给我讲解了 阅读全文
posted @ 2017-07-18 15:22 WuLei吴磊 阅读(176) 评论(0) 推荐(0)
安装FusionInsight
摘要:1、在华为平台上下载整体客户端,不建议下载单个组件客户端,后期关联测试还是要装上的。 2、下载后需要将服务器上的客户端拷贝到本地。打开xShell,新建会话,登陆本地虚拟机上的Linux系统(192.168.56.110),然后使用远程命令 ssh root@192.168.95.41 //41~4 阅读全文
posted @ 2017-07-11 08:42 WuLei吴磊 阅读(1125) 评论(0) 推荐(0)
summaryなな
摘要:Word如果遇到有空白页不能删除的情况,将光标定位在空白页前一页的末尾,然后按Delete键就可以删除空白页了。 实时计算,强调的是实时。比如小明要查看他去年一年的消费总额度,那么当小明点下统计按钮的时候,服务器集群就在噼里啪啦的赶紧计算了,必须在小明能够忍耐的时间范围内得出结果。这种计算的背后实现 阅读全文
posted @ 2017-07-05 16:35 WuLei吴磊 阅读(146) 评论(0) 推荐(0)
 

上一页 1 2

公告


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3