随笔分类 -  分布式

并发与分布式通信框架等,以scala、java语言为主
摘要:本文主要介绍Spark的一些基本算子,PySpark及Spark SQL 的使用方法。 虽然我从2014年就开始接触Spark,但几年来一直没有真正地学以致用,时间一久便忘了如何使用,直到在工作中用到才再次捡起来。遂再整理一番,留作备忘。 Apache Spark™ - Unified Engine 阅读全文
posted @ 2022-08-14 13:14 康行天下 阅读(2376) 评论(0) 推荐(0)
摘要:hadoop 基础命令 下载 下载单个文件:hadoop fs -get /hdfs/path/to/file local_file 合并下载文件夹下所有文件:将多个part合并到本地文件 hadoop fs -getmerge /hdfs/path local_file 上传 hadoop fs 阅读全文
posted @ 2022-07-28 20:15 康行天下 阅读(822) 评论(0) 推荐(0)
摘要:本篇主要介绍几种大数据SQL查询引擎及SQL常用语法,包括 Hive、Presto、SparkSQL 的区别介绍,顺带回顾了一些数据库的理论知识。 查询引擎 主要介绍Hive、Presto、SparkSQL这三个大数据SQL引擎。 Hive Apache Hive数据仓库软件支持使用SQL读取、写入 阅读全文
posted @ 2022-06-04 18:54 康行天下 阅读(3414) 评论(0) 推荐(0)
摘要:1.mailbox Akka的每个actor默认有一个mailbox,按照FIFO顺序单线程处理。在抛出异常导致父actor根据设置的监管策略执行重启或恢复操作时,会从触发异常的消息的后续消息开始处理,邮箱并不会被清空。如果你想重新处理那个触发异常的消息,可以通过重写preRestart方法来访问该 阅读全文
posted @ 2016-04-02 23:30 康行天下 阅读(3212) 评论(0) 推荐(0)