摘要: //[ 与 ] 的前后必须有空格符if [ -f /path/file.ext ] then echo "The file exist"else echo "The file doesn't exist"fi //判断某链接是否存在if [ -L /path/link ] then echo "Th 阅读全文
posted @ 2022-05-05 19:41 胜天、半子 阅读(1689) 评论(0) 推荐(0) 编辑
摘要: 不同的主要点是在于其所操作的数据是结构化的, 提供了对数据更强的感知和分析能力, 能够对代码进行更深层的优化, 而这种能力是由一个叫做 Catalyst 的优化器所提供的 Catalyst 的主要运作原理是分为三步, 先对 SQL 或者 Dataset 的代码解析, 生成逻辑计划, 后对逻辑计划进行 阅读全文
posted @ 2021-11-29 11:28 胜天、半子 阅读(203) 评论(0) 推荐(0) 编辑
摘要: Dataset 是一个强类型, 并且类型安全的数据容器, 并且提供了结构化查询 API 和类似 RDD 一样的命令式 API 阅读全文
posted @ 2021-11-29 11:28 胜天、半子 阅读(586) 评论(0) 推荐(0) 编辑
摘要: Partition List 分片列表, 记录 RDD 的分片, 可以在创建 RDD 的时候指定分区数目, 也可以通过算子来生成新的 RDD 从而改变分区数目 Compute Function 为了实现容错, 需要记录 RDD 之间转换所执行的计算函数 RDD Dependencies RDD 之间 阅读全文
posted @ 2021-11-06 17:42 胜天、半子 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 执行 RDD 的时候, 在执行到转换操作的时候, 并不会立刻执行, 直到遇见了 Action 操作, 才会触发真正的执行, 这个特点叫做 惰性求值 阅读全文
posted @ 2021-11-06 17:37 胜天、半子 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 为了让来自相同 Key 的所有数据都在 reduceByKey 的同一个 reduce 中处理, 需要执行一个 all-to-all 的操作, 需要在不同的节点(不同的分区)之间拷贝数据, 必须跨分区聚集相同 Key 的所有数据, 这个过程叫做 Shuffle. 阅读全文
posted @ 2021-10-18 15:03 胜天、半子 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 1. 两者都可以用来存储数据。Hadoop擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。而Hbase主要用来存储结构化和半结构化的松散数据。 2.与Hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加存储和处理能力,例如,把集群从10个节点扩展到20 阅读全文
posted @ 2021-08-12 09:16 胜天、半子 阅读(1287) 评论(0) 推荐(0) 编辑
摘要: * 匹配任意长度的任意字符 ?匹配任意单个字符 [ ]匹配制定范围内的单个字符[^]匹配制定范围外的单个字符 [:space:]匹配单个空白字符 [:punct:]匹配单个标点符号字符 [:lower:]匹配单个小写字母字符 [:upper:]匹配单个大写字母字符 [:digit:]匹配单个数字字符 阅读全文
posted @ 2021-07-26 15:38 胜天、半子 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 问题一: 绝对路径用什么符号表示?当前目录、上层目录用什么表示?主目录用什么表示? 切换目录用什么命令? 答案:绝对路径:如/etc/init.d当前目录和上层目录:./ ../主目录:~/切换目录:cd 问题二: 怎么查看当前进程?怎么执行退出?怎么查看当前路径?答案:查看当前进程:ps执行退出: 阅读全文
posted @ 2021-07-26 15:26 胜天、半子 阅读(65) 评论(0) 推荐(0) 编辑
摘要: shell中可能经常能看到:>/dev/null 2>&1 命令的结果可以通过%>的形式来定义输出 /dev/null 代表空设备文件> 代表重定向到哪里,例如:echo "123" > /home/123.txt1 表示stdout标准输出,系统默认值是1,所以">/dev/null"等同于"1> 阅读全文
posted @ 2021-07-26 15:19 胜天、半子 阅读(55) 评论(0) 推荐(0) 编辑