摘要: ThreadPoolExecutor 详解 ThreadPoolExecutor 详解 一、概述 1、ThreadPoolExecutor作为java.util.concurrent包对外提供基础实现,以内部线程池的形式对外提供管理任务执行,线程调度,线程池管理等等服务; 2、Executors方法 阅读全文
posted @ 2019-03-28 17:37 吊车尾88 阅读(2256) 评论(0) 推荐(0)
摘要: scala中“=>”的4种使用场景 1. 表示函数的返回类型(Function Type) 函数double的类型就是 (x: Int) => Int 或者 Int => Int。左边是参数类型,右边是方法返回值类型。备注: 当函数只有一个参数的时候,函数类型里面括起来函数参数的括号是可以省略的。 阅读全文
posted @ 2019-03-26 14:12 吊车尾88 阅读(613) 评论(0) 推荐(0)
摘要: 校验yyyyMMddHHmmss 时间格式:yyyyMMddHHmmss.例如:20161213232255 校验yyyyMMdd 精确到日即可,即年月日,格式:yyyyMMdd,例如:20161213 校验yyyy-MM-dd 精确到日即可,即年月日,格式:yyyy-MM-dd,例如:2016-1 阅读全文
posted @ 2019-03-25 15:26 吊车尾88 阅读(19326) 评论(0) 推荐(1)
摘要: SimpleDateFormat 阅读全文
posted @ 2019-03-20 14:25 吊车尾88 阅读(4641) 评论(0) 推荐(0)
摘要: 直接上代码 阅读全文
posted @ 2019-03-14 15:53 吊车尾88 阅读(5901) 评论(0) 推荐(0)
摘要: 在对一个dataframe的多个列实现应用同一个函数时,是否能动态的指定? 例如: 对A,B,C三列实现分组统计 1.初始化spark,构建DF 2.静态实现 3. 动态实现 3.1 方法一:select 实现 3.2 方法二:foldLeft实现 阅读全文
posted @ 2019-03-14 15:47 吊车尾88 阅读(1296) 评论(0) 推荐(0)
摘要: 1. 递归读取文件名 1.1 递归实现读取文件名(scala + listFiles) 1.2 递归实现读取文件名(scala + listStatus) 注意:使用了全局buffer,以至于递归收集文件数目 1.3 列出某个目录读取文件名(scala) 2. 获取文件状态 2.1 HDFS文件的属 阅读全文
posted @ 2019-03-13 20:02 吊车尾88 阅读(1313) 评论(0) 推荐(0)
摘要: 1. 读取HDFS文件 1.1 字符读取HDFS上的文件 1.2 字节流读取HDFS文件内容(API) 1.2.1 字节数组读取 1.2.1 hadoop工具类读取 1.3 URL流读取HDFS文件(不常用) 2. 写入HDFS文件 2.1 字节写入HDFS文件 2.2 HDFS 文件中追加(app 阅读全文
posted @ 2019-03-13 19:56 吊车尾88 阅读(3477) 评论(0) 推荐(0)
摘要: Function一个可以进行高阶函数式编程的模块。 chain def chain[a](fs: Seq[(a) ? a]): (a) ? a 把一些列的方法串起来,挨个执行,每个方法的结果,回作为下一个方法的入参 const def const[T, U](x: T)(y: U): T 这是一个返 阅读全文
posted @ 2019-02-28 09:58 吊车尾88 阅读(392) 评论(0) 推荐(0)
摘要: 特征工程:特征抽象、特征衍生 特征抽象 这一步是针对有序和无序的文本分类型特征,采用不同的方法进行处理,将其类别属性数值化。 多值有序特征的属性数值映射,这步也包含了降维处理(对于高维类别变量),把类别抽象成模型可以识别的特征值。有序特征的映射,使用的方法是先构建一个映射字典mapping,再用pa 阅读全文
posted @ 2019-02-22 19:21 吊车尾88 阅读(2556) 评论(0) 推荐(0)