随笔列表第4页 - Convict

2021年6月14日

摘要： isna() 释义筛选为NaN的布尔值，可接受单个标量或者数组举例筛选stu_name为NaN的所有行： df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [16, 16, 15 阅读全文

posted @ 2021-06-14 18:11 Convict 阅读(320) 评论(0) 推荐(0) 编辑

Spark算子 - groupByKey

摘要：释义根据RDD中的某个属性进行分组，分组后形式为(k, [v1, v2, ...]) 方法签名如下： def groupByKey(): RDD[(K, Iterable[V])] = self.withScope { ... } 案例查看每个科目有哪些学生选择 object TestGroup 阅读全文

posted @ 2021-06-14 13:59 Convict 阅读(152) 评论(0) 推荐(0) 编辑

Spark算子 - groupBy

摘要：释义根据RDD中的某个属性进行分组，分组后形式为(k, [(k, v1), (k, v2), ...])，即groupBy 后组内元素会保留key值方法签名如下： def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Itera 阅读全文

posted @ 2021-06-14 13:25 Convict 阅读(1082) 评论(0) 推荐(0) 编辑

2021年6月13日

常见排序算法

摘要：一、冒泡排序百度百科 public static void bubbleSort(int[] ints) { for(int i = 0; i < ints.length - 1; i++) { for(int j = 0; j < ints.length - 1 - i; j++) { if ( 阅读全文

posted @ 2021-06-13 23:37 Convict 阅读(43) 评论(0) 推荐(0) 编辑

2021年6月11日

Ubuntu18关机时出现 A stop job is running for ...导致关机很慢

摘要： 1. 修改/etc/systemd/system.conf sudo vim /etc/systemd/system.conf 2. 找到一下两行 #DefaultTimeoutStartSec=90s #DefaultTimeoutStopSec=90s 3. 取消注释并修改为 DefaultTi 阅读全文

posted @ 2021-06-11 21:10 Convict 阅读(1577) 评论(0) 推荐(0) 编辑

2021年6月9日

Spark算子 - reduceByKey

摘要：释义 reduceByKey类似reduce，但reduceByKey 是先根据key进行分组，再将每个组内的记录归并成1个记录，最终返回一个PairRDD，k为key类型，v为每个组归并后的记录类型方法签名如下： def reduceByKey(func: (V, V) => V): RDD[( 阅读全文

posted @ 2021-06-09 22:03 Convict 阅读(341) 评论(0) 推荐(0) 编辑

2021年6月8日

Spark算子 - reduce

摘要：释义 reduce将partition内所有记录最终计算成1个记录，结果类型与reduce 时数据类型一致方法签名如下： def reduce(f: (T, T) => T): T = withScope { ... } f: 每个partition内，每每两条记录进行归并计算。输入类型为U跟U，阅读全文

posted @ 2021-06-08 19:51 Convict 阅读(454) 评论(0) 推荐(0) 编辑

2021年6月6日

Pandas常用操作 - 新增数据列

摘要：初始化测试数据 df = pd.DataFrame({'stu_name': ['Nancy', 'Tony', 'Tim', 'Jack', 'Lucy'], 'stu_age': [17, 16, 16, 21, 19]}) stu_name stu_age 0 Nancy 17 1 Tony 阅读全文

posted @ 2021-06-06 17:27 Convict 阅读(759) 评论(0) 推荐(0) 编辑

Pandas常用操作 - 去重

摘要： 1. 使用 drop_duplicates 去重 1.1 初始化数据 df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [16, 16, 15, np.nan, 21]}) stu_n 阅读全文

posted @ 2021-06-06 13:40 Convict 阅读(1531) 评论(0) 推荐(0) 编辑

2021年5月30日

Spark算子 - aggregateByKey

摘要：释义 aggregateByKey逻辑类似 aggregate，但 aggregateByKey针对的是PairRDD，即键值对 RDD，所以返回结果也是 PairRDD，结果形式为：(各个Key, 同样Key对应的Value聚合后的值) aggregateByKey先将每个partition内元素阅读全文

posted @ 2021-05-30 17:26 Convict 阅读(220) 评论(0) 推荐(0) 编辑

Loading

康威特冶楼

公告