个人博客转至:tybai.com

无聊就想打码,打码使我快乐


Fork me on GitHub

2018年9月28日

pandas的apply操作

摘要:pandas的apply操作类似于Scala的udf一样方便,假设存在如下 : 需要把 中, 与 一一对应,需要将 大于0.5的 取出来作为新的一列,如果小于0.5则不取出来: 得到结果为: PS:如果没有 将会出现错误: 阅读全文

posted @ 2018-09-28 11:13 TTyb 阅读 (242) 评论 (0) 编辑

pandas列合并为一行

摘要:将 利用 列合并为一行,类似于 的`GROUP_CONCAT dataframe` 想要变成如下形式: 利用 去实现就好, 里面可以用 实现,可以看这个 "Spark中SQL列合并为一行" ,而这里没有 只能用另外一种方式实现: 得到结果为: 而还有另外一种方式,但是可能会输出少了那么几列: 阅读全文

posted @ 2018-09-28 11:12 TTyb 阅读 (828) 评论 (0) 编辑

python将字符串类型list转换成list

摘要:python读取了一个list是字符串形式的'[11.23,23.34]',想转换成list类型: 方式一: 得到结果为: 方式二: 得到结果为: 阅读全文

posted @ 2018-09-28 11:11 TTyb 阅读 (2579) 评论 (0) 编辑

pandas操作

摘要:python中使用了pandas的一些操作,特此记录下来: 生成DataFrame 得到结果为: 按照逗号分隔并拼接 得到结果为: 筛选符合条件的行 得到结果为: 筛选不符合条件的行 import pandas as pd data = pd.DataFrame({ 'v_id': ["v_1", 阅读全文

posted @ 2018-09-28 11:10 TTyb 阅读 (27) 评论 (0) 编辑

numpy操作

摘要:python中使用了numpy的一些操作,特此记录下来: 生成矩阵,替换值 得到结果为: where查找 得到结果为: 增加一行或一列 得到结果为: 按行合并,按列合并 得到结果为: 删除行、列 得到结果为: ndarray转dataframe 得到结果为: 阅读全文

posted @ 2018-09-28 11:09 TTyb 阅读 (66) 评论 (0) 编辑

python将整数均分成N等分

摘要:在python中,需要将整数均分成N等分。python divide integers N equal parts sum 拆分整数 def split_integer(m, n): assert n 0 quotient = int(m / n) remainder = m % n if rema 阅读全文

posted @ 2018-09-28 11:07 TTyb 阅读 (1467) 评论 (0) 编辑

Windows7下安装pyspark

摘要:安装需要如下东西: java "jdk 8u181 windows x64.exe" spark "spark 2.1.3 bin hadoop2.7" hadoop(版本要与spark的一致,这里都是hadoop2.7) "hadoop 2.7.7" Anaconda(这个是为了预防python出 阅读全文

posted @ 2018-09-28 11:06 TTyb 阅读 (84) 评论 (0) 编辑

python的append insert extend pop del remove使用

摘要:对于 数组的操作,有插入和删除,下面介绍各个函数的功能: 插入 插入的函数有 、`insert extend` append 是在数组的末尾插入一个元素 ,如下代码为在数组 的末尾插入元素 : insert 是在 位置插入 一个元素,如下代码为在数组第 个位置插入元素 : extend 是在末尾插入 阅读全文

posted @ 2018-09-28 11:01 TTyb 阅读 (65) 评论 (0) 编辑

马尔科夫链

摘要:为了预测天气,假设观察多次后,得到天气变化的概率存在如下转换: 第一天|第二天|概率 : :|: :|: : 晴天|晴天|0.2 晴天|阴天|0.3 晴天|雨天|0.5 阴天|晴天|0.1 阴天|阴天|0.6 阴天|雨天|0.3 雨天|晴天|0.4 雨天|阴天|0.5 雨天|雨天|0.1 那么转移概 阅读全文

posted @ 2018-09-28 10:58 TTyb 阅读 (63) 评论 (0) 编辑

dataframe行变换为列

摘要:新建一个 : 需要将 的内容按照 分割,得到如下效果: 目前有两种方式实现。 方式一 使用 里面的函数,具体的方式可以看 "functions" : 方式二 使用 ,具体的方式可以看 "spark使用udf给dataFrame新增列" 阅读全文

posted @ 2018-09-28 10:57 TTyb 阅读 (170) 评论 (0) 编辑

scala获取某个时间间隔的时间

摘要:原始 : 还可以是 、 、 、 等等,打印结果如下: 阅读全文

posted @ 2018-09-28 10:56 TTyb 阅读 (551) 评论 (0) 编辑

导航


不用多久

我就会升职加薪

当上总经理

出任CEO

迎娶白富美

走上人生巅峰

Pulpit rock