摘要: 目前由于spark写es数据的不支持spark3,根据elasticsearch-hadoop项目下issue的内容编译了一个 链接:https://pan.baidu.com/s/1oGIgCOANsiF7R5bo9Kg1Zg 提取码:5up3 阅读全文
posted @ 2020-12-28 13:47 谢耳朵的派森笔记 阅读(445) 评论(0) 推荐(0) 编辑
摘要: ls -1R "$1" | sed -n "/:$/h;/\([^:]\)$/{G;{s/\(.*\)\n\(.*[^/]\).\?\?:/\2\/\1/g;p}}" $1传入你想要遍历的路径。 阅读全文
posted @ 2020-04-11 10:56 谢耳朵的派森笔记 阅读(571) 评论(0) 推荐(0) 编辑
摘要: 使用场景: 在一些情况下,我们需要保持一个与数据库连接的connection,在没有写物理表权限或者没有必要写物理表时的现实场景用临时表替代物理表进行操作,临时表很多是基于Session的,Seesion间不能相互访问,断开后临时表自动清空,而spark自带的,read.format("jdbc")及jdbcRdd会自动释放Session会给我们带来一些不便,所以实现此脚本做变通解决。 阅读全文
posted @ 2019-11-06 10:17 谢耳朵的派森笔记 阅读(1349) 评论(0) 推荐(0) 编辑
摘要: 有的很有用的Pandas用法时间久了容易忘记,做一个简单的记录供查询 阅读全文
posted @ 2019-05-29 10:58 谢耳朵的派森笔记 阅读(1174) 评论(0) 推荐(0) 编辑
摘要: 后缀自动机的C++代码转自https://e-maxx.ru/algo/suffix_automata,其余封装为自写。 在C++文件同级目录建立setup.py文件,代码如下: 封装完后缀自动机的源码后,命令行编译、安装、卸载,安装后即可在Python里import调用: 包装模块的C++函数编写 阅读全文
posted @ 2019-03-08 16:53 谢耳朵的派森笔记 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 后缀自动机是强有力的数据结构,特别是在处理字符串问题时有着极为出色的性能表现,但是全网关于自动机的Python实现几乎没有,即参照俄国大神后缀机自动机的讲解https://e-maxx.ru/algo/suffix_automata,实现一个Python版本的在线构建算法,主要作学习之用。 阅读全文
posted @ 2019-02-27 16:51 谢耳朵的派森笔记 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 有的时候,我们需要在python里较快的计算性能,尤其是在大数据运算、后端即时相应等应用场景,我们可以把含大量计算的部分用C语言实现,逻辑部分用python实现来解决问题 阅读全文
posted @ 2018-12-29 11:23 谢耳朵的派森笔记 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 在用python调用Teradata时,原始的模块颗粒度较为底层,本模块主要封装Teradata_sql里常用的操作,使其承担Teradata简易的客户端的作用 阅读全文
posted @ 2018-12-27 17:23 谢耳朵的派森笔记 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 有时候我们需要对一些代码或者数据进行加密解密,AES加密是比较安全的主流对称加密算法,本文在于封装一个易用的,加密后密文显示短和友好的函数,采用的AES-128算法,CBC实现模式,理论上这部分函数可以轻易的改造成AES-256等加密以及不同模式的选择。 阅读全文
posted @ 2018-11-27 17:24 谢耳朵的派森笔记 阅读(1003) 评论(0) 推荐(0) 编辑
摘要: 有时候我们想对一列值进行分类,又不想因为极值影响其大小,我们可以通过对档次进行排序后在归一 阅读全文
posted @ 2018-11-11 12:01 谢耳朵的派森笔记 阅读(419) 评论(0) 推荐(0) 编辑
摘要: 在pandas中,apply的时候是单进程的,在数据量大的时候,较为影响性能,这是一个婴儿级的pandas并行计算,谨慎使用。 阅读全文
posted @ 2018-10-11 18:17 谢耳朵的派森笔记 阅读(3707) 评论(0) 推荐(0) 编辑
摘要: 利用射线法判断点是否在区域内 阅读全文
posted @ 2018-10-09 08:23 谢耳朵的派森笔记 阅读(6060) 评论(2) 推荐(3) 编辑
摘要: 在调试的过程中,我们虽然能定位错误信息,但是颗粒度太大,太多时候报错的信息不够直观,不显示错误上抛过程中错误语句与函数参数或变量的值,本例封装了这样的函数,方便的输出log到控制台或者保存日志到文件,值得一试的调试利器。 阅读全文
posted @ 2018-09-10 00:20 谢耳朵的派森笔记 阅读(498) 评论(0) 推荐(0) 编辑
摘要: python请求函数多线程协程并发编程的装饰器,只要duang的一小步,性能一大步,异步giao起来。 阅读全文
posted @ 2018-08-14 20:54 谢耳朵的派森笔记 阅读(1021) 评论(0) 推荐(0) 编辑
摘要: 本篇文章主要是爬虫中请求头字符串与字典转换和cookie的操作 阅读全文
posted @ 2018-08-14 07:37 谢耳朵的派森笔记 阅读(1895) 评论(0) 推荐(0) 编辑