会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
谢耳朵的派森笔记
博客园
首页
新随笔
联系
订阅
管理
2020年12月28日
elasticsearch-hadoop.jar, 适用于spark3,hadoop3
摘要: 目前由于spark写es数据的不支持spark3,根据elasticsearch-hadoop项目下issue的内容编译了一个 链接:https://pan.baidu.com/s/1oGIgCOANsiF7R5bo9Kg1Zg 提取码:5up3
阅读全文
posted @ 2020-12-28 13:47 谢耳朵的派森笔记
阅读(473)
评论(0)
推荐(0)
2020年4月11日
shell中递归遍历指定文件夹下的文件
摘要: ls -1R "$1" | sed -n "/:$/h;/\([^:]\)$/{G;{s/\(.*\)\n\(.*[^/]\).\?\?:/\2\/\1/g;p}}" $1传入你想要遍历的路径。
阅读全文
posted @ 2020-04-11 10:56 谢耳朵的派森笔记
阅读(604)
评论(0)
推荐(0)
2019年11月6日
JDBC的ResultSet游标转spark的DataFrame,数据类型的映射以TeraData数据库为例
摘要: 使用场景: 在一些情况下,我们需要保持一个与数据库连接的connection,在没有写物理表权限或者没有必要写物理表时的现实场景用临时表替代物理表进行操作,临时表很多是基于Session的,Seesion间不能相互访问,断开后临时表自动清空,而spark自带的,read.format("jdbc")及jdbcRdd会自动释放Session会给我们带来一些不便,所以实现此脚本做变通解决。
阅读全文
posted @ 2019-11-06 10:17 谢耳朵的派森笔记
阅读(1418)
评论(0)
推荐(0)
2019年5月29日
Pandas一些小技巧
摘要: 有的很有用的Pandas用法时间久了容易忘记,做一个简单的记录供查询
阅读全文
posted @ 2019-05-29 10:58 谢耳朵的派森笔记
阅读(1210)
评论(0)
推荐(0)
2019年3月8日
用c++后缀自动机实现最大公共字符串算法,并封装成Python库
摘要: 后缀自动机的C++代码转自https://e-maxx.ru/algo/suffix_automata,其余封装为自写。 在C++文件同级目录建立setup.py文件,代码如下: 封装完后缀自动机的源码后,命令行编译、安装、卸载,安装后即可在Python里import调用: 包装模块的C++函数编写
阅读全文
posted @ 2019-03-08 16:53 谢耳朵的派森笔记
阅读(403)
评论(0)
推荐(0)
2019年2月27日
后缀自动机的python实现
摘要: 后缀自动机是强有力的数据结构,特别是在处理字符串问题时有着极为出色的性能表现,但是全网关于自动机的Python实现几乎没有,即参照俄国大神后缀机自动机的讲解https://e-maxx.ru/algo/suffix_automata,实现一个Python版本的在线构建算法,主要作学习之用。
阅读全文
posted @ 2019-02-27 16:51 谢耳朵的派森笔记
阅读(596)
评论(0)
推荐(0)
2018年12月29日
PYTHON调用C接口(基于Ctypes)实现stein算法最大公约数的计算
摘要: 有的时候,我们需要在python里较快的计算性能,尤其是在大数据运算、后端即时相应等应用场景,我们可以把含大量计算的部分用C语言实现,逻辑部分用python实现来解决问题
阅读全文
posted @ 2018-12-29 11:23 谢耳朵的派森笔记
阅读(379)
评论(0)
推荐(0)
2018年12月27日
基于teradata的python模块实现简易的客户端
摘要: 在用python调用Teradata时,原始的模块颗粒度较为底层,本模块主要封装Teradata_sql里常用的操作,使其承担Teradata简易的客户端的作用
阅读全文
posted @ 2018-12-27 17:23 谢耳朵的派森笔记
阅读(15)
评论(0)
推荐(0)
2018年11月27日
PYTHON加密解密字符串
摘要: 有时候我们需要对一些代码或者数据进行加密解密,AES加密是比较安全的主流对称加密算法,本文在于封装一个易用的,加密后密文显示短和友好的函数,采用的AES-128算法,CBC实现模式,理论上这部分函数可以轻易的改造成AES-256等加密以及不同模式的选择。
阅读全文
posted @ 2018-11-27 17:24 谢耳朵的派森笔记
阅读(1033)
评论(0)
推荐(0)
2018年11月11日
对极端值不敏感的归一化
摘要: 有时候我们想对一列值进行分类,又不想因为极值影响其大小,我们可以通过对档次进行排序后在归一
阅读全文
posted @ 2018-11-11 12:01 谢耳朵的派森笔记
阅读(430)
评论(0)
推荐(0)
2018年10月11日
pandas,apply并行计算的一个demo
摘要: 在pandas中,apply的时候是单进程的,在数据量大的时候,较为影响性能,这是一个婴儿级的pandas并行计算,谨慎使用。
阅读全文
posted @ 2018-10-11 18:17 谢耳朵的派森笔记
阅读(3841)
评论(0)
推荐(0)
2018年10月9日
判断点是否在区域的python实现(射线法)
摘要: 利用射线法判断点是否在区域内
阅读全文
posted @ 2018-10-09 08:23 谢耳朵的派森笔记
阅读(6243)
评论(2)
推荐(3)
2018年9月10日
python调试利器:最直观简洁的错误日志
摘要: 在调试的过程中,我们虽然能定位错误信息,但是颗粒度太大,太多时候报错的信息不够直观,不显示错误上抛过程中错误语句与函数参数或变量的值,本例封装了这样的函数,方便的输出log到控制台或者保存日志到文件,值得一试的调试利器。
阅读全文
posted @ 2018-09-10 00:20 谢耳朵的派森笔记
阅读(516)
评论(0)
推荐(0)
2018年8月14日
装饰器实现多线程多协程并发编程
摘要: python请求函数多线程协程并发编程的装饰器,只要duang的一小步,性能一大步,异步giao起来。
阅读全文
posted @ 2018-08-14 20:54 谢耳朵的派森笔记
阅读(1069)
评论(0)
推荐(0)
Python爬虫一些操作headers与cookies的便捷工具
摘要: 本篇文章主要是爬虫中请求头字符串与字典转换和cookie的操作
阅读全文
posted @ 2018-08-14 07:37 谢耳朵的派森笔记
阅读(1937)
评论(0)
推荐(0)
公告