上一页 1 ··· 54 55 56 57 58 59 60 61 62 ··· 81 下一页
摘要: 有时候我们需要在模块中动态加载方法或类,python内建了对这些需求的支持 example.py def my_sum(a, b): return a + b def my_sub(a, b): return a - b 同目录下的dynamic_import.py if __name__ == " 阅读全文
posted @ 2020-12-08 14:45 Mars.wang 阅读(1284) 评论(0) 推荐(0)
摘要: import contextlib import pyhdfs fs = pyhdfs.HdfsClient(hosts='name-node1:9870,name-node2:9870', user_name='hdfs') response = fs.open('/tmp/README.txt' 阅读全文
posted @ 2020-12-04 17:46 Mars.wang 阅读(1922) 评论(0) 推荐(0)
摘要: 最近工作中经常会有读取一个文件,对数据做相关处理并写入到另外一个文件的需求 当文件行数较少的时候,单进程顺序读取是没问题的,但是当文件行数过万,就需要消耗很客观的时间。 一、一次性读入,多进程处理 我最初想到的办法是多进程,最初的办法是一次性读取所有行,然后分配给多个进程处理,最终还是写入一个文件。 阅读全文
posted @ 2020-12-03 22:11 Mars.wang 阅读(679) 评论(0) 推荐(0)
摘要: 一般我们用python读取数据库的时候都是使用pymysql包,正常流程是根据连接四要素创建connection,通过connection建立curosr, 然后cusror.execute(sql),cursor.fetchall()获取结果数据。 但是当数据量非常大的时候,网络会是非常不稳定的因 阅读全文
posted @ 2020-11-28 08:47 Mars.wang 阅读(486) 评论(0) 推荐(0)
摘要: python读取文件有两个重要的方法f.tell()和f.seek() 通过这两个方法就可以实现文件的断点续传,tell可以实时返回读取文件的偏移量,seek可以直接跳转到这个偏移量 只要在异常中断之前将文件的偏移量记录下来,之后继续执行的时候就可以从这个偏移量开始读起, 备注:从中间开始移动指针在 阅读全文
posted @ 2020-11-27 21:11 Mars.wang 阅读(990) 评论(0) 推荐(0)
摘要: 如有一个可执行命令cmd,希望在python中执行,有几种方法 一、os.system(cmd) 这种方式之前有日志,突然没有了 二、os.popen(cmd) 下面这么写可以有日志 f = os.popen(cmd) print(f.read()) 三、subprocess.Popen(cmd) 阅读全文
posted @ 2020-11-26 20:32 Mars.wang 阅读(1410) 评论(0) 推荐(0)
摘要: 默认在airflow中每个task都是独立的进程,无法进行数据交换,但airflow还提供了一个XCom功能,以满足用户的类似需求 下面我们创建两个dag,其中一个push数据,一个pull数据,如下的dag中的task(push)执行完后会推送一条数据到xcom表,key=push ,value= 阅读全文
posted @ 2020-11-25 14:07 Mars.wang 阅读(2107) 评论(0) 推荐(0)
摘要: 一、python项目打包 python项目打包在项目的根目录下增加setup.py文件,基本格式如下 使用python setup.py install即可安装到本地 python3 setup.py bdist_wheel即可打包成.whl包 from setuptools import setu 阅读全文
posted @ 2020-11-13 09:22 Mars.wang 阅读(2933) 评论(0) 推荐(0)
摘要: git学习笔记 1.安装git,创建ssh key,把本地内容推送到远程git仓库 ssh-keygen -t rsa -C "youremail@example.com" # git remote add origin git@github.com:wangbin2188/databoard.gi 阅读全文
posted @ 2020-11-11 17:15 Mars.wang 阅读(110) 评论(0) 推荐(0)
摘要: jenkins是一个持续集成工具,是敏捷开发的好帮手,在jenkins出现以前,发布一个项目需要在本地打包,然后发布到服务器上,随着jar包的越来越大,发布变成了一个很痛苦的事情。 jenkins在内部集成了git/maven等插件,实时更新代码到服务器端,在服务器构建,极大提高了构建和发布的效率。 阅读全文
posted @ 2020-11-06 16:17 Mars.wang 阅读(133) 评论(0) 推荐(0)
上一页 1 ··· 54 55 56 57 58 59 60 61 62 ··· 81 下一页