随笔分类 - Python
摘要:如何使用Python快速高效地统计出大文件的总行数, 下面是一些实现方法和性能的比较。 1.readline读所有行 使用readlines方法读取所有行: def readline_count(file_name): return len(open(file_name).readlines())
阅读全文
摘要:1. 依赖 的数据库交互通过 模块来实现, 使用前需要安装相关依赖: 2. 使用 使用 执行sql任务的一个简单例子: 3. 参数 接收几个参数: : 待执行的sql语句; : mysql数据库配置ID, Airflow的conn配置有两种配置方式,一是通过 来配置环境变量实现,二是通过web界面配
阅读全文
摘要:1. 简介 "Docker" 是目前主流IT公司广泛接受和使用的,用于构建、管理和保护它们应用程序的工具。 容器,例如Docker允许开发人员在单个操作系统上隔离和运行多个应用程序,而不是为服务器上的每个应用程序专用一个虚拟机。使用容器更轻量级,可以降低成本、更好地使用资源和发挥更高的性能。 本文将
阅读全文
摘要:简介 图片验证码识别的可以分为几个步骤,一般用 库或 来实现,这几个过程是: 1.灰度处理&二值化 2.降噪 3.字符分割 4.标准化 5.识别 所谓降噪就是把不需要的信息通通去除,比如背景,干扰线,干扰像素等等,只留下需要识别的字符,让图片变成2进制点阵,方便代入模型训练。 8邻域降噪 的前提是将
阅读全文
摘要:Operator——标准功能性操作符接口. 代码中使用迭代器时,有时必须要为一个简单表达式创建函数。有些情况这些函数可以用一个 函数实现,但是对于某些操作,根本没必要去写一个新的函数。因此 模块定义了一些函数,这些函数对应于算术、比较和其他与标准对象API对应的操作。 1.逻辑操作符(Logical
阅读全文
摘要:装饰器作用 "decorator" 是当今最流行的设计模式之一,很多使用它的人并不知道它是一种设计模式。这种模式有什么特别之处? 有兴趣可以看看 "Python Wiki" 上例子,使用它可以很方便地修改对象行为,通过使用类似例中的接口将修改动作封装在装饰对象中。 decorator 可以动态地修改
阅读全文
摘要:itertools 用于更高效地创建迭代器的函数工具。 提供的功能受Clojure,Haskell,APL和SML等函数式编程语言的类似功能的启发。它们的目的是快速有效地使用内存,并且将它们关联在一起以表示更复杂的基于迭代的算法。 基于迭代器的代码比使用列表的代码提供了更好的内存消耗特性。因为直到数
阅读全文
摘要:functools 作用于函数的函数 模块提供用于调整或扩展函数和其他可调用对象的工具,而无需完全重写它们。 装饰器 类是 模块提供的主要工具, 它可以用来“包装”一个可调用的对象的默认参数。它产生的对象本身是可调用的,可以看作是原生函数。它所有的参数都与原来的相同,并且可以使用额外的位置参数或命名
阅读全文
摘要:模块提供了用于在字节字符串和Python原生数据类型之间转换函数,比如数字和字符串。 Python版本: 2.x & 3.x 该模块作用是完成Python数值和C语言结构体的Python字符串形式间的转换。 这可以用于处理存储在文件中或从网络连接中存储的二进制数据,以及其他数据源。 1. 模块函数和
阅读全文
摘要:copy 对象拷贝模块;提供了浅拷贝和深拷贝复制对象的功能, 分别对应模块中的两个函数 和 。 1.浅拷贝(Shallow Copies) 创建的 _浅拷贝_ 是一个新的容器,它包含了对原始对象的内容的引用。也就是说仅拷贝父对象,不会拷贝对象的内部的子对象。即浅复制只复制对象本身,没有复制该对象所引
阅读全文
摘要:该模块作用是完成Python数值和C语言结构体的Python字符串形式间的转换。这可以用于处理存储在文件中或从网络连接中存储的二进制数据,以及其他数据源。 用途: 在Python基本数据类型和二进制数据之间进行转换 模块提供了用于在字节字符串和Python原生数据类型之间转换函数,比如数字和字符串。
阅读全文
摘要:因为Webdriver每次实例化都会新开一个全新的浏览器会话,在有些情况下需要复用之前打开未关闭的会话。比如爬虫,希望结束脚本时,让浏览器处于空闲状态。当脚本重新运行时,它将继续使用这个会话工作。还就是在做自动化测试时,前面做了一大推操作,但是由于程序出错,重启时不用再继续前面复杂的操作。 个人觉得
阅读全文
摘要:在使用pytesser做图片文字识别时遇到 错误,报错内容如下: WindowsError: [Error 2] 的意思是系统找不到指定的文件。 查看 中的代码,其实就是一个调用 识别图片的过程,其中代码如下: 就是调用 执行 , 这样会将识别结果写到out_filename的txt文件。这条命令你
阅读全文
摘要:本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。 什么是NLP? 简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。 这里讨论一些自然语言处理(NLP)的实
阅读全文
摘要:何为抽稀 在处理矢量化数据时,记录中往往会有很多重复数据,对进一步数据处理带来诸多不便。多余的数据一方面浪费了较多的存储空间,另一方面造成所要表达的图形不光滑或不符合标准。因此要通过某种规则,在保证矢量曲线形状不变的情况下, 最大限度地减少数据点个数,这个过程称为抽稀。 通俗的讲就是对曲线进行采样简
阅读全文
摘要:通常在读写文件之前,需要判断文件或目录是否存在,不然某些处理方法可能会使程序出错。所以最好在做任何操作之前,先判断文件是否存在。 这里将介绍三种判断文件或文件夹是否存在的方法,分别使用os模块、Try语句、pathlib模块。 1.使用os模块 os模块中的os.path.exists()方法用于检
阅读全文
摘要:事件调度 sched模块内容很简单,只定义了一个类。它用来最为一个通用的事件调度模块。 class sched.scheduler(timefunc, delayfunc)这个类定义了调度事件的通用接口,它需要外部传入两个参数,timefunc是一个没有参数的返回时间类型数字的函数(常用使用的如ti
阅读全文
摘要:PyCharm提供了文件和代码模板功能,可以利用此模板来快捷新建代码或文件。比如在PyCharm中新建一个html文件,新的文件并不是空的,而是会自动填充了一些基础的必备的内容,就像这样: <!DOCTYPE html> <html lang="en"> <head> <meta charset="
阅读全文
摘要:这个模块提供几个非常有用的Python容器类型 1.容器 名称功能描述 OrderedDict 保持了key插入顺序的dict namedtuple 生成可以使用名字来访问元素内容的tuple子类 Counter 计数器,主要用来计数 deque 类似于list的容器,可以快速的在队列头部和尾部添加
阅读全文
摘要:datetime模块提供了简单和复杂的方式用于操纵日期和时间的类。虽然支持日期和时间运算,但实现的重点是为了输出格式化和操作高效地提取属性。 1. 模块内容 内容描述 常量 datetime.MINYEAR date和datetime对象允许的最小年份 datetime.MAXYEAR date和d
阅读全文

浙公网安备 33010602011771号