上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 16 下一页
摘要: ==tempfile 模块== [Example 2-6 #eg-2-6] 中展示的 ``tempfile`` 模块允许你快速地创建名称唯一的临时文件供使用. ====Example 2-6. 使用 tempfile 模块创建临时文件====[eg-2-6] ``` File: tempfile-example-1.py import tempfile import os tempf... 阅读全文
posted @ 2017-10-31 21:01 淋哥 阅读(3751) 评论(0) 推荐(1) 编辑
摘要: ``shutil`` 实用模块包含了一些用于复制文件和文件夹的函数. [Example 2-4 #eg-2-4] 中使用的 ``copy`` 函数使用和 Unix 下 ``cp`` 命令基本相同的方式复制一个文件. ====Example 2-4. 使用 shutil 复制文件====[eg-2-4] ``` File: shutil-example-1.py import shutil... 阅读全文
posted @ 2017-10-31 21:00 淋哥 阅读(1552) 评论(0) 推荐(0) 编辑
摘要: ``fileinput`` 模块允许你循环一个或多个文本文件的内容, 如 [Example 2-1 #eg-2-1] 所示. ====Example 2-1. 使用 fileinput 模块循环一个文本文件====[eg-2-1] ``` File: fileinput-example-1.py import fileinput import sys for line in filein... 阅读全文
posted @ 2017-10-31 20:58 淋哥 阅读(507) 评论(0) 推荐(0) 编辑
摘要: ==gc 模块== (可选, 2.0 及以后版本) ``gc`` 模块提供了到内建循环垃圾收集器的接口. Python 使用引用记数来跟踪什么时候销毁一个对象; 一个对象的最后一个引用一旦消失, 这个对象就会被销毁. 从 2.0 版开始, Python 还提供了一个循环垃圾收集器, 它每隔一段时间执行. 这个收集器查找指向自身的数据结构, 并尝试破坏循环. 如 [Example 1... 阅读全文
posted @ 2017-10-28 22:20 淋哥 阅读(1894) 评论(0) 推荐(0) 编辑
摘要: == types 模块== ``types`` 模块包含了标准解释器定义的所有类型的类型对象, 如 [Example 1-86 #eg-1-86] 所示. 同一类型的所有对象共享一个类型对象. 你可以使用 ``is`` 来检查一个对象是不是属于某个给定类型. ====Example 1-86. 使用 types 模块====[eg-1-86] ``` File: types-examp... 阅读全文
posted @ 2017-10-28 22:16 淋哥 阅读(4470) 评论(0) 推荐(0) 编辑
摘要: ==time 模块== ``time`` 模块提供了一些处理日期和一天内时间的函数. 它是建立在 C 运行时库的简单封装. 给定的日期和时间可以被表示为浮点型(从参考时间, 通常是 1970.1.1 到现在经过的秒数. 即 Unix 格式), 或者一个表示时间的 struct (类元组). === 获得当前时间=== [Example 1-79 #eg-1-79] 展示了如何使用... 阅读全文
posted @ 2017-10-28 22:15 淋哥 阅读(1334) 评论(0) 推荐(0) 编辑
摘要: === atexit 模块=== (用于2.0版本及以上) ``atexit`` 模块允许你注册一个或多个终止函数(暂且这么叫), 这些函数将在解释器终止前被自动调用. 调用 ``register`` 函数, 便可以将函数注册为终止函数, 如 [Example 1-78 #eg-1-78] 所示. 你也可以添加更多的参数, 这些将作为 ``exit`` 函数的参数传递. ===... 阅读全文
posted @ 2017-10-28 22:13 淋哥 阅读(1885) 评论(0) 推荐(0) 编辑
摘要: ==sys 模块== ``sys`` 模块提供了许多函数和变量来处理 Python 运行时环境的不同部分. === 处理命令行参数=== 在解释器启动后, ``argv`` 列表包含了传递给脚本的所有参数, 如 [Example 1-66 #eg-1-66] 所示. 列表的第一个元素为脚本自身的名称. ====Example 1-66. 使用sys模块获得脚本的参数====[eg-1... 阅读全文
posted @ 2017-10-28 22:11 淋哥 阅读(2471) 评论(0) 推荐(0) 编辑
摘要: ==copy 模块== ``copy`` 模块包含两个函数, 用来拷贝对象, 如 [Example 1-64 #eg-1-64] 所示. ``copy(object) => object`` 创建给定对象的 "浅/浅层(shallow)" 拷贝(copy). 这里 "浅/浅层(shallow)" 的意思是复制对象本身, 但当对象是一个容器 (container) 时, 它的成员仍然指... 阅读全文
posted @ 2017-10-28 22:09 淋哥 阅读(1356) 评论(0) 推荐(0) 编辑
摘要: ==operator 模块== ``operator`` 模块为 Python 提供了一个 "功能性" 的标准操作符接口. 当使用 ``map`` 以及 ``filter`` 一类的函数的时候, ``operator`` 模块中的函数可以替换一些 ``lambda`` 函式. 而且这些函数在一些喜欢写晦涩代码的程序员中很流行. [Example 1-62 #eg-1-62] 展示了 `... 阅读全文
posted @ 2017-10-28 22:01 淋哥 阅读(11422) 评论(2) 推荐(3) 编辑
摘要: [Example 1-61 #eg-1-61] 所展示的 ``cmath`` 模块包含了一些用于复数运算的函数. ====Example 1-61. 使用 cmath 模块====[eg-1-61] ``` File: cmath-example-1.py import cmath print "pi", "=>", cmath.pi print "sqrt(-1)", "=>",... 阅读全文
posted @ 2017-10-28 22:00 淋哥 阅读(1124) 评论(0) 推荐(0) 编辑
摘要: ==math 模块== ``math`` 模块实现了许多对浮点数的数学运算函数. 这些函数一般是对平台 C 库中同名函数的简单封装, 所以一般情况下, 不同平台下计算的结果可能稍微地有所不同, 有时候甚至有很大出入. [Example 1-60 #eg-1-60] 展示了如何使用 ``math`` 模块. ====Example 1-60. 使用 math 模块====[eg-1-60... 阅读全文
posted @ 2017-10-28 21:59 淋哥 阅读(1248) 评论(0) 推荐(0) 编辑
摘要: == re 模块== "Some people, when confronted with a problem, think 'I know, I'll use regular expressions.' Now they have two problems." - Jamie Zawinski, on comp.lang.emacs ``re`` 模块提... 阅读全文
posted @ 2017-10-28 21:58 淋哥 阅读(2183) 评论(0) 推荐(0) 编辑
摘要: ==string 模块== ``string`` 模块提供了一些用于处理字符串类型的函数, 如 [Example 1-51 #eg-1-51] 所示. ====Example 1-51. 使用 string 模块====[eg-1-51] ``` File: string-example-1.py import string text = "Monty Python's Flyin... 阅读全文
posted @ 2017-10-28 21:56 淋哥 阅读(813) 评论(0) 推荐(0) 编辑
摘要: == stat 模块 == [Example 1-50 #eg-1-50] 展示了 ``stat`` 模块的基本用法, 这个模块包含了一些 ``os.stat`` 函数中可用的常量和测试函数. ====Example 1-50. Using the stat Module====[eg-1-50] ``` File: stat-example-1.py import stat imp... 阅读全文
posted @ 2017-10-28 21:53 淋哥 阅读(1443) 评论(0) 推荐(0) 编辑
摘要: == os.path 模块 == ``os.path`` 模块包含了各种处理长文件名(路径名)的函数. 先导入 (import) ``os`` 模块, 然后就可以以 ``os.path`` 访问该模块. === 处理文件名=== ``os.path`` 模块包含了许多与平台无关的处理长文件名的函数. 也就是说, 你不需要处理前后斜杠, 冒号等. 我们可以看看 [Example 1-... 阅读全文
posted @ 2017-10-28 21:51 淋哥 阅读(1536) 评论(0) 推荐(0) 编辑
摘要: == os 模块 == ``os`` 模块为许多操作系统函数提供了统一的接口. 这个模块中的大部分函数通过对应平台相关模块实现, 比如 ``posix`` 和 ``nt. os`` 模块会在第一次导入的时候自动加载合适的执行模块. === 处理文件=== 内建的 ``open / file`` 函数用于创建, 打开和编辑文件, 如 [Example 1-27 #eg-1-27] 所示... 阅读全文
posted @ 2017-10-28 21:40 淋哥 阅读(2081) 评论(0) 推荐(0) 编辑
摘要: 需要爬取国内某个网站,但是这个网站封ip,没办法,只能用代理了,然后构建自己的代理池,代理池维护了20条进程, 所用的网络是20M带宽,实际的网速能达到2.5M,考虑到其他原因,网速未必能达到那么多。爬虫对网速的要求挺高的。 首先把 URL 图片的链接 抓取下来 保存到数据库中去,然后使用多进程进行 阅读全文
posted @ 2017-09-30 17:03 淋哥 阅读(1228) 评论(0) 推荐(1) 编辑
摘要: 今天要聊的是封ip对爬虫的影响。我认为封ip能拒绝一部分网络请求,减轻服务器的压力,但是如果要是建立一个好的ip池,封对爬虫的影响不大。 爬取国内一个拍卖公司的网站,刚开始用多进程下载,每分钟能爬取 1000个页面,后来不知怎么地,他封ip了,于是就去购买爬虫ip,建立自己的代理池, 仅仅维护了二十 阅读全文
posted @ 2017-09-30 15:58 淋哥 阅读(723) 评论(0) 推荐(0) 编辑
摘要: 今天要做数据清洗的时候,要更新一个数据库字段,考虑到用多进程去更新数据库,也许程序会跑得快一些,结果开了64个进程, 结果是其他程序更新的时候,速度非常慢,最后发现的原因是,数据库中有64个SQL语句执行更新,这样就导致了对数据库进行增删改查的速度很慢。 这是一个血的教训,所有以后的操作尽量少用多进 阅读全文
posted @ 2017-09-30 14:46 淋哥 阅读(1810) 评论(0) 推荐(0) 编辑
摘要: 一下子运行 七八十个 select 将会是什么样的体验呢? 业务部门提供了一个需要,要求从爬虫数据中提取出88家的数据, 并且也提供了一个excel表格,如下图: 这个时候我们可以通过拍卖行,拍卖时间,拍卖会专场写SQL语句,单个SQL是这样写的。其中数据库表格的数据是540万,我们在建表的时候已经 阅读全文
posted @ 2017-09-30 14:27 淋哥 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 重要的事情说三遍 chromedriver 下载地址 chromedriver 下载地址 chromedriver 下载地址 http://chromedriver.storage.googleapis.com/index.html 阅读全文
posted @ 2017-09-30 14:10 淋哥 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 出现这个错误的原因是: 解决办法: 添加两行代码 禁用 urllib3 阅读全文
posted @ 2017-09-28 17:00 淋哥 阅读(13318) 评论(1) 推荐(1) 编辑
摘要: 今天在采集网页的时候 发现请求连接之后,没有返回结果 代码如下: url = 'https://skinnerinc-res.cloudinary.com/images//v1501706307/1165786/pair-of-karl-springer-style-table-' response 阅读全文
posted @ 2017-09-28 16:56 淋哥 阅读(347) 评论(0) 推荐(0) 编辑
摘要: sql 语句: 阅读全文
posted @ 2017-09-24 23:31 淋哥 阅读(12427) 评论(0) 推荐(0) 编辑
摘要: 直接上代码: 该程序自动测试电脑的IP地址,然后根据IP地址生成 HOST 阅读全文
posted @ 2017-07-29 17:47 淋哥 阅读(529) 评论(0) 推荐(0) 编辑
摘要: Python 编码格式检测,可以使用 chardet , 例如: 阅读全文
posted @ 2017-07-29 10:41 淋哥 阅读(3634) 评论(0) 推荐(0) 编辑
摘要: 第一步:创建scrapy项目: 第二步:创建一个爬虫 第三步:项目结构: 第四部:依次粘贴处各个文件的代码: 1. demo.py 文件验证码 2. items.py 文件 3. pipelines.py 4. setting.py 5. 爬虫数据库表格: 6.数据展示 阅读全文
posted @ 2017-07-29 10:40 淋哥 阅读(617) 评论(0) 推荐(0) 编辑
摘要: 直接在 setting 文件中添加 阅读全文
posted @ 2017-07-27 21:08 淋哥 阅读(1257) 评论(0) 推荐(0) 编辑
摘要: 我们在爬取网站的时候,scrapy 默认的是遵循 robots.txt 协议,怎么破解这个文件 操作很简单,找到setting 文件 直接改成 阅读全文
posted @ 2017-07-27 21:08 淋哥 阅读(1685) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 16 下一页