上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 16 下一页
摘要: ==string 模块== ``string`` 模块提供了一些用于处理字符串类型的函数, 如 [Example 1-51 #eg-1-51] 所示. ====Example 1-51. 使用 string 模块====[eg-1-51] ``` File: string-example-1.py import string text = "Monty Python's Flyin... 阅读全文
posted @ 2017-10-28 21:56 淋哥 阅读(836) 评论(0) 推荐(0)
摘要: == stat 模块 == [Example 1-50 #eg-1-50] 展示了 ``stat`` 模块的基本用法, 这个模块包含了一些 ``os.stat`` 函数中可用的常量和测试函数. ====Example 1-50. Using the stat Module====[eg-1-50] ``` File: stat-example-1.py import stat imp... 阅读全文
posted @ 2017-10-28 21:53 淋哥 阅读(1526) 评论(0) 推荐(0)
摘要: == os.path 模块 == ``os.path`` 模块包含了各种处理长文件名(路径名)的函数. 先导入 (import) ``os`` 模块, 然后就可以以 ``os.path`` 访问该模块. === 处理文件名=== ``os.path`` 模块包含了许多与平台无关的处理长文件名的函数. 也就是说, 你不需要处理前后斜杠, 冒号等. 我们可以看看 [Example 1-... 阅读全文
posted @ 2017-10-28 21:51 淋哥 阅读(1576) 评论(0) 推荐(0)
摘要: == os 模块 == ``os`` 模块为许多操作系统函数提供了统一的接口. 这个模块中的大部分函数通过对应平台相关模块实现, 比如 ``posix`` 和 ``nt. os`` 模块会在第一次导入的时候自动加载合适的执行模块. === 处理文件=== 内建的 ``open / file`` 函数用于创建, 打开和编辑文件, 如 [Example 1-27 #eg-1-27] 所示... 阅读全文
posted @ 2017-10-28 21:40 淋哥 阅读(2152) 评论(0) 推荐(0)
摘要: 需要爬取国内某个网站,但是这个网站封ip,没办法,只能用代理了,然后构建自己的代理池,代理池维护了20条进程, 所用的网络是20M带宽,实际的网速能达到2.5M,考虑到其他原因,网速未必能达到那么多。爬虫对网速的要求挺高的。 首先把 URL 图片的链接 抓取下来 保存到数据库中去,然后使用多进程进行 阅读全文
posted @ 2017-09-30 17:03 淋哥 阅读(1268) 评论(0) 推荐(1)
摘要: 今天要聊的是封ip对爬虫的影响。我认为封ip能拒绝一部分网络请求,减轻服务器的压力,但是如果要是建立一个好的ip池,封对爬虫的影响不大。 爬取国内一个拍卖公司的网站,刚开始用多进程下载,每分钟能爬取 1000个页面,后来不知怎么地,他封ip了,于是就去购买爬虫ip,建立自己的代理池, 仅仅维护了二十 阅读全文
posted @ 2017-09-30 15:58 淋哥 阅读(752) 评论(0) 推荐(0)
摘要: 今天要做数据清洗的时候,要更新一个数据库字段,考虑到用多进程去更新数据库,也许程序会跑得快一些,结果开了64个进程, 结果是其他程序更新的时候,速度非常慢,最后发现的原因是,数据库中有64个SQL语句执行更新,这样就导致了对数据库进行增删改查的速度很慢。 这是一个血的教训,所有以后的操作尽量少用多进 阅读全文
posted @ 2017-09-30 14:46 淋哥 阅读(1835) 评论(0) 推荐(0)
摘要: 一下子运行 七八十个 select 将会是什么样的体验呢? 业务部门提供了一个需要,要求从爬虫数据中提取出88家的数据, 并且也提供了一个excel表格,如下图: 这个时候我们可以通过拍卖行,拍卖时间,拍卖会专场写SQL语句,单个SQL是这样写的。其中数据库表格的数据是540万,我们在建表的时候已经 阅读全文
posted @ 2017-09-30 14:27 淋哥 阅读(687) 评论(0) 推荐(0)
摘要: 重要的事情说三遍 chromedriver 下载地址 chromedriver 下载地址 chromedriver 下载地址 http://chromedriver.storage.googleapis.com/index.html 阅读全文
posted @ 2017-09-30 14:10 淋哥 阅读(301) 评论(0) 推荐(0)
摘要: 出现这个错误的原因是: 解决办法: 添加两行代码 禁用 urllib3 阅读全文
posted @ 2017-09-28 17:00 淋哥 阅读(13516) 评论(1) 推荐(2)
摘要: 今天在采集网页的时候 发现请求连接之后,没有返回结果 代码如下: url = 'https://skinnerinc-res.cloudinary.com/images//v1501706307/1165786/pair-of-karl-springer-style-table-' response 阅读全文
posted @ 2017-09-28 16:56 淋哥 阅读(365) 评论(0) 推荐(0)
摘要: sql 语句: 阅读全文
posted @ 2017-09-24 23:31 淋哥 阅读(12447) 评论(0) 推荐(0)
摘要: 直接上代码: 该程序自动测试电脑的IP地址,然后根据IP地址生成 HOST 阅读全文
posted @ 2017-07-29 17:47 淋哥 阅读(541) 评论(0) 推荐(0)
摘要: Python 编码格式检测,可以使用 chardet , 例如: 阅读全文
posted @ 2017-07-29 10:41 淋哥 阅读(3718) 评论(0) 推荐(0)
摘要: 第一步:创建scrapy项目: 第二步:创建一个爬虫 第三步:项目结构: 第四部:依次粘贴处各个文件的代码: 1. demo.py 文件验证码 2. items.py 文件 3. pipelines.py 4. setting.py 5. 爬虫数据库表格: 6.数据展示 阅读全文
posted @ 2017-07-29 10:40 淋哥 阅读(680) 评论(0) 推荐(0)
摘要: 直接在 setting 文件中添加 阅读全文
posted @ 2017-07-27 21:08 淋哥 阅读(1267) 评论(0) 推荐(0)
摘要: 我们在爬取网站的时候,scrapy 默认的是遵循 robots.txt 协议,怎么破解这个文件 操作很简单,找到setting 文件 直接改成 阅读全文
posted @ 2017-07-27 21:08 淋哥 阅读(1792) 评论(0) 推荐(0)
摘要: #-*-coding:utf-8-*- import os import os.path from PIL import Image import time def ResizeImage(filein, fileout, width, height, type): img = Image.open(filein) out = img.resize((width, height)... 阅读全文
posted @ 2017-07-27 21:06 淋哥 阅读(941) 评论(0) 推荐(0)
摘要: 转换代码: 输出结果是: 阅读全文
posted @ 2017-07-27 21:06 淋哥 阅读(2530) 评论(0) 推荐(0)
摘要: #coding=utf-8from selenium import webdriverdriver = webdriver.Chrome()driver.get("https://www.baidu.com/")driver.get("http://www.cnblogs.com/xuchunlin 阅读全文
posted @ 2017-07-27 21:04 淋哥 阅读(2058) 评论(0) 推荐(0)
摘要: 这个问题原始是用来实现一个可变长度的编码问题,但可以总结成这样一个问题,假设我们有很多的叶子节点,每个节点都有一个权值w(可以是任何有意义的数值,比如它出现的概率),我们要用这些叶子节点构造一棵树,那么每个叶子节点就有一个深度d,我们的目标是使得所有叶子节点的权值与深度的乘积之和$$\Sigma w 阅读全文
posted @ 2017-07-27 21:01 淋哥 阅读(7927) 评论(0) 推荐(3)
摘要: 快速排序(quickSort) 快排的思想:首先任意选取一个数据(通常选用数组的第一个数)作为关键数据,然后将所有比它小的数都放到它前面,所有比它大的数都放到它后面,这个过程称为一趟快速排序。 百度百科给的算法: 一趟快速排序的算法是: 1)设置两个变量i、j,排序开始的时候:i=0,j=N-1; 阅读全文
posted @ 2017-07-27 21:01 淋哥 阅读(432) 评论(0) 推荐(0)
摘要: 我们需要安装一些Python的第三方库,但是使用 pip install + 第三方库 的时候,会出现下载速度慢的问题,当然我们也可以使用国内的源安装。 例如: 这样的话,速度提升的非常的快。 阅读全文
posted @ 2017-07-27 21:01 淋哥 阅读(1381) 评论(0) 推荐(0)
摘要: #coding:utf8 #在开发过程中,要对前端传过来的数据进行验证,防止sql注入攻击,其中的一个方案就是过滤用户传过来的非法的字符 def sql_filter(sql, max_length=20): dirty_stuff = ["\"", "\\", "/", "*", "'", "=", "-", "#", ";", "", "+", " 阅读全文
posted @ 2017-07-26 16:26 淋哥 阅读(4663) 评论(1) 推荐(1)
摘要: 多进程 Multiprocessing 模块 Process 类用来描述一个进程对象。创建子进程的时候,只需要传入一个执行函数和函数的参数即可完成 Process 示例的创建。 star() 方法启动进程, join() 方法实现进程间的同步,等待所有进程退出。 close() 用来阻止多余的进程涌 阅读全文
posted @ 2017-07-25 19:20 淋哥 阅读(1722) 评论(0) 推荐(1)
摘要: tesseract中文语言文件包 下载 tesseract中文语言文件包 下载 tesseract中文语言文件包 下载 下载地址是:https://github.com/tesseract-ocr/langdata 阅读全文
posted @ 2017-07-25 19:20 淋哥 阅读(4581) 评论(2) 推荐(2)
摘要: 对于这个错误,查看代码如下 因为请求的是https 协议,所以请求禁用证书验证 正常的代码是: 阅读全文
posted @ 2017-07-25 19:11 淋哥 阅读(14615) 评论(0) 推荐(1)
摘要: 1. 我们找到 爱奇艺电视剧的链接地址 http://list.iqiyi.com/www/2/ 11-1-1-iqiyi--.html 我们点击翻页发现爱奇艺的链接是这样的规律 http://list.iqiyi.com/www/2/ 11-2-1-iqiyi--.html http://list 阅读全文
posted @ 2017-07-25 19:11 淋哥 阅读(8587) 评论(0) 推荐(0)
摘要: result= Booking.objects.filter() #方法一 .exists() if result.exists(): print "QuerySet has Data" else: print "QuerySet is empty" #方法二 .count()==0 if result.count() == 0: print "empty" ... 阅读全文
posted @ 2017-07-20 16:43 淋哥 阅读(19210) 评论(1) 推荐(0)
摘要: 自己闲来无聊,就爬取了网易信息,重点是分析网页,使用抓包工具详细的分析网页的每个链接,数据存储在sqllite中,这里只是简单的解析了新闻页面的文字信息,并未对图片信息进行解析 仅供参考,不足之处请指正 阅读全文
posted @ 2017-06-30 10:37 淋哥 阅读(1850) 评论(0) 推荐(1)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 16 下一页