淋哥 - 博客园

2017年10月28日

摘要： ==string 模块== ``string`` 模块提供了一些用于处理字符串类型的函数, 如 [Example 1-51 #eg-1-51] 所示. ====Example 1-51. 使用 string 模块====[eg-1-51] ``` File: string-example-1.py import string text = "Monty Python's Flyin... 阅读全文

posted @ 2017-10-28 21:56 淋哥阅读(840) 评论(0) 推荐(0)

python标准库介绍——3 stat 模块详解

摘要： == stat 模块 == [Example 1-50 #eg-1-50] 展示了 ``stat`` 模块的基本用法, 这个模块包含了一些 ``os.stat`` 函数中可用的常量和测试函数. ====Example 1-50. Using the stat Module====[eg-1-50] ``` File: stat-example-1.py import stat imp... 阅读全文

posted @ 2017-10-28 21:53 淋哥阅读(1536) 评论(0) 推荐(0)

python标准库介绍——2 os.path模块详解

摘要： == os.path 模块 == ``os.path`` 模块包含了各种处理长文件名(路径名)的函数. 先导入 (import) ``os`` 模块, 然后就可以以 ``os.path`` 访问该模块. === 处理文件名=== ``os.path`` 模块包含了许多与平台无关的处理长文件名的函数. 也就是说, 你不需要处理前后斜杠, 冒号等. 我们可以看看 [Example 1-... 阅读全文

posted @ 2017-10-28 21:51 淋哥阅读(1580) 评论(0) 推荐(0)

python标准库介绍——1 os详解

摘要： == os 模块 == ``os`` 模块为许多操作系统函数提供了统一的接口. 这个模块中的大部分函数通过对应平台相关模块实现, 比如 ``posix`` 和 ``nt. os`` 模块会在第一次导入的时候自动加载合适的执行模块. === 处理文件=== 内建的 ``open / file`` 函数用于创建, 打开和编辑文件, 如 [Example 1-27 #eg-1-27] 所示... 阅读全文

posted @ 2017-10-28 21:40 淋哥阅读(2158) 评论(0) 推荐(0)

2017年9月30日

Python 多进程一分钟下载二百张图片是什么样子的体验

摘要：需要爬取国内某个网站，但是这个网站封ip，没办法，只能用代理了，然后构建自己的代理池，代理池维护了20条进程，所用的网络是20M带宽，实际的网速能达到2.5M，考虑到其他原因，网速未必能达到那么多。爬虫对网速的要求挺高的。首先把 URL 图片的链接抓取下来保存到数据库中去，然后使用多进程进行阅读全文

posted @ 2017-09-30 17:03 淋哥阅读(1278) 评论(0) 推荐(1)

封ip对爬虫的影响

摘要：今天要聊的是封ip对爬虫的影响。我认为封ip能拒绝一部分网络请求，减轻服务器的压力，但是如果要是建立一个好的ip池，封对爬虫的影响不大。爬取国内一个拍卖公司的网站，刚开始用多进程下载，每分钟能爬取 1000个页面，后来不知怎么地，他封ip了，于是就去购买爬虫ip，建立自己的代理池，仅仅维护了二十阅读全文

posted @ 2017-09-30 15:58 淋哥阅读(756) 评论(0) 推荐(0)

多进程对 MySQL update的影响

摘要：今天要做数据清洗的时候，要更新一个数据库字段，考虑到用多进程去更新数据库，也许程序会跑得快一些，结果开了64个进程，结果是其他程序更新的时候，速度非常慢，最后发现的原因是，数据库中有64个SQL语句执行更新，这样就导致了对数据库进行增删改查的速度很慢。这是一个血的教训，所有以后的操作尽量少用多进阅读全文

posted @ 2017-09-30 14:46 淋哥阅读(1841) 评论(0) 推荐(0)

Python 爬虫数据提取

摘要：一下子运行七八十个 select 将会是什么样的体验呢？业务部门提供了一个需要，要求从爬虫数据中提取出88家的数据，并且也提供了一个excel表格，如下图：这个时候我们可以通过拍卖行，拍卖时间，拍卖会专场写SQL语句，单个SQL是这样写的。其中数据库表格的数据是540万，我们在建表的时候已经阅读全文

posted @ 2017-09-30 14:27 淋哥阅读(705) 评论(0) 推荐(0)

chromedriver 下载地址

摘要：重要的事情说三遍 chromedriver 下载地址 chromedriver 下载地址 chromedriver 下载地址 http://chromedriver.storage.googleapis.com/index.html 阅读全文

posted @ 2017-09-30 14:10 淋哥阅读(308) 评论(0) 推荐(0)

2017年9月28日

InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings In

摘要：出现这个错误的原因是：解决办法：添加两行代码禁用 urllib3 阅读全文

posted @ 2017-09-28 17:00 淋哥阅读(13525) 评论(1) 推荐(2)

requests 证书验证

摘要：今天在采集网页的时候发现请求连接之后，没有返回结果代码如下： url = 'https://skinnerinc-res.cloudinary.com/images//v1501706307/1165786/pair-of-karl-springer-style-table-' response 阅读全文

posted @ 2017-09-28 16:56 淋哥阅读(369) 评论(0) 推荐(0)

2017年9月24日

mysql 怎么给一个表一次增加多个字段， mysql 添加多个字段

摘要： sql 语句：阅读全文

posted @ 2017-09-24 23:31 淋哥阅读(12452) 评论(0) 推荐(0)

2017年7月29日

解决电脑需要切换IP带来的MySQL连接问题

摘要：直接上代码：该程序自动测试电脑的IP地址，然后根据IP地址生成 HOST 阅读全文

posted @ 2017-07-29 17:47 淋哥阅读(546) 评论(0) 推荐(0)

Python UNICODE GBK UTF-8 之间相互转换

摘要： Python 编码格式检测，可以使用 chardet ，例如：阅读全文

posted @ 2017-07-29 10:41 淋哥阅读(3722) 评论(0) 推荐(0)

scrapy 项目实战（一）----爬取雅昌艺术网数据

摘要：第一步：创建scrapy项目：第二步：创建一个爬虫第三步：项目结构：第四部：依次粘贴处各个文件的代码： 1. demo.py 文件验证码 2. items.py 文件 3. pipelines.py 4. setting.py 5. 爬虫数据库表格： 6.数据展示阅读全文

posted @ 2017-07-29 10:40 淋哥阅读(691) 评论(0) 推荐(0)

2017年7月27日

scrapy添加请求头

摘要：直接在 setting 文件中添加阅读全文

posted @ 2017-07-27 21:08 淋哥阅读(1270) 评论(0) 推荐(0)

解决 scrapy 爬虫出现Forbidden by robots.txt

摘要：我们在爬取网站的时候，scrapy 默认的是遵循 robots.txt 协议，怎么破解这个文件操作很简单，找到setting 文件直接改成阅读全文

posted @ 2017-07-27 21:08 淋哥阅读(1802) 评论(0) 推荐(0)

批量修改图像的大小 Python PIL

摘要： #-*-coding:utf-8-*- import os import os.path from PIL import Image import time def ResizeImage(filein, fileout, width, height, type): img = Image.open(filein) out = img.resize((width, height)... 阅读全文

posted @ 2017-07-27 21:06 淋哥阅读(946) 评论(0) 推荐(0)

Python Unicode 转换字符串

摘要：转换代码：输出结果是：阅读全文

posted @ 2017-07-27 21:06 淋哥阅读(2531) 评论(0) 推荐(0)

selenium 实现浏览器前进和后退

摘要： #coding=utf-8from selenium import webdriverdriver = webdriver.Chrome()driver.get("https://www.baidu.com/")driver.get("http://www.cnblogs.com/xuchunlin 阅读全文

posted @ 2017-07-27 21:04 淋哥阅读(2063) 评论(0) 推荐(0)

Python 算法（2）哈夫曼编码 Huffman Encoding

摘要：这个问题原始是用来实现一个可变长度的编码问题，但可以总结成这样一个问题，假设我们有很多的叶子节点，每个节点都有一个权值w(可以是任何有意义的数值，比如它出现的概率)，我们要用这些叶子节点构造一棵树，那么每个叶子节点就有一个深度d，我们的目标是使得所有叶子节点的权值与深度的乘积之和$$\Sigma w 阅读全文

posted @ 2017-07-27 21:01 淋哥阅读(7933) 评论(0) 推荐(3)

利用国内的源安装 Python第三方库

摘要：我们需要安装一些Python的第三方库，但是使用 pip install + 第三方库的时候，会出现下载速度慢的问题，当然我们也可以使用国内的源安装。例如：这样的话，速度提升的非常的快。阅读全文

posted @ 2017-07-27 21:01 淋哥阅读(1385) 评论(0) 推荐(0)

Python 算法（1）快速排序

摘要：快速排序（quickSort）快排的思想：首先任意选取一个数据（通常选用数组的第一个数）作为关键数据，然后将所有比它小的数都放到它前面，所有比它大的数都放到它后面，这个过程称为一趟快速排序。百度百科给的算法：一趟快速排序的算法是： 1）设置两个变量i、j，排序开始的时候：i=0，j=N-1；阅读全文

posted @ 2017-07-27 21:01 淋哥阅读(439) 评论(0) 推荐(0)

2017年7月26日

Python sql注入过滤字符串的非法字符

摘要： #coding:utf8 #在开发过程中，要对前端传过来的数据进行验证，防止sql注入攻击，其中的一个方案就是过滤用户传过来的非法的字符 def sql_filter(sql, max_length=20): dirty_stuff = ["\"", "\\", "/", "*", "'", "=", "-", "#", ";", "", "+", " 阅读全文

posted @ 2017-07-26 16:26 淋哥阅读(4673) 评论(1) 推荐(1)

2017年7月25日

python 多线程爬虫实例

摘要：多进程 Multiprocessing 模块 Process 类用来描述一个进程对象。创建子进程的时候，只需要传入一个执行函数和函数的参数即可完成 Process 示例的创建。 star() 方法启动进程， join() 方法实现进程间的同步，等待所有进程退出。 close() 用来阻止多余的进程涌阅读全文

posted @ 2017-07-25 19:20 淋哥阅读(1728) 评论(0) 推荐(1)

tesseract中文语言文件包下载

摘要： tesseract中文语言文件包下载 tesseract中文语言文件包下载 tesseract中文语言文件包下载下载地址是：https://github.com/tesseract-ocr/langdata 阅读全文

posted @ 2017-07-25 19:20 淋哥阅读(4603) 评论(2) 推荐(2)

Python 爬虫实例（5）—— 爬取爱奇艺视频电视剧的链接（2017-06-30 10:37）

摘要： 1. 我们找到爱奇艺电视剧的链接地址 http://list.iqiyi.com/www/2/ 11-1-1-iqiyi--.html 我们点击翻页发现爱奇艺的链接是这样的规律 http://list.iqiyi.com/www/2/ 11-2-1-iqiyi--.html http://list 阅读全文

posted @ 2017-07-25 19:11 淋哥阅读(8628) 评论(0) 推荐(0)

爬取 Caused by SSLError(SSLError("bad handshake: Error

摘要：对于这个错误，查看代码如下因为请求的是https 协议，所以请求禁用证书验证正常的代码是：阅读全文

posted @ 2017-07-25 19:11 淋哥阅读(14622) 评论(0) 推荐(1)

2017年7月20日

Django的ORM中如何判断查询结果是否为空，判断django中的orm为空

摘要： result= Booking.objects.filter() #方法一 .exists() if result.exists(): print "QuerySet has Data" else: print "QuerySet is empty" #方法二 .count()==0 if result.count() == 0: print "empty" ... 阅读全文

posted @ 2017-07-20 16:43 淋哥阅读(19222) 评论(1) 推荐(0)

2017年6月30日

Python 爬虫实例（4）—— 爬取网易新闻

摘要：自己闲来无聊，就爬取了网易信息，重点是分析网页，使用抓包工具详细的分析网页的每个链接，数据存储在sqllite中，这里只是简单的解析了新闻页面的文字信息，并未对图片信息进行解析仅供参考，不足之处请指正阅读全文

posted @ 2017-06-30 10:37 淋哥阅读(1857) 评论(0) 推荐(1)

英雄莫问出处,富贵当思缘由

公告