会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
英雄莫问出处,富贵当思缘由
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
···
16
下一页
2018年9月6日
Python 字符串过滤
摘要: 需求: str1 = " " 想把 这段字符串的标签全部都去掉,比如去掉 </li>, </ul>, </div>.。只保留不带<>的内容,但是要保留<br/>, 有什么好的办法吗?使用正则可以实现这个工作: 输出结果是:
阅读全文
posted @ 2018-09-06 16:39 淋哥
阅读(7314)
评论(0)
推荐(0)
2018年8月10日
python 验证码识别示例(二) 复杂验证码识别
摘要: 在这篇博文中手把手教你如何去分割验证,然后进行识别。 一:下载验证码 验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大 二:二值化和降噪: 三: 切割: 四:分类: 五: 测试识别率 六:总结: 综
阅读全文
posted @ 2018-08-10 17:55 淋哥
阅读(21384)
评论(18)
推荐(4)
2018年8月6日
快速排序算法的两种实现思路(附源代码)
摘要:
阅读全文
posted @ 2018-08-06 10:19 淋哥
阅读(661)
评论(0)
推荐(0)
2018年8月3日
python 验证码识别示例(一) 某个网站验证码识别
摘要: 某个招聘网站的验证码识别,过程如下 一: 原始验证码: 二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的 getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色 变色后的图片 三: 通过观察,发现该验证码有折线,需要
阅读全文
posted @ 2018-08-03 18:07 淋哥
阅读(43703)
评论(5)
推荐(10)
2018年8月1日
爬虫 大规模数据 采集心得和示例
摘要: 本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大: 我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机
阅读全文
posted @ 2018-08-01 11:52 淋哥
阅读(4000)
评论(0)
推荐(0)
2018年7月30日
Python 爬虫实例(15) 爬取 百度百聘(微信公众号)
摘要: 今天闲的无聊,爬取了一个网站,百度百聘,仅供学习参考 直接上代码: 这个网址没有什么难度,只需要简单的请求一下请求接口就能得到数据,注意请求参数 city 需要 URL编码一下就可以,不会的同学请自行百度 URL编码 就可以了
阅读全文
posted @ 2018-07-30 17:56 淋哥
阅读(1807)
评论(0)
推荐(1)
2018年7月17日
爬虫 修改 下拉框
摘要: 爬取某个网站,可以通过修改下拉框来实现数据批量加载 上图我们可以看到 view 下面的下拉框 的值是25 ,50 ,100 ,200。我们把200的值修改为5200,然后提交页面 然后直接出来所有的数据,不在需要做翻页: 爽不爽啊,请求的时候注意把cookie复制到请求头里面,有些网站是通过cook
阅读全文
posted @ 2018-07-17 15:57 淋哥
阅读(2522)
评论(0)
推荐(0)
2018年7月10日
验证码识别之图像切割算法(三) 连通域分割
摘要: 切割前: 切割后: 代码: 思路是用深度遍历,对图片进行二值化处理,先找到一个黑色像素,然后对这个像素的周围8个像素进行判断,如果没有访问过,就保存起来,然后最后这个数组的最小x和最大x就是x轴上的切割位置。这种分割的方法还是只能适用于没有粘连的验证码,比垂直分割的好处是,可以处理位置比较奇怪的验证
阅读全文
posted @ 2018-07-10 18:30 淋哥
阅读(5275)
评论(0)
推荐(0)
验证码识别之图像切割算法(二)
摘要: 备注(易拍全球) 切割前: 切割后: 切割前: 切割后: 好了,上代码:
阅读全文
posted @ 2018-07-10 17:15 淋哥
阅读(2010)
评论(0)
推荐(0)
2018年7月7日
验证码识别之图像切割算法(一)
摘要: 原来验证码: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 直接上代码: 说明: 本切割算法适合验证码中的字母位置基本固定在一定的范围内,有比较好的切割效果
阅读全文
posted @ 2018-07-07 16:52 淋哥
阅读(4804)
评论(0)
推荐(0)
2018年7月5日
验证码识别 图像降噪 算法 Python (二)
摘要: 处理器图像: 处理后图像: 代码:
阅读全文
posted @ 2018-07-05 17:48 淋哥
阅读(2087)
评论(0)
推荐(1)
2018年6月27日
验证码识别 图像降噪 Python (一)
摘要: 原始图片: 降噪后的图片 实现代码:
阅读全文
posted @ 2018-06-27 15:59 淋哥
阅读(5704)
评论(2)
推荐(1)
2018年6月24日
验证码识别一般思路
摘要: 在计算机中彩色图片是由像素点组成,像素点由R(红)G(绿)B(蓝)三原色组成,在验证码识别过程中,一般把需要识别的字符称为前景,其他的称为背景 灰度化:即将彩色图像转化为灰度图像,一般有以下三种方法 1)最大值法:命R、G、B的值等于三者中最大值,即R=G=B=max(R,G,B),这种方法会形成亮
阅读全文
posted @ 2018-06-24 00:50 淋哥
阅读(683)
评论(0)
推荐(1)
2018年6月18日
爬虫对自己服务器 CPU,内存和网速的影响
摘要: 今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识。 在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线
阅读全文
posted @ 2018-06-18 15:51 淋哥
阅读(6398)
评论(0)
推荐(2)
2018年6月8日
怎样将包含元组的列表转换为字典?
摘要: 原始数据 [('firstid', '1'), ('language', 'g'), ('lastid', '199'), ('sale', '759'), ('saledate', '16. Mai 2018'), ('section', 'Moderne Kunst'), ('action',
阅读全文
posted @ 2018-06-08 18:17 淋哥
阅读(3104)
评论(0)
推荐(0)
selenium 实现网页截图
摘要: 使用webdriver提供的 save_screenshot 方法: 图片:
阅读全文
posted @ 2018-06-08 10:04 淋哥
阅读(1505)
评论(3)
推荐(0)
2018年6月5日
爬虫遇到的坑——发现你是爬虫抛出假数据
摘要: 在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下, 最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据: 解决办法: 每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。
阅读全文
posted @ 2018-06-05 17:32 淋哥
阅读(2144)
评论(0)
推荐(0)
2018年5月29日
Python 爬虫实例(15) 爬取 汽车之家(汽车授权经销商)
摘要: 有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址。 本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程。 一:爬虫的目标: 打开汽车之家的链接:https://www.autohome.com.cn/beijing/,出现如下页面 我们的目标是 点击找车,
阅读全文
posted @ 2018-05-29 16:57 淋哥
阅读(8206)
评论(2)
推荐(1)
2018年5月13日
Python 爬虫实例(14) 爬取 百度音乐
摘要: #-*-coding:utf-8-*- from common.contest import * import urllib def spider(): song_types = ['新歌','热歌','中国好声音','经典老歌','电视剧','广场舞','欧美','轻音乐','DJ 舞曲','80后','网络歌曲','劲爆','儿歌','纯音乐','粤语'
阅读全文
posted @ 2018-05-13 23:49 淋哥
阅读(2661)
评论(0)
推荐(1)
2018年4月25日
取一个字符串的所有靠近前面的大写字母
摘要: 比如有这样的字符串 直接上代码
阅读全文
posted @ 2018-04-25 16:27 淋哥
阅读(556)
评论(0)
推荐(0)
爬虫 配置文件
摘要: # coding:utf-8 import random, re import json, time import uuid from bs4 import BeautifulSoup import threading import requests import MySQLdb from lxml import etree from selenium import webdriver from...
阅读全文
posted @ 2018-04-25 13:32 淋哥
阅读(646)
评论(0)
推荐(0)
2018年3月29日
爬虫过程中的 数据插入 问题及其解决方案
摘要: 在爬虫的过程过,我们有时候往往是开多线程或者多进程或者是协程,有时间下载速度能达到2兆左右的数据,如果和这些数据插入到数据库中,使我们必须解决的问题: 目前去搞个数据库集群或者其他的对硬件的方案,可能是大公司无所谓,小公司未必能通过老板那一关。我想说的是通过代码去解决数据插入的问题,主要简单的介绍两
阅读全文
posted @ 2018-03-29 09:47 淋哥
阅读(414)
评论(0)
推荐(0)
Python 爬虫实例(13) 下载 m3u8 格式视频
摘要: Python requests 下载 m3u8 格式 视频 最近爬取一个视频网站,遇到 m3u8 格式的视频需要下载。 抓包分析,视频文件是多个 ts 文件,什么是 ts文件,请去百度吧: 附图:抓包分析过程 直接把 ts文件请求下来,然后合并 ts文件,如果想把 ts文件转换 MP4 格式,请自行
阅读全文
posted @ 2018-03-29 09:47 淋哥
阅读(1884)
评论(0)
推荐(0)
MySQL 两个数据库表中合并数据
摘要: 两个数据库表中合并数据 如果有 t1 和 t2 两个数据库表格,它们两个对应的字段是相同的。如何将 t2 的数据插入到t1中去呢? INSERT INTO domestic_auction_artron_2018_detail_info_1_4_all SELECT *FROM domestic_a
阅读全文
posted @ 2018-03-29 09:03 淋哥
阅读(16508)
评论(2)
推荐(1)
HTTP 请求头 详解
摘要: 转载:https://kb.cnblogs.com/page/92320/ HTTP(HyperTextTransferProtocol)即超文本传输协议,目前网页传输的的通用协议。HTTP协议采用了请求/响应模型,浏览器或其他客户端发出请求,服务器给与响应。就整个网络资源传输而言,包括messag
阅读全文
posted @ 2018-03-29 09:02 淋哥
阅读(712)
评论(0)
推荐(0)
爬虫的本质是什么?
摘要: 来源于:http://www.sohu.com/a/168371748_714863 很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。 分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳
阅读全文
posted @ 2018-03-29 09:02 淋哥
阅读(1287)
评论(0)
推荐(0)
2018年3月21日
使用 MD5 加密 去重对插入的影响
摘要: 现在有3000条数据,需要插入到数据库中去,使用的是对链接进行MD5加密,
阅读全文
posted @ 2018-03-21 13:53 淋哥
阅读(995)
评论(0)
推荐(0)
2018年3月20日
Python 爬虫 使用正则去掉不想要的网页元素
摘要: 在做爬虫的时候,我们总是不想去看到网页的注释,或者是网页的一些其他元素,有没有好的办法去掉他们呢? 例如:下面的问题 针对这三种情况,可以试用正则 sub去提取信息 运行结果是:
阅读全文
posted @ 2018-03-20 15:20 淋哥
阅读(1529)
评论(0)
推荐(0)
2018年3月19日
Python 图像下载解决图像损坏
摘要: 在下载图片的过程中,经常会发现图片损坏,下面提供了两种解决方法: 方法一: 方法二: 这两张方法都下载了一千多张图片作为测试,没有发现下载的图片加载到一半,或者其他错误。 记录下来,仅供以后参考使用。
阅读全文
posted @ 2018-03-19 10:05 淋哥
阅读(1640)
评论(0)
推荐(1)
2018年3月15日
Python 爬虫 解决escape问题
摘要: 爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是 亞洲私人珍藏 ;賣,令仝好分享他Ġ
阅读全文
posted @ 2018-03-15 14:06 淋哥
阅读(3483)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
16
下一页
公告