淋哥 - 博客园

2018年9月6日

摘要：需求： str1 = " " 想把这段字符串的标签全部都去掉，比如去掉 </li>, </ul>, </div>.。只保留不带<>的内容，但是要保留<br/>，有什么好的办法吗？使用正则可以实现这个工作：输出结果是：阅读全文

posted @ 2018-09-06 16:39 淋哥阅读(7314) 评论(0) 推荐(0)

2018年8月10日

摘要：在这篇博文中手把手教你如何去分割验证，然后进行识别。一：下载验证码验证码分析，图片上有折线，验证码有数字，有英文字母大小写，分类的时候需要更多的样本，验证码的字母是彩色的，图片上有雪花等噪点，因此识别改验证码难度较大二：二值化和降噪：三：切割：四：分类：五：测试识别率六：总结：综阅读全文

posted @ 2018-08-10 17:55 淋哥阅读(21384) 评论(18) 推荐(4)

2018年8月6日

快速排序算法的两种实现思路(附源代码)

摘要：阅读全文

posted @ 2018-08-06 10:19 淋哥阅读(661) 评论(0) 推荐(0)

2018年8月3日

python 验证码识别示例（一）某个网站验证码识别

摘要：某个招聘网站的验证码识别，过程如下一：原始验证码：二：首先对验证码进行分析，该验证码的数字颜色有变化，这个就是识别这个验证码遇到的比较难的问题，解决方法是使用PIL 中的 getpixel 方法进行变色处理，统一把非黑色的像素点变成黑色变色后的图片三：通过观察，发现该验证码有折线，需要阅读全文

posted @ 2018-08-03 18:07 淋哥阅读(43703) 评论(5) 推荐(10)

2018年8月1日

爬虫大规模数据采集心得和示例

摘要：本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大：我觉得这个可能会因为每个人的理解不太一样，给出的定义也不相同。我认为定义一个采集网站的数据大小，不仅仅要看这个网站包括的数据量的大小，还应该包括这个网址的采集难度，采集网站的服务器承受能力，采集人员所调配的网络带宽和计算机阅读全文

posted @ 2018-08-01 11:52 淋哥阅读(4000) 评论(0) 推荐(0)

2018年7月30日

Python 爬虫实例（15）爬取百度百聘（微信公众号）

摘要：今天闲的无聊，爬取了一个网站，百度百聘，仅供学习参考直接上代码：这个网址没有什么难度，只需要简单的请求一下请求接口就能得到数据，注意请求参数 city 需要 URL编码一下就可以，不会的同学请自行百度 URL编码就可以了阅读全文

posted @ 2018-07-30 17:56 淋哥阅读(1807) 评论(0) 推荐(1)

2018年7月17日

爬虫修改下拉框

摘要：爬取某个网站，可以通过修改下拉框来实现数据批量加载上图我们可以看到 view 下面的下拉框的值是25 ,50 ,100 ,200。我们把200的值修改为5200，然后提交页面然后直接出来所有的数据，不在需要做翻页：爽不爽啊，请求的时候注意把cookie复制到请求头里面，有些网站是通过cook 阅读全文

posted @ 2018-07-17 15:57 淋哥阅读(2522) 评论(0) 推荐(0)

2018年7月10日

验证码识别之图像切割算法（三）连通域分割

摘要：切割前：切割后：代码：思路是用深度遍历，对图片进行二值化处理，先找到一个黑色像素，然后对这个像素的周围8个像素进行判断，如果没有访问过，就保存起来，然后最后这个数组的最小x和最大x就是x轴上的切割位置。这种分割的方法还是只能适用于没有粘连的验证码，比垂直分割的好处是，可以处理位置比较奇怪的验证阅读全文

posted @ 2018-07-10 18:30 淋哥阅读(5275) 评论(0) 推荐(0)

验证码识别之图像切割算法（二）

摘要：备注（易拍全球）切割前：切割后：切割前：切割后：好了，上代码：阅读全文

posted @ 2018-07-10 17:15 淋哥阅读(2010) 评论(0) 推荐(0)

2018年7月7日

验证码识别之图像切割算法（一）

摘要：原来验证码：切割前：切割后：切割前：切割后：切割前：切割后：切割前：切割后：切割前：切割后：直接上代码：说明：本切割算法适合验证码中的字母位置基本固定在一定的范围内，有比较好的切割效果阅读全文

posted @ 2018-07-07 16:52 淋哥阅读(4804) 评论(0) 推荐(0)

2018年7月5日

验证码识别图像降噪算法 Python (二）

摘要：处理器图像：处理后图像：代码：阅读全文

posted @ 2018-07-05 17:48 淋哥阅读(2087) 评论(0) 推荐(1)

2018年6月27日

验证码识别图像降噪 Python (一）

摘要：原始图片：降噪后的图片实现代码：阅读全文

posted @ 2018-06-27 15:59 淋哥阅读(5704) 评论(2) 推荐(1)

2018年6月24日

验证码识别一般思路

摘要：在计算机中彩色图片是由像素点组成，像素点由R(红)G(绿)B(蓝)三原色组成，在验证码识别过程中，一般把需要识别的字符称为前景，其他的称为背景灰度化：即将彩色图像转化为灰度图像，一般有以下三种方法 1）最大值法：命R、G、B的值等于三者中最大值，即R=G=B=max(R,G,B)，这种方法会形成亮阅读全文

posted @ 2018-06-24 00:50 淋哥阅读(683) 评论(0) 推荐(1)

2018年6月18日

爬虫对自己服务器 CPU，内存和网速的影响

摘要：今天无事写一遍关于爬虫对计算机的影响，主要是给小白同学普及一下爬虫的基础知识。在我们写爬虫的时候，首先会想到开多线程，如果使用的语言是Python，很不幸，因为Python存在 GIL,在任何时候，CPU内只有一条线程在运行，但是Python的多线程也能提高爬虫的速度，并且我们用python的多线阅读全文

posted @ 2018-06-18 15:51 淋哥阅读(6398) 评论(0) 推荐(2)

2018年6月8日

怎样将包含元组的列表转换为字典？

摘要：原始数据 [('firstid', '1'), ('language', 'g'), ('lastid', '199'), ('sale', '759'), ('saledate', '16. Mai 2018'), ('section', 'Moderne Kunst'), ('action', 阅读全文

posted @ 2018-06-08 18:17 淋哥阅读(3104) 评论(0) 推荐(0)

selenium 实现网页截图

摘要：使用webdriver提供的 save_screenshot 方法: 图片：阅读全文

posted @ 2018-06-08 10:04 淋哥阅读(1505) 评论(3) 推荐(0)

2018年6月5日

爬虫遇到的坑——发现你是爬虫抛出假数据

摘要：在爬取国外的某个网站的时候，刚开始他们是封ip，优化好ip池，准备大展身手的时候，数据顺利的爬取完毕后，发现数据有重复的。然后研究了一下，最后的原因是他们的后台发现是爬虫以后，直接给抛出假的数据。上证据：解决办法：每个ip的访问次数尽量的少，尽量用多的ip抓取，抓取速度尽量的慢一些。阅读全文

posted @ 2018-06-05 17:32 淋哥阅读(2144) 评论(0) 推荐(0)

2018年5月29日

Python 爬虫实例（15）爬取汽车之家（汽车授权经销商）

摘要：有人给我吹牛逼，说汽车之家反爬很厉害，我不服气，所以就爬取了一下这个网址。本片博客的目的是重点的分析定向爬虫的过程，希望读者能学会爬虫的分析流程。一：爬虫的目标：打开汽车之家的链接：https://www.autohome.com.cn/beijing/，出现如下页面我们的目标是点击找车，阅读全文

posted @ 2018-05-29 16:57 淋哥阅读(8206) 评论(2) 推荐(1)

2018年5月13日

Python 爬虫实例（14）爬取百度音乐

摘要： #-*-coding:utf-8-*- from common.contest import * import urllib def spider(): song_types = ['新歌','热歌','中国好声音','经典老歌','电视剧','广场舞','欧美','轻音乐','DJ 舞曲','80后','网络歌曲','劲爆','儿歌','纯音乐','粤语' 阅读全文

posted @ 2018-05-13 23:49 淋哥阅读(2661) 评论(0) 推荐(1)

2018年4月25日

取一个字符串的所有靠近前面的大写字母

摘要：比如有这样的字符串直接上代码阅读全文

posted @ 2018-04-25 16:27 淋哥阅读(556) 评论(0) 推荐(0)

爬虫配置文件

摘要： # coding:utf-8 import random, re import json, time import uuid from bs4 import BeautifulSoup import threading import requests import MySQLdb from lxml import etree from selenium import webdriver from... 阅读全文

posted @ 2018-04-25 13:32 淋哥阅读(646) 评论(0) 推荐(0)

2018年3月29日

爬虫过程中的数据插入问题及其解决方案

摘要：在爬虫的过程过，我们有时候往往是开多线程或者多进程或者是协程，有时间下载速度能达到2兆左右的数据，如果和这些数据插入到数据库中，使我们必须解决的问题：目前去搞个数据库集群或者其他的对硬件的方案，可能是大公司无所谓，小公司未必能通过老板那一关。我想说的是通过代码去解决数据插入的问题，主要简单的介绍两阅读全文

posted @ 2018-03-29 09:47 淋哥阅读(414) 评论(0) 推荐(0)

Python 爬虫实例（13）下载 m3u8 格式视频

摘要： Python requests 下载 m3u8 格式视频最近爬取一个视频网站，遇到 m3u8 格式的视频需要下载。抓包分析，视频文件是多个 ts 文件，什么是 ts文件，请去百度吧：附图：抓包分析过程直接把 ts文件请求下来，然后合并 ts文件，如果想把 ts文件转换 MP4 格式，请自行阅读全文

posted @ 2018-03-29 09:47 淋哥阅读(1884) 评论(0) 推荐(0)

MySQL 两个数据库表中合并数据

摘要：两个数据库表中合并数据如果有 t1 和 t2 两个数据库表格，它们两个对应的字段是相同的。如何将 t2 的数据插入到t1中去呢？ INSERT INTO domestic_auction_artron_2018_detail_info_1_4_all SELECT *FROM domestic_a 阅读全文

posted @ 2018-03-29 09:03 淋哥阅读(16508) 评论(2) 推荐(1)

HTTP 请求头详解

摘要：转载：https://kb.cnblogs.com/page/92320/ HTTP（HyperTextTransferProtocol）即超文本传输协议，目前网页传输的的通用协议。HTTP协议采用了请求/响应模型，浏览器或其他客户端发出请求，服务器给与响应。就整个网络资源传输而言，包括messag 阅读全文

posted @ 2018-03-29 09:02 淋哥阅读(712) 评论(0) 推荐(0)

爬虫的本质是什么？

摘要：来源于：http://www.sohu.com/a/168371748_714863 很多搞爬虫的总爱吹嘘分布式爬虫，仿佛只有分布式才有逼格，不是分布式简单不配叫爬虫，这是一种很肤浅的思想。分布式只是提高爬虫功能和效率的一个环节而已，它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理，如何稳阅读全文

posted @ 2018-03-29 09:02 淋哥阅读(1287) 评论(0) 推荐(0)

2018年3月21日

使用 MD5 加密去重对插入的影响

摘要：现在有3000条数据，需要插入到数据库中去，使用的是对链接进行MD5加密，阅读全文

posted @ 2018-03-21 13:53 淋哥阅读(995) 评论(0) 推荐(0)

2018年3月20日

Python 爬虫使用正则去掉不想要的网页元素

摘要：在做爬虫的时候，我们总是不想去看到网页的注释，或者是网页的一些其他元素，有没有好的办法去掉他们呢？例如：下面的问题针对这三种情况，可以试用正则 sub去提取信息运行结果是：阅读全文

posted @ 2018-03-20 15:20 淋哥阅读(1529) 评论(0) 推荐(0)

2018年3月19日

Python 图像下载解决图像损坏

摘要：在下载图片的过程中，经常会发现图片损坏，下面提供了两种解决方法：方法一：方法二：这两张方法都下载了一千多张图片作为测试，没有发现下载的图片加载到一半，或者其他错误。记录下来，仅供以后参考使用。阅读全文