会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
英雄莫问出处,富贵当思缘由
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
16
下一页
2018年3月14日
python 爬虫 重复下载 二次请求
摘要: 在写爬虫的时候,难免会遇到报错,比如 4XX ,5XX,有些可能是网络的原因,或者一些其他的原因,这个时候我们希望程序去做第二次下载, 有一种很low的解决方案,比如是用 try except 有没有看起来更舒服的写法呢? 我们可以用递归实现这个过程 代码如下 输出结果:
阅读全文
posted @ 2018-03-14 10:50 淋哥
阅读(1029)
评论(0)
推荐(0)
2018年3月6日
TCP协议的三次握手四次挥手
摘要: IP协议、HTTP协议、TCP协议、TCP/IP 协议我们经常遇到,而且初学的时候容易弄混。那么他们之间有什么关系呢?重点内容 1、什么是TCP/IP 协议 TCP/IP不是一个协议,而是一个协议族的统称。里面包括IP协议、HTTP协议、TCP协议等。而三次握手四次挥手就发生在TCP协议中。 TCP
阅读全文
posted @ 2018-03-06 12:54 淋哥
阅读(234)
评论(0)
推荐(0)
2018年2月11日
Python 爬虫实例(12)—— python selenium 爬虫
摘要: # coding:utf-8 from common.contest import * def spider(): url = "http://www.salamoyua.com/es/subasta.aspx?origen=subastas&subasta=79" chromedriver = 'C:/Users/xuchunlin/AppData/Local/Google/C...
阅读全文
posted @ 2018-02-11 14:43 淋哥
阅读(2338)
评论(0)
推荐(0)
2018年2月8日
mysql 大数据提取
摘要: 解决程序运行了500s就完成了任务
阅读全文
posted @ 2018-02-08 17:12 淋哥
阅读(582)
评论(0)
推荐(0)
2018年1月21日
Python 爬虫实例(11)—— 爬虫 苏宁易购
摘要: # coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS...
阅读全文
posted @ 2018-01-21 23:05 淋哥
阅读(2880)
评论(0)
推荐(0)
2018年1月19日
Python 爬虫实例(10)—— 四行代码实现刷 博客园 阅读数量
摘要: 代码很少,自己去体会 代码不能运行,仅供参考。
阅读全文
posted @ 2018-01-19 09:33 淋哥
阅读(655)
评论(1)
推荐(0)
2018年1月18日
Python 爬虫实例(9)—— 搜索 爬取 淘宝
摘要: # coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS...
阅读全文
posted @ 2018-01-18 22:22 淋哥
阅读(3168)
评论(0)
推荐(1)
Python MySQLdb 批量插入 封装
摘要: 使用说明:
阅读全文
posted @ 2018-01-18 13:35 淋哥
阅读(2135)
评论(0)
推荐(0)
Python MySQLdb insert(插入) 封装
摘要: 使用说明:
阅读全文
posted @ 2018-01-18 13:29 淋哥
阅读(10472)
评论(0)
推荐(0)
Python MySQLdb select(选择) 封装
摘要: 对MySQL选择的封装
阅读全文
posted @ 2018-01-18 13:25 淋哥
阅读(1731)
评论(0)
推荐(0)
2018年1月8日
Python 爬虫实例(8)—— 爬取 动态页面
摘要: 今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图 源代码:
阅读全文
posted @ 2018-01-08 13:31 淋哥
阅读(11478)
评论(0)
推荐(0)
2018年1月6日
Python 爬虫实例(7)—— 爬取 新浪军事新闻
摘要: 我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码:
阅读全文
posted @ 2018-01-06 19:28 淋哥
阅读(1509)
评论(0)
推荐(0)
2018年1月4日
Beautiful Soup 解决爬虫编码格式问题,Beautiful Soup编码格式
摘要: 一。 为什么要用解析框架 bs4 我觉得爬虫最难得问题就是编码格式,因为你不知道要爬取目标网站的编码格式,有可能是Unicode,utf-8, ASCII , gbk格式,但是使用Beautiful Soup解析后,文档都被转换成了Unicode,通过Beautiful Soup输出文档时,不管输入
阅读全文
posted @ 2018-01-04 17:53 淋哥
阅读(2714)
评论(0)
推荐(0)
2018年1月3日
User-Agent 信息汇总(拿去就能用)
摘要: # encoding=utf-8 agents = [ "Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1", "Avant Browser/1.2.789...
阅读全文
posted @ 2018-01-03 10:55 淋哥
阅读(1066)
评论(0)
推荐(0)
2017年12月28日
基于tornado的爬虫并发问题
摘要: tornado中的coroutine是python中真正意义上的协程,与python3中的asyncio几乎是完全一样的,而且两者之间的future是可以相互转换的,tornado中有与asyncio相兼容的接口。 下面是利用tornado中的coroutine进行并发抓取的代码: 利用corout
阅读全文
posted @ 2017-12-28 14:42 淋哥
阅读(1055)
评论(0)
推荐(0)
python中decode和encode的区别
摘要: 7
阅读全文
posted @ 2017-12-28 14:42 淋哥
阅读(6386)
评论(0)
推荐(2)
Python 爬虫 不得不说的 清洗
摘要: 今天就聊聊爬虫的清洗,下载网页只是最简单的一个步骤,最让人头疼的是数据的清洗。 为什么要这样说呢,因为爬虫首先是获得数据,清洗是把非结构化的数据转换成结果化的数据,这个时候是最考验人的时候。 如果是国内的网站,清洗工作相对比较简单,因为国内的数据不是那么的凌乱,有一定的规则,我们清洗的时候需要写的规
阅读全文
posted @ 2017-12-28 14:42 淋哥
阅读(1972)
评论(0)
推荐(0)
Python——验证码识别 Pillow + tesseract-ocr
摘要: 至于安装教程在这里不再重复说了,可以参考博客,网上有大把的教程 https://blog.csdn.net/testcs_dn/article/details/78697730 要是别的验证码是如下类型的 Python 代码如下
阅读全文
posted @ 2017-12-28 14:41 淋哥
阅读(695)
评论(1)
推荐(0)
爬虫如何解决验证码的问题
摘要: 今天要聊的就是在爬虫遇到验证码,如何去解决。 1.前言:关于验证码,我觉得是很low逼的技术,但是很多面试官都会问到如何解决验证码,好像是能识别验证的就代表了爬虫工程师的技术很牛逼,相反,爬虫工程师就是菜鸟。我觉得以此来评价爬虫工程师的水平高低,是非常不合理的。 2. 网站为何要用验证码? 网站担心
阅读全文
posted @ 2017-12-28 14:30 淋哥
阅读(5222)
评论(1)
推荐(0)
Python Tensorflow CNN 识别验证码
摘要: Python+Tensorflow的CNN技术快速识别验证码 文章来源于: https://www.jianshu.com/p/26ff7b9075a1 验证码处理的流程是:验证码分析和处理—— tensorflow安装 —— 模型训练 —— 模型预测 需要的准备。 1. 安装TensorFlow
阅读全文
posted @ 2017-12-28 14:30 淋哥
阅读(1531)
评论(1)
推荐(0)
Python 爬虫 数据清洗 去掉 超链接
摘要: 有时候我们需要清洗数据,里面有超链接,怎么去掉他们,比如下面的问题 第一种方法: 用这则替换,把 href 替换为 hre1f 就可以了, 第二种方法: 记录下来,供以后学习参考
阅读全文
posted @ 2017-12-28 14:29 淋哥
阅读(4023)
评论(0)
推荐(0)
Python selenium 滚动条 详解
摘要: 在我们使用Python + selenium 爬虫的时候,会遇到如下报错,原因是 当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的。 这时候需要借助滚动条来拖动屏幕,使被操作的元素显示在当前的屏幕上。滚动条是无法直接用定位工具来定位的。selenium里面也没有直接
阅读全文
posted @ 2017-12-28 14:29 淋哥
阅读(1575)
评论(0)
推荐(0)
2017年12月21日
正则和xpath在网页中匹配字段的效率比较
摘要: 1. 测试页面是 https://www.hao123.com/,这个是百度的导航 2. 为了避免网络请求带来的差异,我们把网页下载下来,命名为html,不粘贴其代码。 3.测试办法: 我们在页面中找到 百度新闻 关键字的链接,为了能更好的对比,使程序运行10000次,比较时间差异: 1.正则编码及
阅读全文
posted @ 2017-12-21 11:08 淋哥
阅读(2939)
评论(0)
推荐(0)
2017年12月19日
Python 爬虫 大量数据清洗 ---- sql语句优化
摘要: 1. 问题描述 在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司, 并且要求字段 time(时间) 大于7月一号,小于10月31号。 2. 问题解决 我们首先想到的解决办法是添加索引,对拍卖公司字段添加索引,但是因为日期是大于7月1号,小于10月31号,在...
阅读全文
posted @ 2017-12-19 15:54 淋哥
阅读(1259)
评论(0)
推荐(0)
2017年11月30日
Python 运行效率为何低
摘要: 当我们提到一门编程语言的效率时:通常有两层意思,第一是开发效率,这是对程序员而言,完成编码所需要的时间;另一个是运行效率,这是对计算机而言,完成计算任务所需要的时间。编码效率和运行效率往往是鱼与熊掌的关系,是很难同时兼顾的。不同的语言会有不同的侧重,python语言毫无疑问更在乎编码效率,life
阅读全文
posted @ 2017-11-30 11:27 淋哥
阅读(19357)
评论(1)
推荐(1)
2017年11月10日
Python 爬虫编码格式问题 gb2312转换utf8
摘要: 遇到的问题是:爬取网页得到的结果如下(部分) 里面的中文出现乱码。 这是 结果:
阅读全文
posted @ 2017-11-10 15:32 淋哥
阅读(2090)
评论(0)
推荐(0)
2017年11月4日
python标准库介绍——37 signal 模块详解
摘要: ==signal 模块== 你可以使用 ``signal`` 模块配置你自己的信号处理器 (signal handler), 如 [Example 3-11 #eg-3-11] 所示. 当解释器收到某个信号时, 信号处理器会立即执行. ====Example 3-11. 使用 signal 模块====[eg-3-11] ``` File: signal-example-1.py ...
阅读全文
posted @ 2017-11-04 22:05 淋哥
阅读(1171)
评论(0)
推荐(0)
python标准库介绍——36 popen2 模块详解
摘要: ==popen2 模块== ``popen2`` 模块允许你执行外部命令, 并通过流来分别访问它的 ``stdin`` 和 ``stdout`` ( 可能还有 ``stderr`` ). 在 python 1.5.2 以及之前版本, 该模块只存在于 Unix 平台上. 2.0 后, Windows 下也实现了该函数. [Example 3-9 #eg-3-9] 展示了如何使用该模块来给...
阅读全文
posted @ 2017-11-04 22:04 淋哥
阅读(1891)
评论(0)
推荐(1)
python标准库介绍——35 pipes 模块详解
摘要: ==pipes 模块== (只用于 Unix) ``pipes`` 模块提供了 "转换管道 (conversion pipelines)" 的支持. 你可以创建包含许多外部工具调用的管道来处理多个文件. 如 [Example 3-8 #eg-3-8] 所示. ====Example 3-8. 使用 pipes 模块====[eg-3-8] ``` File: pipes-exampl...
阅读全文
posted @ 2017-11-04 22:03 淋哥
阅读(2252)
评论(0)
推荐(0)
python标准库介绍——34 commands 模块详解
摘要: ==commands 模块== (只用于 Unix) ``commands`` 模块包含一些用于执行外部命令的函数. [Example 3-7 #eg-3-7] 展示了这个模块. ====Example 3-7. 使用 commands 模块====[eg-3-7] ``` File: commands-example-1.py import commands stat, outp...
阅读全文
posted @ 2017-11-04 22:02 淋哥
阅读(848)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
16
下一页
公告