随笔分类 - Python
摘要:前提工作:识别图形验证码需要库tesserocr 把图形验证码保存到项目根目录,然后利用程序识别 方法1: 方法2:识别度较差 方法3:做一些灰度处理和二值化处理,推荐使用 注意: 使用这样的识别方法存在如下两种情况: 1.识别有误 2.完全识别不出来
阅读全文
摘要:在 Chrome 59 版本开始已经开始支持了 Headless 模式,也就是无界面模式,这样爬取的时候就不会弹出浏览器了,如果要使用此模式请把 Chrome 升级到 59 版本及以上,启用 Headless 模式的方式如下: 首先创建一个 ChromeOptions 对象,添加一个 headles
阅读全文
摘要:直接使用模拟浏览器运行的方式来实现,这样我们就可以做到浏览器看到是什么样,抓取的源码就是什么样,也就是可见即可爬。这样我们就不用再去管网页内部的 JavaScript 用了什么算法渲染页面,不用管网页后台的 Ajax 接口到底有哪些参数,利用模拟浏览器的方式我们都可以直接获取 JavaScript
阅读全文
摘要:前提条件: 安装并运行redis服务端程序,安装RedisPy库 说明:Redis 是 StrictRedis 的子类,它的主要功能是用于向后兼容旧版本库里的几个方法,官方推荐使用 StrictRedis。 1.连接 2.key操作 方法 作用 参数说明 示例 示例说明 示例结果 exists(na
阅读全文
摘要:1.连接MongoDB 连接 MongoDB 我们需要使用 PyMongo 库里面的 MongoClient,一般来说传入 MongoDB 的 IP 及端口即可,第一个参数为地址 host,第二个参数为端口 port,端口如果不传默认是 27017。 2.指定数据库 3.指定集合 MongoDB 的
阅读全文
摘要:1.连接并创建数据库 执行结果: Database version: ('5.7.23',) 结果是创建一个名为spiders的数据库 2.创建数据表 注意:这次连接数据库时需要指定创建数据表所在的数据库,也就是db参数的值 3.插入一条数据 通用写法: 这样一来,若是写入更多值的话直接给data字
阅读全文
摘要:5.1 文件存储 文件存储形式可以是多种多样的,比如可以保存成 TXT 纯文本形式,也可以保存为 Json 格式、CSV 格式等,本节我们来了解下文本文件的存储方式。 5.1.1 TXT文本存储 将数据保存到 TXT 文本的操作非常简单,而且 TXT 文本几乎兼容任何平台,但是有个缺点就是不利于检索,所以如果对检索和数据结构要求不高,追求方便第一的话,可以采用 TXT 文本存储,本节我们来看...
阅读全文
摘要:基于菜鸟教程实际操作后总结而来 Python MongoDB MongoDB 是目前最流行的 NoSQL 数据库之一,使用的数据类型 BSON(类似 JSON)。 MongoDB 数据库安装与介绍可以查看我们的 MongoDB 教程。 PyMongo Python 要连接 MongoDB 需要 Mo
阅读全文
摘要:比如使用命令行的方式查看数据库runoobdb中的sites集合(数据表)中的所有数据 1.在连接名的地方鼠标右键选择“open shell” 2.在出现的shell窗口中输入一下命令行,然后按ctrl+enter组合键执行命令 或者在数据库runoobdb处右键选择“open shell”,直接输
阅读全文
摘要:重难点:使用scrapy获取的数值是unicode类型,保存到json文件时需要特别注意处理一下,具体请参考链接:https://www.cnblogs.com/sanduzxcvbnm/p/10309401.html 稍加改造也能保存到csv文件中 网址:https://sobooks.net/
阅读全文
摘要:注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分 情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'author': u'\u51af\u53cb\u5170\u7b49', 'classificatio
阅读全文
摘要:一般我们运行爬虫程序都是使用命令行,比如:scrapy crwal sobook。不过这多少有些不方便,可以使用下面的方法使用IDE的方式运行爬虫 我这边使用的是pycharm软件,在pycharm里运行这个文件就相当于使用命令行运行爬虫了。
阅读全文
摘要:需要学习的知识: 1.获取到的json数据如何处理 2.保存到json文件 3.保存到MongoDB数据库 4.下载项目图片(含缩略图) 1.创建项目 scrapy startproject gank 2.生成项目爬虫文件 scrapy genspider gank_img gank.io 注意:项
阅读全文
摘要:本文转载自: https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/downloader-middleware.html https://doc.scrapy.org/en/latest/topics/downloader-middleware.
阅读全文
摘要:本文转载自以下链接: https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/item-pipeline.html https://doc.scrapy.org/en/latest/topics/item-pipeline.html 当Item在S
阅读全文
摘要:需要学习的地方: 1.Scrapy框架流程梳理,各文件的用途等 2.在Scrapy框架中使用MongoDB数据库存储数据 3.提取下一页链接,回调自身函数再次获取数据 重点:从当前页获取下一页的链接,传给函数自身继续发起请求 next = response.css('.pager .next a::
阅读全文
摘要:本文转载自以下链接:https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html 在本篇教程中,我们假定您已经安装好Scrapy。接下来以 Open Directory Project(dmoz) (dmoz) 为例来讲述爬取。
阅读全文
摘要:本文转载自以下链接:https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/commands.html Scrapy是通过 scrapy 命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。 对于子命令,我们称为 “command” 或者 “Scrapy commands”。 Scrapy tool ...
阅读全文
摘要:官方示例源码<html> <head> <base href='http://example.com/' /> <title>Example website</title> </head> <body> <div id='images'> <a href='image1.html'>Name: My
阅读全文
摘要:本文参考以下文章:https://www.yukunweb.com/2017/12/ubuntu-nginx-uwsgi-flask-app/ 需要学习的地方 nginx+uwsgi部署flask应用 一 nginx配置: server { listen 80; server_name 192.16
阅读全文

浙公网安备 33010602011771号