摘要: by 極光 MongoDB 是一款面向文档型的 NoSQL 数据库,是一个基于分布式文件存储的开源的非关系型数据库系统,其内容是以 K/V 形式存储,结构不固定,它的字段值可以包含其他文档、数组和文档数组等。其采用的 BSON(二进制 JSON )的数据结构,可以提高存储和扫描效率,但空间开销会有些 阅读全文
posted @ 2020-05-31 16:12 纯洁的微笑 阅读(1130) 评论(0) 推荐(0) 编辑
摘要: by 程序员野客 1 简介 SQLite 是一种轻型嵌入式关系型数据库,它包含在一个相对小的 C 库中。SQLite 占用资源低,处理速度快,它支持 Windows、Linux、Unix 等多种主流操作系统,支持 Python、Java、C# 等多种语言,目前的版本已经发展到了 SQLite3。 S 阅读全文
posted @ 2020-05-31 16:07 纯洁的微笑 阅读(1214) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 想爬取网站数据?先登录网站!对于大多数大型网站来说,想要爬取他们的数据,第一道门槛就是登录网站。下面请跟随我的步伐来学习如何模拟登陆网站。 为什么进行模拟登陆? 互联网上的网站分两种:需要登录和不需要登录。(这是一句废话!) 那么,对于不需要登录的网站,我们直接获取数据即可,简单省事。而 阅读全文
posted @ 2020-05-31 16:05 纯洁的微笑 阅读(1052) 评论(0) 推荐(0) 编辑
摘要: by 極光 Redis 作为常用的 NoSql 数据库,主要用于缓存数据,提高数据读取效率,那在 Python 中应该如果连接和操作 Redis 呢?今天就为大家简单介绍下,在 Python 中操作 Redis 常用命令。 安装 redis 首先还是需要先安装 redis 模块,使用如下命令: $ 阅读全文
posted @ 2020-05-31 15:56 纯洁的微笑 阅读(351) 评论(0) 推荐(0) 编辑
摘要: by 程序员野客 1 简介 newspaper 框架是一个主要用来提取新闻内容及分析的 Python 爬虫框架,更确切的说,newspaper 是一个 Python 库,但这个库由第三方开发。 newspaper 主要具有如下几个特点: 比较简洁 速度较快 支持多线程 支持多语言 GitHub 链接 阅读全文
posted @ 2020-05-31 15:52 纯洁的微笑 阅读(1427) 评论(0) 推荐(0) 编辑
摘要: by 極光 今天来为大家介绍一个有意思的开源微信个人号 API,它是基于 Python 调用微信网页版实现,只需要编写少量的代码,就可以完成一个能够处理所有信息的微信机器人。那它到底能实现了什么功能,接下来为大家一一介绍。 安装 想要使用它,首先得安装 itchat 模块: $ pip3 insta 阅读全文
posted @ 2020-05-31 15:50 纯洁的微笑 阅读(2624) 评论(1) 推荐(0) 编辑
摘要: by 某某白米饭 Pysider Pysider 是一个国人用 Python 编写的、带有强大的 WebUI 的网络爬虫系统,它支持多种数据库、任务监控、项目管理、结果查看、URL去重等强大的功能。 安装 pip3 install pysider 运行 命令行运行 pyspider 运行成功后,在浏 阅读全文
posted @ 2020-05-31 15:48 纯洁的微笑 阅读(681) 评论(0) 推荐(0) 编辑
摘要: by 戴景波 爬虫编写流程 首先明确 Python 爬虫代码编写的流程:先直接打开网页,找到你想要的数据,就是走一遍流程。比如这个项目我要爬取历史某一天所有比赛的赔率数据、每场比赛的比赛结果等。 那么我就先打开这个网址:https://live.leisu.com/wanchang?date=201 阅读全文
posted @ 2020-05-31 15:46 纯洁的微笑 阅读(1026) 评论(0) 推荐(0) 编辑
摘要: by 戴景波 Scrapy 框架实现爬虫的基本原理 Scrapy 就是封装好的框架,你可以专心编写爬虫的核心逻辑,无需自己编写与爬虫逻辑无关的代码,套用这个框架就可以实现以上功能——爬取到想要的数据。 Scrapy是一个Python实现的轻量级爬虫框架,它借助Twisted实现异步抓取。 Scrap 阅读全文
posted @ 2020-05-31 15:44 纯洁的微笑 阅读(853) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 Selenium 环境配置好之后,我们就可以使用 Selenium 来操作浏览器,做一些我们想做的事情了。在我们爬取网页过程中,经常发现我们想要获得的数据并不能简单的通过解析 HTML 代码获取,这些数据是通过 AJAX 异步加载方式或经过 JS 渲染后才呈现在页面上显示出来。这种情况下 阅读全文
posted @ 2020-05-31 15:43 纯洁的微笑 阅读(551) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 如果你做过 Web 测试的工作,那么你应该明白 Web 测试中最重要的一部分工作就是自动化测试。自动化测试,顾名思义就是让浏览器自动运行,而无需手动操作。这和我们爬虫工作原理有些相似,我们爬虫也需要让浏览器运行网址来获取我们需要的内容。所以我们今天来介绍一款自动化测试工具—— Selen 阅读全文
posted @ 2020-05-31 15:41 纯洁的微笑 阅读(380) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 PyQuery 库是一个非常强大又灵活的网页解析库,如果你有前端开发经验,那么你应该接触过 jQuery ,那么 PyQuery 就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现,语法与 jQuery 几乎完全相同。 安装 跟安装其他库一样: >>> 阅读全文
posted @ 2020-05-31 15:39 纯洁的微笑 阅读(517) 评论(0) 推荐(0) 编辑
摘要: by 豆豆 Beautiful Soup 简介 Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库,它提供了一些简单的操作方式来帮助你处理文档导航,查找,修改文档等繁琐的工作。因为使用简单,所以 Beautiful Soup 会帮你节省不少的工作时间 阅读全文
posted @ 2020-05-31 15:38 纯洁的微笑 阅读(461) 评论(0) 推荐(0) 编辑
摘要: by 豆豆 Beautiful Soup 简介 Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库,它提供了一些简单的操作方式来帮助你处理文档导航,查找,修改文档等繁琐的工作。因为使用简单,所以 Beautiful Soup 会帮你节省不少的工作时间 阅读全文
posted @ 2020-05-31 15:35 纯洁的微笑 阅读(670) 评论(0) 推荐(0) 编辑
摘要: by 某某白米饭 XPath 和 lxml XPath 全称为 Xml Path Language,即 Xml 路径语言,是一种在 Xml 文档中查找信息的语言。它提供了非常简洁的路径选择表达式,几乎所有的节点定位都可以用它来选择。 XPath 可以用于 Xml 和 Html,在爬虫中经常使用 XP 阅读全文
posted @ 2020-05-31 15:33 纯洁的微笑 阅读(764) 评论(0) 推荐(0) 编辑
摘要: by 某某白米饭 正则表达式是一个特殊的字符串序列、一种模式,用来判断字符串是否符合这种模式,如:判断邮件地址是否有 @ 符号,判断手机号是否正确等待。 基本语法 在正则表达式中,可以使用 \d 匹配数字,\w 匹配数字和子母,. 可以匹配除了换行符之外的任意字符,\s 匹配空白字符 1\d 可以匹 阅读全文
posted @ 2020-05-31 15:31 纯洁的微笑 阅读(530) 评论(0) 推荐(0) 编辑
摘要: by 轩辕御龙 HTTP 入门 HTTP,全称“超文本传输协议(HyperText Transfer Protocol)”,是构建我们今天所熟知的万维网的基础,也是我们在访问互联网时最常见的一种协议类型。 我们在打开一个网页的时候通常都会注意到网址的前面有一个统一的标识“http://”(或“htt 阅读全文
posted @ 2020-05-31 15:29 纯洁的微笑 阅读(518) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 上一篇我们介绍了 Requests 库的基本用法,学会之后大家就可以应付一般的请求了。这一篇我们接着介绍 Requests 的高级用法,以便应付一些棘手的问题。 会话维持 在 requests 中,直接使用 get() 或 post() 方法确实可以做到模拟网页的请求,但是这实际上是两个 阅读全文
posted @ 2020-05-31 15:26 纯洁的微笑 阅读(356) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。 介绍 首先让我们来看 Requests 官方的 阅读全文
posted @ 2020-05-31 15:24 纯洁的微笑 阅读(602) 评论(0) 推荐(0) 编辑
摘要: by 极光 今天来为大家介绍 Django 框架的模型部分,模型是真实数据的简单明确的描述,它包含了储存的数据所必要的字段和行为,Django 遵循 DRY Principle 。它的目标是你只需要定义数据模型,然后其它的杂七杂八代码你都不用关心,它们会自动从模型生成。 Django 模型 Djan 阅读全文
posted @ 2020-05-31 15:23 纯洁的微笑 阅读(396) 评论(0) 推荐(0) 编辑