上一页 1 2 3 4 5 6 ··· 10 下一页
摘要: by 程序员野客 1 简介 SQLite 是一种轻型嵌入式关系型数据库,它包含在一个相对小的 C 库中。SQLite 占用资源低,处理速度快,它支持 Windows、Linux、Unix 等多种主流操作系统,支持 Python、Java、C# 等多种语言,目前的版本已经发展到了 SQLite3。 S 阅读全文
posted @ 2020-05-31 16:07 纯洁的微笑 阅读(1230) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 想爬取网站数据?先登录网站!对于大多数大型网站来说,想要爬取他们的数据,第一道门槛就是登录网站。下面请跟随我的步伐来学习如何模拟登陆网站。 为什么进行模拟登陆? 互联网上的网站分两种:需要登录和不需要登录。(这是一句废话!) 那么,对于不需要登录的网站,我们直接获取数据即可,简单省事。而 阅读全文
posted @ 2020-05-31 16:05 纯洁的微笑 阅读(1077) 评论(0) 推荐(0) 编辑
摘要: by 極光 Redis 作为常用的 NoSql 数据库,主要用于缓存数据,提高数据读取效率,那在 Python 中应该如果连接和操作 Redis 呢?今天就为大家简单介绍下,在 Python 中操作 Redis 常用命令。 安装 redis 首先还是需要先安装 redis 模块,使用如下命令: $ 阅读全文
posted @ 2020-05-31 15:56 纯洁的微笑 阅读(353) 评论(0) 推荐(0) 编辑
摘要: by 程序员野客 1 简介 newspaper 框架是一个主要用来提取新闻内容及分析的 Python 爬虫框架,更确切的说,newspaper 是一个 Python 库,但这个库由第三方开发。 newspaper 主要具有如下几个特点: 比较简洁 速度较快 支持多线程 支持多语言 GitHub 链接 阅读全文
posted @ 2020-05-31 15:52 纯洁的微笑 阅读(1446) 评论(0) 推荐(0) 编辑
摘要: by 極光 今天来为大家介绍一个有意思的开源微信个人号 API,它是基于 Python 调用微信网页版实现,只需要编写少量的代码,就可以完成一个能够处理所有信息的微信机器人。那它到底能实现了什么功能,接下来为大家一一介绍。 安装 想要使用它,首先得安装 itchat 模块: $ pip3 insta 阅读全文
posted @ 2020-05-31 15:50 纯洁的微笑 阅读(2664) 评论(1) 推荐(0) 编辑
摘要: by 某某白米饭 Pysider Pysider 是一个国人用 Python 编写的、带有强大的 WebUI 的网络爬虫系统,它支持多种数据库、任务监控、项目管理、结果查看、URL去重等强大的功能。 安装 pip3 install pysider 运行 命令行运行 pyspider 运行成功后,在浏 阅读全文
posted @ 2020-05-31 15:48 纯洁的微笑 阅读(710) 评论(0) 推荐(0) 编辑
摘要: by 戴景波 爬虫编写流程 首先明确 Python 爬虫代码编写的流程:先直接打开网页,找到你想要的数据,就是走一遍流程。比如这个项目我要爬取历史某一天所有比赛的赔率数据、每场比赛的比赛结果等。 那么我就先打开这个网址:https://live.leisu.com/wanchang?date=201 阅读全文
posted @ 2020-05-31 15:46 纯洁的微笑 阅读(1037) 评论(0) 推荐(0) 编辑
摘要: by 戴景波 Scrapy 框架实现爬虫的基本原理 Scrapy 就是封装好的框架,你可以专心编写爬虫的核心逻辑,无需自己编写与爬虫逻辑无关的代码,套用这个框架就可以实现以上功能——爬取到想要的数据。 Scrapy是一个Python实现的轻量级爬虫框架,它借助Twisted实现异步抓取。 Scrap 阅读全文
posted @ 2020-05-31 15:44 纯洁的微笑 阅读(887) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 Selenium 环境配置好之后,我们就可以使用 Selenium 来操作浏览器,做一些我们想做的事情了。在我们爬取网页过程中,经常发现我们想要获得的数据并不能简单的通过解析 HTML 代码获取,这些数据是通过 AJAX 异步加载方式或经过 JS 渲染后才呈现在页面上显示出来。这种情况下 阅读全文
posted @ 2020-05-31 15:43 纯洁的微笑 阅读(559) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 如果你做过 Web 测试的工作,那么你应该明白 Web 测试中最重要的一部分工作就是自动化测试。自动化测试,顾名思义就是让浏览器自动运行,而无需手动操作。这和我们爬虫工作原理有些相似,我们爬虫也需要让浏览器运行网址来获取我们需要的内容。所以我们今天来介绍一款自动化测试工具—— Selen 阅读全文
posted @ 2020-05-31 15:41 纯洁的微笑 阅读(386) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 PyQuery 库是一个非常强大又灵活的网页解析库,如果你有前端开发经验,那么你应该接触过 jQuery ,那么 PyQuery 就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现,语法与 jQuery 几乎完全相同。 安装 跟安装其他库一样: >>> 阅读全文
posted @ 2020-05-31 15:39 纯洁的微笑 阅读(541) 评论(0) 推荐(0) 编辑
摘要: by 豆豆 Beautiful Soup 简介 Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库,它提供了一些简单的操作方式来帮助你处理文档导航,查找,修改文档等繁琐的工作。因为使用简单,所以 Beautiful Soup 会帮你节省不少的工作时间 阅读全文
posted @ 2020-05-31 15:38 纯洁的微笑 阅读(463) 评论(0) 推荐(0) 编辑
摘要: by 豆豆 Beautiful Soup 简介 Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库,它提供了一些简单的操作方式来帮助你处理文档导航,查找,修改文档等繁琐的工作。因为使用简单,所以 Beautiful Soup 会帮你节省不少的工作时间 阅读全文
posted @ 2020-05-31 15:35 纯洁的微笑 阅读(672) 评论(0) 推荐(0) 编辑
摘要: by 某某白米饭 XPath 和 lxml XPath 全称为 Xml Path Language,即 Xml 路径语言,是一种在 Xml 文档中查找信息的语言。它提供了非常简洁的路径选择表达式,几乎所有的节点定位都可以用它来选择。 XPath 可以用于 Xml 和 Html,在爬虫中经常使用 XP 阅读全文
posted @ 2020-05-31 15:33 纯洁的微笑 阅读(774) 评论(0) 推荐(0) 编辑
摘要: by 某某白米饭 正则表达式是一个特殊的字符串序列、一种模式,用来判断字符串是否符合这种模式,如:判断邮件地址是否有 @ 符号,判断手机号是否正确等待。 基本语法 在正则表达式中,可以使用 \d 匹配数字,\w 匹配数字和子母,. 可以匹配除了换行符之外的任意字符,\s 匹配空白字符 1\d 可以匹 阅读全文
posted @ 2020-05-31 15:31 纯洁的微笑 阅读(536) 评论(0) 推荐(0) 编辑
摘要: by 轩辕御龙 HTTP 入门 HTTP,全称“超文本传输协议(HyperText Transfer Protocol)”,是构建我们今天所熟知的万维网的基础,也是我们在访问互联网时最常见的一种协议类型。 我们在打开一个网页的时候通常都会注意到网址的前面有一个统一的标识“http://”(或“htt 阅读全文
posted @ 2020-05-31 15:29 纯洁的微笑 阅读(527) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 上一篇我们介绍了 Requests 库的基本用法,学会之后大家就可以应付一般的请求了。这一篇我们接着介绍 Requests 的高级用法,以便应付一些棘手的问题。 会话维持 在 requests 中,直接使用 get() 或 post() 方法确实可以做到模拟网页的请求,但是这实际上是两个 阅读全文
posted @ 2020-05-31 15:26 纯洁的微笑 阅读(359) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。 介绍 首先让我们来看 Requests 官方的 阅读全文
posted @ 2020-05-31 15:24 纯洁的微笑 阅读(608) 评论(0) 推荐(0) 编辑
摘要: by 极光 今天来为大家介绍 Django 框架的模型部分,模型是真实数据的简单明确的描述,它包含了储存的数据所必要的字段和行为,Django 遵循 DRY Principle 。它的目标是你只需要定义数据模型,然后其它的杂七杂八代码你都不用关心,它们会自动从模型生成。 Django 模型 Djan 阅读全文
posted @ 2020-05-31 15:23 纯洁的微笑 阅读(398) 评论(0) 推荐(0) 编辑
摘要: by 极光 今天来为大家介绍 Python 另一个 Web 开发框架 Django,它是一个基于 Python 定制的开源 Web 应用框架,最早源于一个在线新闻 Web 网站,后于2005年开源。Django 的功能大而全,它提供的一站式解决的思路,能让开发者不用在开发之前就在选择应用的基础设施上 阅读全文
posted @ 2020-05-31 15:21 纯洁的微笑 阅读(476) 评论(0) 推荐(0) 编辑
摘要: by 太阳雪 用户登录功能是 Web 系统一个基本功能,是为用户提供更好服务的基础,在 Flask 框架中怎么做用户登录功能呢?今天我们学习一下 Flask 的用户登录组件 Flask-Login Python 之所以如此强大和流行,除了本身易于学习和功能丰富之外,最重要的是因为各种类库和组件,可以 阅读全文
posted @ 2020-05-31 15:18 纯洁的微笑 阅读(25223) 评论(2) 推荐(1) 编辑
摘要: urllib 是一个 python 内置包,不需要额外安装即可使用,包里面包含了以下几个用来处理 url 的模块: urllib.request,用来打开和读取 url,意思就是可以用它来模拟发送请求,就像在浏览器里输入网址然后敲击回车一样,获取网页响应内容。 urllib.error,用来处理 u 阅读全文
posted @ 2020-05-31 15:17 纯洁的微笑 阅读(522) 评论(0) 推荐(0) 编辑
摘要: by 闲欢 作为程序员,相信大家对“爬虫”这个词并不陌生,身边常常会有人提这个词,在不了解它的人眼中,会觉得这个技术很高端很神秘。不用着急,我们的爬虫系列就是带你去揭开它的神秘面纱,探寻它真实的面目。 爬虫是什么 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的 阅读全文
posted @ 2020-05-31 15:15 纯洁的微笑 阅读(437) 评论(0) 推荐(0) 编辑
摘要: by 某某白米饭 Event(事件) Event 是一个事务处理的机制,用于通知多个异步任务某个事件已经发生了。比如在交通红绿灯中多辆在行驶中的汽车可以表示成程序中的多个异步任务,红绿灯的亮起可以表示成一个通知,红灯通知这个汽车的行驶任务必须停止了,绿灯通知这个汽车的行驶任务可以继续驾驶了。 Eve 阅读全文
posted @ 2020-05-31 15:13 纯洁的微笑 阅读(315) 评论(0) 推荐(0) 编辑
摘要: by 豆豆 大家都知道当任务过多,任务量过大时如果想提高效率的一个最简单的方法就是用多线程去处理,比如爬取上万个网页中的特定数据,以及将爬取数据和清洗数据的工作交给不同的线程去处理,也就是生产者消费者模式,都是典型的多线程使用场景。 那是不是意味着线程数量越多,程序的执行效率就越快呢。 显然不是。线 阅读全文
posted @ 2020-05-31 15:09 纯洁的微笑 阅读(3128) 评论(0) 推荐(0) 编辑
摘要: by 千阳 本节主要介绍 multiprocessing 多进程模块,由于 threading 多线程模块无法充分利用电脑的多核优势,而在实际开发中会对系统性能有较高的要求,就需要使用多进程来充分利用多核 cpu 的资源,下面详细介绍 Python 中的 multiprocessing。 multi 阅读全文
posted @ 2020-05-31 15:07 纯洁的微笑 阅读(526) 评论(0) 推荐(0) 编辑
摘要: by 豆豆 Python Queue 入门 Queue 简介 Queue 叫队列,是数据结构中的一种,基本上所有成熟的编程语言都内置了对 Queue 的支持。 Python 中的 Queue 模块实现了多生产者和多消费者模型,当需要在多线程编程中非常实用。而且该模块中的 Queue 类实现了锁原语, 阅读全文
posted @ 2020-05-31 15:06 纯洁的微笑 阅读(515) 评论(0) 推荐(0) 编辑
摘要: by 豆豆 上一篇文章简单介绍了 Queue 的入门操作,今天我们学习下 Queue 的进阶用法。 生产者消费者模型 在并发编程中,比如爬虫,有的线程负责爬取数据,有的线程负责对爬取到的数据做处理(清洗、分类和入库)。假如他们是直接交互的,那么当二者的速度不匹配时势必出现等待现象,这也就产生了资源的 阅读全文
posted @ 2020-05-30 16:00 纯洁的微笑 阅读(716) 评论(0) 推荐(0) 编辑
摘要: by 程序员野客 在之前的文章中,我们已经介绍了 Python 通过 _thread 和 threading 模块提供了对多线程的支持,threading 模块兼具了 _thread 模块的现有功能,又扩展了一些新的功能,具有十分丰富的线程操作功能,本节我们就来详细学习一下 threading 模块 阅读全文
posted @ 2020-05-30 11:14 纯洁的微笑 阅读(812) 评论(0) 推荐(0) 编辑
摘要: by 程序员野客 我们知道,多线程与单线程相比,可以提高 CPU 利用率,加快程序的响应速度。 单线程是按顺序执行的,比如用单线程执行如下操作: 6秒读取文件1 9秒处理文件1 5秒读取文件2 8秒处理文件2 总共用时 28 秒,如果开启两条线程来执行上面的操作(假设处理器为多核 CPU),如下所示 阅读全文
posted @ 2020-05-30 11:09 纯洁的微笑 阅读(366) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 10 下一页