摘要:Beautiful Soup还提供了另外一种选择器——CSS选择器,所以CSS选择器是基于Beautiful Soup的库来实现的。使用CSS选择器只需要调用select方法,传入相应的CSS选择器即可。下面我们通过一个实例来看一下CSS选择有哪些具体用法。 代码案例如下: html='<div c
阅读全文
摘要:MongoDB是一个基于分布式文件存储的数据库。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。M
阅读全文
摘要:一、简介 scrapy是一个基于redis的scrapy组件,用于快速实现scrapy项目的分布式数据爬取。 (一)安装redis pip install scrapy_redis (二)执行流程图 调度器、管道不可以被分布式集群共享 二、中间件的使用 下载中间件(Downloader Middle
阅读全文
摘要:一、认识scrapy scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需实现少量的代码,就能实现数据的快速抓取 scrapy使用了Twisted异步网络架构。 主要模块: pip install scrapy pip install twisted 在下载时由于内存相比于其
阅读全文
摘要:问题:怎么将源代码中的加密字体正常显示? 当爬取数据时,经常会发现一些既不是想要的对应文字,也不是乱码。那么该网站是进行了字体加密的反爬虫。如何解决这一问题呢? 那么就会用到了我们的TTFont模块: from fontTools.ttLib import TTFont 那么我们来看一下解决的流程,
阅读全文
摘要:一、认识selenium Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。 支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google,Chrome,Opera,Edge等。
阅读全文
摘要:进程和程序 进程:正在执行的程序 程序:还没有执行的代码,处于静态 一、进程的状态 使用进程实现多任务 multiprocessing模块就是跨平台的多进程模块提供了有个Process类来代表一个进程对象,这个对象可以理解为一个独立的进程,可以执行另外的事情。 二、进程和线程之间的对比 进程:能够完
阅读全文
摘要:一、线程安全队列 python内置的线程安全队列模块叫queue python的Queue模块中提供了同步的、线程安全的队列类 FIFO(先进先出)队列的Queue(常用) LIFO(后进先出)lifoQueue 可以使用队列来实现线程间的同步。 二、队列的常用方法 函数 描述 qsize() 返回
阅读全文
摘要:程序同时执行多个任务 使用线程可以把占据长时间的程序中的任务放到后台去处理。 程序的运行速度可能加快 一、线程实现方法 线程是CPU分配资源的基本单位。当一程序开始运行,这个程序就变成了一个进程,而一个进程相当于一个或者多个线程。当没有多线程编程时,一个进程相当于一个主线程;当有多线程编程时,一个进
阅读全文
摘要:MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。 一、安装和登录MySQL (一)安装MySQL 1、下
阅读全文
摘要:认识正则:正则表达式,又称规则表达式,(Regular Expression,在代码中常简写为regex、regexp或RE),是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个语法规则
阅读全文
摘要:下载 --pip install bs4 示例代码-爱丽丝漫游仙境 html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dormouse's stor
阅读全文
摘要:一、xpath语法 XPath 使用路径表达式来选取HTML/ XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 二、选取节点 表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取(取子节点)。 // 从匹配选择的当前节点选择文
阅读全文
摘要:一、图片下载 下载图片,需获取到图片的url地址和图片名称,通过向图片url发起请求,之后获取.content 注意: .text返回的是Unicode型的数据。 .content返回的是bytes型也就是二进制的数据。 import requests url = “https://www.baid
阅读全文
摘要:requests python中原生的一款基于网络请求的模块,功能强大,代码简便,效率极高。 作用:模拟浏览器发送请求。 注意:requests是第三方模块,使用时需要下载。 pip install requests 若下载时出现超时,换源即可。 示例: pip install requests -
阅读全文
摘要:一、HTML基础 HTML的英文全称是 Hyper Text Markup Language,即超文本标记语言 (一)标题 HTML 标题是通过<h1> - <h6> 标签来定义的。 <h1>这是标题</h1> <h2>这是标题</h2> <h3>这是标题</h3> (二)段落 HTML段落是通过标
阅读全文
摘要:一、爬虫的概念 (一)爬虫的简介 1、概念 (1)网络爬虫也叫网络蜘蛛,特指一类自动批量下载网络资源的程序,这是一个比较口语化的定义。 (2)更加专业和全面对的定义是:网络爬虫是伪装成客户端与服务端进行数据交互的程序。 2、作用 数据采集。 搜索引擎。 模拟操作。 3、分类 (1)通用爬虫 搜索引擎
阅读全文