python爬虫 - 随笔分类 - Paco_Pig

八、多线程爬虫之糗事百科案例

摘要：案例要求参考上一个糗事百科单进程案例 Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread 阅读全文

posted @ 2019-08-30 19:08 Paco_Pig 阅读(214) 评论(0) 推荐(0)

七、数据提取之JSON与JsonPATH

摘要：JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 Python 2.7中自带了JSON模块阅读全文

posted @ 2019-08-30 19:06 Paco_Pig 阅读(408) 评论(0) 推荐(0)

六、CSS 选择器：BeautifulSoup4

摘要：和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于阅读全文

posted @ 2019-08-28 17:07 Paco_Pig 阅读(269) 评论(0) 推荐(0)

五、Xpath与lxml类库

摘要：什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官阅读全文

posted @ 2019-08-06 16:24 Paco_Pig 阅读(250) 评论(0) 推荐(0)

四、正则表达式

摘要：什么是正则表达式正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符阅读全文

posted @ 2019-08-06 16:17 Paco_Pig 阅读(224) 评论(0) 推荐(0)

三、requests模块

摘要：Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文

posted @ 2019-08-05 23:31 Paco_Pig 阅读(429) 评论(0) 推荐(0)

二、urllib库的使用详解

摘要：一、urllib2库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用) urllib2 官方文档：https: 阅读全文

posted @ 2019-08-05 23:20 Paco_Pig 阅读(1048) 评论(0) 推荐(0)

一、爬虫原理与工具使用

摘要：一、通用爬虫和聚焦爬虫根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用搜索引擎（Search Engine）阅读全文

posted @ 2019-08-05 22:47 Paco_Pig 阅读(741) 评论(0) 推荐(0)

Paco_Pig

这家伙很懒，什么都没留下~~~~~~

随笔分类 - python爬虫

公告