随笔分类 -  爬虫

摘要:[TOC] 利用多线程爬取数据 爬取动态数据 ,翻译为异步JavaScript和XML。是在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。我们有两种办法来处理这种情况: 1. 直接分析ajax调用的接口。这样虽然代码 阅读全文
posted @ 2019-04-20 19:45 Mingle_Yuan 阅读(268) 评论(0) 推荐(0)
摘要:[TOC] JSON JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。JSON支持对象(字典)、数组(列表)、整数、浮点 阅读全文
posted @ 2019-04-16 20:55 Mingle_Yuan 阅读(436) 评论(0) 推荐(0)
摘要:[TOC] re的元字符 字符集 即在字符集中任意匹配一个 转义符 反斜杠后边跟元字符去除特殊功能,比如 反斜杠后边跟普通字符实现特殊功能,比如 匹配任何十进制数;它相当于类 [0 9]。 匹配任何非数字字符;它相当于类 [^0 9]。 匹配任何空白字符;它相当于类 [ \t\n\r\f\v]。 匹 阅读全文
posted @ 2019-04-14 19:31 Mingle_Yuan 阅读(174) 评论(0) 推荐(0)
摘要:[TOC] lxml库 lxml 是 一个HTML/XML的解析器,其是由C语言来实现的,主要的功能是如何解析和提取 HTML/XML 数据。 基本使用 我们可以利用它来解析HTML代码,并且在解析HTML代码的时候,如果HTML代码不规范,它会自动的进行补全。 读取HTML的文档 我们先建立一个叫 阅读全文
posted @ 2019-04-13 14:45 Mingle_Yuan 阅读(238) 评论(0) 推荐(0)
摘要:[TOC] 爬虫的分类 通用爬虫 通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 聚焦爬虫(定向爬虫) :是面向特定需求的一种网络爬虫程序,他与通用爬虫的区别在于:聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理,尽 阅读全文
posted @ 2019-04-06 09:33 Mingle_Yuan 阅读(302) 评论(0) 推荐(0)