随笔分类 - 爬虫
摘要:[TOC] 利用多线程爬取数据 爬取动态数据 ,翻译为异步JavaScript和XML。是在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。我们有两种办法来处理这种情况: 1. 直接分析ajax调用的接口。这样虽然代码
阅读全文
摘要:[TOC] JSON JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。JSON支持对象(字典)、数组(列表)、整数、浮点
阅读全文
摘要:[TOC] re的元字符 字符集 即在字符集中任意匹配一个 转义符 反斜杠后边跟元字符去除特殊功能,比如 反斜杠后边跟普通字符实现特殊功能,比如 匹配任何十进制数;它相当于类 [0 9]。 匹配任何非数字字符;它相当于类 [^0 9]。 匹配任何空白字符;它相当于类 [ \t\n\r\f\v]。 匹
阅读全文
摘要:[TOC] lxml库 lxml 是 一个HTML/XML的解析器,其是由C语言来实现的,主要的功能是如何解析和提取 HTML/XML 数据。 基本使用 我们可以利用它来解析HTML代码,并且在解析HTML代码的时候,如果HTML代码不规范,它会自动的进行补全。 读取HTML的文档 我们先建立一个叫
阅读全文
摘要:[TOC] 爬虫的分类 通用爬虫 通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 聚焦爬虫(定向爬虫) :是面向特定需求的一种网络爬虫程序,他与通用爬虫的区别在于:聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理,尽
阅读全文

浙公网安备 33010602011771号