随笔分类 -  爬虫__基础

爬虫的一些 简单技术 和 理论知识
摘要:正则表达式 正则表达式其实就是特殊的字符串, 帮助进行检索, 校验, 查询等行为,是对字符串操作的一种逻辑公式, 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 Python提供的正则表达式机制: 需要导入模块 re 正则表达式使 阅读全文
posted @ 2019-10-28 10:25 Tom's 阅读(317) 评论(0) 推荐(0)
摘要:ip代理配置 阅读全文
posted @ 2019-10-28 10:24 Tom's 阅读(132) 评论(0) 推荐(0)
摘要:PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了 阅读全文
posted @ 2019-08-29 10:42 Tom's 阅读(182) 评论(0) 推荐(0)
摘要:Selenium elenium 是一套完整的web应用程序测试系统, 包含: 1. 测试的录制(selenium IDE) 2.编写及运行(Selenium Remote Control) 3.测试的并行处理(Selenium Grid) Selenium的核心Selenium Core基于JsU 阅读全文
posted @ 2019-08-29 10:41 Tom's 阅读(353) 评论(0) 推荐(0)
摘要:beautifulsoup就是一个非常强大的工具,爬虫利器。beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取 bs4简单使用 bs4是一个html的解析工具,根据html的特征和属性来查 阅读全文
posted @ 2019-05-09 20:22 Tom's 阅读(1156) 评论(0) 推荐(0)
摘要:xpath简介 lxml是一个第三方框架,用于对xml文件进行格式化操作(html文件是一种特殊xml文件) xpath是一种基于xml文件,根据xml文件的文档结构来提取目标元素或者属性的语法,它的基本依赖工具就是lxml etree是lxml中的一种格式化工具,用于将html文件格式化成一个节点 阅读全文
posted @ 2019-05-09 20:19 Tom's 阅读(536) 评论(0) 推荐(0)
摘要:Requests 简单介绍: Requests是采用Apache2 Licensed开源协议的HTTP库,用python语言基于urllib3编写的。 使用 Requests会比urllib更加方便,可以节约我们大量的工作。Requests是python实现的最简单易用的HTTP库。 Request 阅读全文
posted @ 2019-05-09 19:51 Tom's 阅读(320) 评论(0) 推荐(0)
摘要:urllib.request模块 方法 从urllib中导入请求模块 编写url 1. urlopen( ) 方法 用于打开一个远程的url连接,并且向这个连接发出请求,获取响应结果。返回的结果是一个http响应对象,这个响应对象中记录了本次http访问的响应头和响应体 urllib.request 阅读全文
posted @ 2019-05-08 20:38 Tom's 阅读(598) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-05-08 19:00 Tom's 阅读(76) 评论(0) 推荐(0)
摘要:爬虫基础 阅读全文
posted @ 2019-05-06 19:36 Tom's 阅读(583) 评论(0) 推荐(0)