2019 年 5月随笔档案 - Tom's

爬虫解析之(六) --- bs4模块

摘要：beautifulsoup就是一个非常强大的工具，爬虫利器。beautifulSoup “美味的汤，绿色的浓汤” 一个灵活又方便的网页解析库，处理高效，支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取 bs4简单使用 bs4是一个html的解析工具，根据html的特征和属性来查阅读全文

posted @ 2019-05-09 20:22 Tom's 阅读(1155) 评论(0) 推荐(0)

爬虫解析之(五) --- Xpath模块

摘要：xpath简介 lxml是一个第三方框架，用于对xml文件进行格式化操作（html文件是一种特殊xml文件） xpath是一种基于xml文件，根据xml文件的文档结构来提取目标元素或者属性的语法，它的基本依赖工具就是lxml etree是lxml中的一种格式化工具，用于将html文件格式化成一个节点阅读全文

posted @ 2019-05-09 20:19 Tom's 阅读(535) 评论(0) 推荐(0)

爬虫基础之(四) --- Requests模块

摘要：Requests 简单介绍： Requests是采用Apache2 Licensed开源协议的HTTP库,用python语言基于urllib3编写的。使用 Requests会比urllib更加方便，可以节约我们大量的工作。Requests是python实现的最简单易用的HTTP库。 Request 阅读全文

posted @ 2019-05-09 19:51 Tom's 阅读(319) 评论(0) 推荐(0)

爬虫基础之(三) --- urllib模块

摘要：urllib.request模块方法从urllib中导入请求模块编写url 1. urlopen( ) 方法用于打开一个远程的url连接,并且向这个连接发出请求,获取响应结果。返回的结果是一个http响应对象,这个响应对象中记录了本次http访问的响应头和响应体 urllib.request 阅读全文

posted @ 2019-05-08 20:38 Tom's 阅读(598) 评论(0) 推荐(0)

爬虫基础之(二) --- urllib基础

该文被密码保护。

posted @ 2019-05-08 19:00 Tom's 阅读(76) 评论(0) 推荐(0)

爬虫基础之(一) --- 初识爬虫

摘要：爬虫基础阅读全文

posted @ 2019-05-06 19:36 Tom's 阅读(582) 评论(0) 推荐(0)

Tom's

05 2019 档案

公告