05 2019 档案

摘要:beautifulsoup就是一个非常强大的工具,爬虫利器。beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取 bs4简单使用 bs4是一个html的解析工具,根据html的特征和属性来查 阅读全文
posted @ 2019-05-09 20:22 Tom's 阅读(1155) 评论(0) 推荐(0)
摘要:xpath简介 lxml是一个第三方框架,用于对xml文件进行格式化操作(html文件是一种特殊xml文件) xpath是一种基于xml文件,根据xml文件的文档结构来提取目标元素或者属性的语法,它的基本依赖工具就是lxml etree是lxml中的一种格式化工具,用于将html文件格式化成一个节点 阅读全文
posted @ 2019-05-09 20:19 Tom's 阅读(535) 评论(0) 推荐(0)
摘要:Requests 简单介绍: Requests是采用Apache2 Licensed开源协议的HTTP库,用python语言基于urllib3编写的。 使用 Requests会比urllib更加方便,可以节约我们大量的工作。Requests是python实现的最简单易用的HTTP库。 Request 阅读全文
posted @ 2019-05-09 19:51 Tom's 阅读(319) 评论(0) 推荐(0)
摘要:urllib.request模块 方法 从urllib中导入请求模块 编写url 1. urlopen( ) 方法 用于打开一个远程的url连接,并且向这个连接发出请求,获取响应结果。返回的结果是一个http响应对象,这个响应对象中记录了本次http访问的响应头和响应体 urllib.request 阅读全文
posted @ 2019-05-08 20:38 Tom's 阅读(598) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-05-08 19:00 Tom's 阅读(76) 评论(0) 推荐(0)
摘要:爬虫基础 阅读全文
posted @ 2019-05-06 19:36 Tom's 阅读(582) 评论(0) 推荐(0)