随笔分类 - 爬虫
摘要:一:beautifulsoup简介 beautifulsoup是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取。 二:常用解析库 Beautiful S
阅读全文
摘要:一:什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的
阅读全文
摘要:一:什么是爬虫 请求网站并提取数据的自动化程序。 二:爬虫基本流程 a.发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等服务器响应。 b.获取响应内容 如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取
阅读全文
摘要:什么是Urllib: python内置的HTTP请求库 urllib.request : 请求模块 urllib.error : 异常处理模块 urllib.parse: url解析模块 urllib.robotparser : robots.txt解析模块 GET请求方式 POST请求方式 超时t
阅读全文

浙公网安备 33010602011771号