爬虫 - 随笔分类(第2页) - 寂静的天空

爬虫（四）：BeautifulSoup库的使用

摘要：一：beautifulsoup简介 beautifulsoup是一个非常强大的工具，爬虫利器。 beautifulSoup “美味的汤，绿色的浓汤” 一个灵活又方便的网页解析库，处理高效，支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取。二：常用解析库 Beautiful S 阅读全文

posted @ 2018-04-06 14:58 寂静的天空阅读(2083) 评论(1) 推荐(0)

爬虫（三）：Requests库的基本使用

摘要：一：什么是Requests Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用，你会发现，其实urllib还是非常不方便的，而Requests它会比urllib更加方便，可以节约我们大量的阅读全文

posted @ 2018-04-03 22:46 寂静的天空阅读(578) 评论(0) 推荐(0)

爬虫（一）：基本原理

摘要：一：什么是爬虫请求网站并提取数据的自动化程序。二：爬虫基本流程 a.发起请求通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等服务器响应。 b.获取响应内容如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取阅读全文

posted @ 2018-04-03 15:22 寂静的天空阅读(408) 评论(0) 推荐(0)

爬虫（二）：Urllib库详解

摘要：什么是Urllib： python内置的HTTP请求库 urllib.request : 请求模块 urllib.error : 异常处理模块 urllib.parse： url解析模块 urllib.robotparser : robots.txt解析模块 GET请求方式 POST请求方式超时t 阅读全文

posted @ 2018-04-03 15:17 寂静的天空阅读(440) 评论(0) 推荐(0)

Felix Wang

Do the right things! Talk is cheap,Show me the code!

随笔分类 - 爬虫

公告