2020 年 1月 30 日随笔档案 - 不愧下学

2020年1月30日

Python爬虫学习（二）使用Beautiful Soup库

摘要：（一）使用Beautiful Soup库（默认将HTML转换为utf-8编码） 1，安装Beautiful Soup库：pip install beautifulsoup4 2，简单使用： import requests; from _socket import timeout from bs4 i 阅读全文

posted @ 2020-01-30 23:31 不愧下学阅读(726) 评论(0) 推荐(0)

Python爬虫学习（一）使用requests库和robots协议

摘要：（一）爬虫需要的库和框架：（二）爬虫的限制： 1，Robots协议概述：网站拥有者可以在网站根目录下建立robots.txt文件，User-agent：定义不能访问者；Disallow定义不可以爬取的目录例如：http://www.baidu.com/robots.txt的部分内容： //不允阅读全文

posted @ 2020-01-30 20:36 不愧下学阅读(1557) 评论(0) 推荐(0)

寂天风

Python爬虫学习（二）使用Beautiful Soup库

Python爬虫学习（一）使用requests库和robots协议

导航

公告