2020年1月30日

Python爬虫学习(二)使用Beautiful Soup库

摘要: (一)使用Beautiful Soup库(默认将HTML转换为utf-8编码) 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: import requests; from _socket import timeout from bs4 i 阅读全文

posted @ 2020-01-30 23:31 不愧下学 阅读(723) 评论(0) 推荐(0)

Python爬虫学习(一)使用requests库和robots协议

摘要: (一)爬虫需要的库和框架: (二)爬虫的限制: 1,Robots协议概述: 网站拥有者可以在网站根目录下建立robots.txt文件,User-agent:定义不能访问者;Disallow定义不可以爬取的目录 例如:http://www.baidu.com/robots.txt的部分内容: //不允 阅读全文

posted @ 2020-01-30 20:36 不愧下学 阅读(1555) 评论(0) 推荐(0)

导航