微信扫一扫打赏支持

python爬虫准备知识---2、为什么选择python来进行爬虫

python爬虫准备知识---2、为什么选择python来进行爬虫

一、总结

一句话总结：

c和c++运行效率很高，但是学习和开发成本很大；java的语言代码量很大，一个爬虫程序会随着网址及内容的改变而需要重构，重构时需要花费很多的成本；php并发处理能力弱，速度和效率都达不到爬虫的要求。

1、什么是Urllib？

Urllib是Python内置的HTTP请求库，可以用来做爬虫，但是requests更好用

urlib.request 请求模块
urlib.error   异常处理模块
urllib.parse   url解析模块
urlib.robotparser   robots.txt解析模块

2、response headers和request headers分别是做什么的？

request headers是浏览器告诉服务器，我传过来的数据是什么样，你要怎么解析

response headers是服务器传回来的response的信息

3、with open(...) as ...？

但由于文件读写时都可能产生IOError，为了保证无论是否出错都能正确地关闭文件，我们用try...finally来实现：python 简化了改写法，即用 with open(...) as...；

二、内容在总结中

博客对应课程的视频位置：

posted @ 2020-07-10 05:21 范仁义阅读(343) 评论(0) 收藏举报

刷新页面返回顶部