摘要: 初学爬虫,学习一下三方库的使用以及简单静态网页的分析。就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫。 网页分析 我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方,细化到他在哪个div里面,在哪个class里面,在哪个a标签里面。 从上面的图中可以看出,有很多信息 阅读全文
posted @ 2022-05-07 21:48 权。 阅读(12781) 评论(0) 推荐(1)
摘要: 一般我们爬取一些简单的静态网页是通过获取网页全部源代码,然后再通过正则解析出我们自己需要的数据。 所以我们一般可以写好一个向网站发起请求的方法,作为一个函数,在写其他爬虫的时候可以直接应用。 下面是我的源代码 def askURL(url): head = { #伪装请求头,模拟浏览器访问 "Use 阅读全文
posted @ 2022-05-07 20:28 权。 阅读(185) 评论(0) 推荐(0)