随笔分类 -  爬虫

摘要:import requests import os url = 'http://imgsrc.baidu.com/forum/w%3D580%3B/sign=749ed018cecec3fd8b3ea77de6b3d63f/83025aafa40f4bfb3661b3800e4f78f0f63618b4.jpg' root_path = r'D:\picture\zhaoliying' #... 阅读全文
posted @ 2019-02-14 10:22 路漫漫我不畏 阅读(4641) 评论(0) 推荐(1)
摘要:大部分网站对网络爬虫都有限制,限制方式有两种: 一、Robots协议;二、网站通过判断对网站访问http的头部信息来查看是否是爬虫,并对爬虫做相关拦截 第一种限制是书面限制,第二种是强制性阻拦限制。那我们如何去突破第二种限制呢? 首先我们要爬取一个网站大部分会使用requests库的get()方法, 阅读全文
posted @ 2019-02-13 17:41 路漫漫我不畏 阅读(1682) 评论(0) 推荐(0)
摘要:在做爬虫时请求网页的requests库是必不可少的,我们常常会用到 res = resquests.get(url) 方法,在获取网页的html代码时常常使用res的text属性: html = res.text,在下载图片或文件时常常使用res的content属性: 下面我们来看看 'text' 阅读全文
posted @ 2019-02-13 11:17 路漫漫我不畏 阅读(1891) 评论(0) 推荐(2)
摘要:适用的图片网站:美桌 源代码: 阅读全文
posted @ 2019-02-10 22:37 路漫漫我不畏 阅读(2576) 评论(0) 推荐(0)
摘要:我们需要爬取的网站:最好大学网 我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中的每个单元格的标签为<td>标签,而我们所需的内容即为每个单元格中的内容。 因此编写程序的大概思路就是先找到整个表格的<tb 阅读全文
posted @ 2019-02-08 19:02 路漫漫我不畏 阅读(1193) 评论(0) 推荐(0)
摘要:这是一个通过使用requests和BeautifulSoup库,简单爬取网站的所有超链接的小爬虫。有任何问题欢迎留言讨论。 测试结果: 阅读全文
posted @ 2019-02-07 19:38 路漫漫我不畏 阅读(11313) 评论(0) 推荐(2)