随笔分类 -  爬虫

摘要:爬虫框架就是一些爬虫项目的半成品,可以将一些爬虫常用的功能写好。然后留下一些接口,在不同的爬虫项目中,调用适合自己项目的接口,再编写少量的代码实现自己需要的功能。因为框架已经实现了爬虫常用的功能,所以为开发人员节省了很多精力与时间。 1、Scrapy爬虫框架 这是一套比较成熟的python爬虫框架, 阅读全文
posted @ 2019-02-27 11:32 余火灬 阅读(730) 评论(0) 推荐(0)
摘要:BeautifulSoup是一个用于从HTML和XML文件中提取数据的Python库。BeautifulSoup提供一些简单的、函数用来处理导航、搜索、修改分析树等功能。BeautifulSoup模块中的查找提取功能非常强大,而且非常便捷,它通常可以节省程序员数小时或数天的工作时间。 Beautif 阅读全文
posted @ 2019-02-27 11:11 余火灬 阅读(314) 评论(0) 推荐(0)
摘要:在爬取网页的过程中,经常会出现不久前可以爬取的网页现在无法爬取了,这是因为您的IP被爬取网站的服务器所屏蔽了。此时代理服务可以为您解决这一麻烦,设置代理时,首先需要找到代理地址,例如“122.114.31.177”,对应的端口号为“808”,完整的格式为“122.114.31.177:808”,如下 阅读全文
posted @ 2019-02-27 10:39 余火灬 阅读(317) 评论(0) 推荐(0)
摘要:在访问一个网页时,如果该网页长时间未响应,系统会判断该网页超时,所以无法打开网页。下面通过代码来模拟一个网络超时的现象,如下: 说起网络异常信息,requsets模块提供了三种常见的网络异常类,如下: 阅读全文
posted @ 2019-02-27 10:32 余火灬 阅读(282) 评论(0) 推荐(0)
摘要:有时在请求一个网页内容时,发现无论通过GET或者是POST以及其他请求方式,都会出现403错误。这种现象多数是由于服务器拒绝了您的访问,那是因为这些网页为了防止恶意采集信息,所使用的反爬虫设置。此时可通过模拟浏览器头部信息来进行访问,这样就解决了以上反爬虫设置的问题。下面以requests模块为例介 阅读全文
posted @ 2019-02-27 10:05 余火灬 阅读(423) 评论(0) 推荐(0)
摘要:一、爬虫协议 与其它爬虫不同,全站爬虫意图爬取网站所有页面,由于爬虫对网页的爬取速度比人工浏览快几百倍,对网站服务器来说压力山大,很容易造成网站崩溃。 为了避免双输的场面,大家约定,如果网站建设者不愿意爬虫访问某些页面,他就按照约定的格式,把这些页面添加到 robots.txt 文件中,爬虫应该主动 阅读全文
posted @ 2019-02-18 16:53 余火灬 阅读(655) 评论(0) 推荐(0)
摘要:一、获取页面上的所有链接。 二、获取页面上的所有标题及其链接 三、通过css选择器选取一个Element对象 四、获取一个Element对象内的文本内容 五、获取一个Element对象的所有属性attributes 六、渲染出一个Element对象的HTML内容 阅读全文
posted @ 2019-02-13 15:09 余火灬 阅读(230) 评论(0) 推荐(0)
摘要:一、确定新闻来源 二、有头条新闻的提取头条新闻 三、定时 每两分钟执行一次 在 2019-01-01 09:30:00 2019-02-01 11:00:00 的时间范围内,每 2 小时执行一次 my_print: 在 2019-01-01 09:30:00 执行一次 my_print: 每个整点执 阅读全文
posted @ 2019-02-13 11:39 余火灬 阅读(395) 评论(0) 推荐(0)
摘要:链接分析 1、不同的搜索关键字 的搜索链接分析: 搜索python工程师:https://sou.zhaopin.com/?jl=538&kw=python工程师&kt=3 搜索java工程师:https://sou.zhaopin.com/?jl=538&kw=java工程师&kt=3 对比结果: 阅读全文
posted @ 2019-02-12 15:55 余火灬 阅读(1030) 评论(0) 推荐(0)
摘要:一、使用python下载网页代码 二、提取网页中所需的内容 2.1使用使用CSS 选择器 来提取网页中有价值的信息--例:爬取单个豆瓣网页 先查看一段内容的代码,在代码上点击右键,选择 Copy -> Copy Selector (或者 Copy CSS Selector、复制 CSS 选择器),就 阅读全文
posted @ 2019-02-11 15:44 余火灬 阅读(885) 评论(0) 推荐(0)