爬虫 - 随笔分类 - 余火灬

网络爬虫开发常用框架

摘要：爬虫框架就是一些爬虫项目的半成品，可以将一些爬虫常用的功能写好。然后留下一些接口，在不同的爬虫项目中，调用适合自己项目的接口，再编写少量的代码实现自己需要的功能。因为框架已经实现了爬虫常用的功能，所以为开发人员节省了很多精力与时间。 1、Scrapy爬虫框架这是一套比较成熟的python爬虫框架，阅读全文

posted @ 2019-02-27 11:32 余火灬阅读(734) 评论(0) 推荐(0)

HTML解析之BeautifulSoup

摘要：BeautifulSoup是一个用于从HTML和XML文件中提取数据的Python库。BeautifulSoup提供一些简单的、函数用来处理导航、搜索、修改分析树等功能。BeautifulSoup模块中的查找提取功能非常强大，而且非常便捷，它通常可以节省程序员数小时或数天的工作时间。 Beautif 阅读全文

posted @ 2019-02-27 11:11 余火灬阅读(316) 评论(0) 推荐(0)

代理服务

摘要：在爬取网页的过程中，经常会出现不久前可以爬取的网页现在无法爬取了，这是因为您的IP被爬取网站的服务器所屏蔽了。此时代理服务可以为您解决这一麻烦，设置代理时，首先需要找到代理地址，例如“122.114.31.177”，对应的端口号为“808”，完整的格式为“122.114.31.177:808”，如下阅读全文

posted @ 2019-02-27 10:39 余火灬阅读(318) 评论(0) 推荐(0)

网络超时

摘要：在访问一个网页时，如果该网页长时间未响应，系统会判断该网页超时，所以无法打开网页。下面通过代码来模拟一个网络超时的现象，如下：说起网络异常信息，requsets模块提供了三种常见的网络异常类，如下：阅读全文

posted @ 2019-02-27 10:32 余火灬阅读(285) 评论(0) 推荐(0)

请求headers处理

摘要：有时在请求一个网页内容时，发现无论通过GET或者是POST以及其他请求方式，都会出现403错误。这种现象多数是由于服务器拒绝了您的访问，那是因为这些网页为了防止恶意采集信息，所使用的反爬虫设置。此时可通过模拟浏览器头部信息来进行访问，这样就解决了以上反爬虫设置的问题。下面以requests模块为例介阅读全文

posted @ 2019-02-27 10:05 余火灬阅读(426) 评论(0) 推荐(0)

百度AI搜索引擎

摘要：一、爬虫协议与其它爬虫不同，全站爬虫意图爬取网站所有页面，由于爬虫对网页的爬取速度比人工浏览快几百倍，对网站服务器来说压力山大，很容易造成网站崩溃。为了避免双输的场面，大家约定，如果网站建设者不愿意爬虫访问某些页面，他就按照约定的格式，把这些页面添加到 robots.txt 文件中，爬虫应该主动阅读全文

posted @ 2019-02-18 16:53 余火灬阅读(661) 评论(0) 推荐(0)

学习requests_html

摘要：一、获取页面上的所有链接。二、获取页面上的所有标题及其链接三、通过css选择器选取一个Element对象四、获取一个Element对象内的文本内容五、获取一个Element对象的所有属性attributes 六、渲染出一个Element对象的HTML内容阅读全文

posted @ 2019-02-13 15:09 余火灬阅读(231) 评论(0) 推荐(0)

聚合新闻头条

摘要：一、确定新闻来源二、有头条新闻的提取头条新闻三、定时每两分钟执行一次在 2019-01-01 09:30:00 2019-02-01 11:00:00 的时间范围内，每 2 小时执行一次 my_print：在 2019-01-01 09:30:00 执行一次 my_print：每个整点执阅读全文

posted @ 2019-02-13 11:39 余火灬阅读(397) 评论(0) 推荐(0)

爬虫工程师的月薪如何？

摘要：链接分析 1、不同的搜索关键字的搜索链接分析：搜索python工程师：https://sou.zhaopin.com/?jl=538&kw=python工程师&kt=3 搜索java工程师：https://sou.zhaopin.com/?jl=538&kw=java工程师&kt=3 对比结果：阅读全文

posted @ 2019-02-12 15:55 余火灬阅读(1037) 评论(0) 推荐(0)

简单的爬虫

摘要：一、使用python下载网页代码二、提取网页中所需的内容 2.1使用使用CSS 选择器来提取网页中有价值的信息--例：爬取单个豆瓣网页先查看一段内容的代码，在代码上点击右键，选择 Copy -> Copy Selector (或者 Copy CSS Selector、复制 CSS 选择器），就阅读全文

posted @ 2019-02-11 15:44 余火灬阅读(886) 评论(0) 推荐(0)

我李逍遥要做盖世英雄

随笔分类 - 爬虫

公告