荆棘谷三季稻

2021年1月15日

摘要： 1.用yum安装创建yum源文件： #cd /etc/yum.repos.d #vim mongodb-org.repo 添加以下内容： [mngodb-org] name=MongoDB Repository baseurl=http://mirrors.aliyun.com/mongodb/yu 阅读全文

posted @ 2021-01-15 23:06 荆棘谷三季稻阅读(494) 评论(0) 推荐(0)

2021年1月14日

爬虫-Scrapy（八）Scrapy快读提取超链接

摘要：前面写过用xpath 方式定位response对象中我们所需要的超链接地址，但如果超链接过多且位置规律性差就不太方便了，现在介绍一种快速提取和过滤超链接地址的方法 1.明确需求查看豆瓣图书中首页中所有图书的超链接，先看首页长这样的然后随便点击一本数，进入图书的详情页，是这样的此时我们查看下浏览阅读全文

posted @ 2021-01-14 00:30 荆棘谷三季稻阅读(231) 评论(0) 推荐(0)

2021年1月6日

爬虫-Scrapy（七）抓取招聘信息技能关键词，生成词云图

摘要：这个昨晚10点做到今天凌晨2点多，主要是安装wordcount 各种Duang Duang 的报错，建议需要安装的同学自己去下载对应的版本，不要太依赖pip的自动安装。开搞 1.抓取招聘信息列表找一个招聘网站，最好不用登录就可以浏览职位的那种，然后输入关键次，先查看下结果。私心想着如果结果太多阅读全文

posted @ 2021-01-06 16:31 荆棘谷三季稻阅读(304) 评论(0) 推荐(0)

2021年1月5日

爬虫-Scrapy （六）模拟登录

摘要：开始写模拟登录，很复杂，先写个最简单的。 1.不登录抓取主页现在找一个简单提交form表单登录的网站也不好找，这次用内网部署的Azkaban管理平台做个示例。首先打开登录页面，是这样的输入账号，密码登录后，会自动跳转到主页，是这样的先记下主页的url，https://域名/index，然后阅读全文

posted @ 2021-01-05 14:25 荆棘谷三季稻阅读(207) 评论(0) 推荐(0)

2021年1月1日

爬虫-Scrapy （五）爬取美女图片

摘要： Scrapy 框架的piplelines下提供了现在图片和视频的类，这使得我们将页面中的图片下载到本地非常方便。 1.寻找目标百度搜索‘美女’，就可以找到很多有美女图片的网站，这里不贴地址了，反正很多。我找个是这样个的一个网站我们按F12看下页面源码结构非常清晰，我们的目标就是爬取页面中的图片阅读全文

posted @ 2021-01-01 23:04 荆棘谷三季稻阅读(394) 评论(0) 推荐(0)

2020年12月29日

爬虫-Scrapy（四） pipeline将数据存储至mysql库

摘要： 1. mysql库环境准备 a.服务器，准备一台linux服务器，可以自己机器上装个虚拟化软件，也可以连公司的闲置服务器或者租赁云服务器，不贵的。 b.mysql，安装的5.7，官网应该有8了，但5.7还是最普遍的版本。 c.Navicat for Mysql，非常好用的mysql客户端工具。安装阅读全文

posted @ 2020-12-29 00:10 荆棘谷三季稻阅读(427) 评论(0) 推荐(0)

2020年12月27日

爬虫-Scrapy（三）翻页的实现

摘要： 1.翻页的实现上一篇实现了单页的爬取，再加3行代码就可以实现翻页了。基本思路是查找页面中‘下一页’按钮对应的href地址，然后回调parse方法实现循环，直至找不到'下一页'的链接为止。代码： import scrapy import re from scpy1.items import Sc 阅读全文

posted @ 2020-12-27 18:44 荆棘谷三季稻阅读(967) 评论(0) 推荐(0)

2020年12月26日

爬虫-Scrapy（二）爬取糗百笑话-单页

摘要： 1. Scrapy 设置文件修改配置文件就是项目根路径下的 settings,py ,改下面的配置信息 a.遵循人机协议设置成false，否则基本啥也爬不到 # Obey robots.txt rules ROBOTSTXT_OBEY = False b. 设置ua,不然大部分网址是爬不到的 # 阅读全文

posted @ 2020-12-26 00:06 荆棘谷三季稻阅读(177) 评论(0) 推荐(0)

2020年12月25日

爬虫-Scrapy（一） Scrapy 安装和创建项目

摘要： 1. windows 下 Scrapy 的安装用pip 安装，网上的教程非常多，这里就不详细写了。注意安装过程中可能因为缺少依赖安装失败，这个时候有些教程说必须安装完整版的visual stdio,这玩意非常大，其实不需要，只需要安装合适版本的twisted就可以了，注意不要被误导了。 2.Sc 阅读全文

posted @ 2020-12-25 15:49 荆棘谷三季稻阅读(169) 评论(0) 推荐(0)

爬虫-python（三）百度搜索关键词后爬取搜索结果

摘要： 9点49，老婆孩子都睡着了，继续搞。第1篇写了访问百度并打印页面源码，似乎没什么实际意义，这次弄个有点用的，就是百度中输入指定关键词后搜索，然后获取搜索结果第一页（翻页后面会陆续写）。比如我们输入‘博客园’，下面是查询结果：这个时候我们看下浏览器中url地址，大概是这个样子的好老长，我们阅读全文

posted @ 2020-12-25 11:28 荆棘谷三季稻阅读(1881) 评论(0) 推荐(0)

荆棘谷三季稻

公告