2020 年 12月随笔档案 - 荆棘谷三季稻

爬虫-Scrapy（四） pipeline将数据存储至mysql库

摘要：1. mysql库环境准备 a.服务器，准备一台linux服务器，可以自己机器上装个虚拟化软件，也可以连公司的闲置服务器或者租赁云服务器，不贵的。 b.mysql，安装的5.7，官网应该有8了，但5.7还是最普遍的版本。 c.Navicat for Mysql，非常好用的mysql客户端工具。安装阅读全文

posted @ 2020-12-29 00:10 荆棘谷三季稻阅读(416) 评论(0) 推荐(0)

爬虫-Scrapy（三）翻页的实现

摘要：1.翻页的实现上一篇实现了单页的爬取，再加3行代码就可以实现翻页了。基本思路是查找页面中‘下一页’按钮对应的href地址，然后回调parse方法实现循环，直至找不到'下一页'的链接为止。代码： import scrapy import re from scpy1.items import Sc 阅读全文

posted @ 2020-12-27 18:44 荆棘谷三季稻阅读(948) 评论(0) 推荐(0)

爬虫-Scrapy（二）爬取糗百笑话-单页

摘要：1. Scrapy 设置文件修改配置文件就是项目根路径下的 settings,py ,改下面的配置信息 a.遵循人机协议设置成false，否则基本啥也爬不到 # Obey robots.txt rules ROBOTSTXT_OBEY = False b. 设置ua,不然大部分网址是爬不到的 # 阅读全文

posted @ 2020-12-26 00:06 荆棘谷三季稻阅读(164) 评论(0) 推荐(0)

爬虫-Scrapy（一） Scrapy 安装和创建项目

摘要：1. windows 下 Scrapy 的安装用pip 安装，网上的教程非常多，这里就不详细写了。注意安装过程中可能因为缺少依赖安装失败，这个时候有些教程说必须安装完整版的visual stdio,这玩意非常大，其实不需要，只需要安装合适版本的twisted就可以了，注意不要被误导了。 2.Sc 阅读全文

posted @ 2020-12-25 15:49 荆棘谷三季稻阅读(158) 评论(0) 推荐(0)

爬虫-python（三）百度搜索关键词后爬取搜索结果

摘要：9点49，老婆孩子都睡着了，继续搞。第1篇写了访问百度并打印页面源码，似乎没什么实际意义，这次弄个有点用的，就是百度中输入指定关键词后搜索，然后获取搜索结果第一页（翻页后面会陆续写）。比如我们输入‘博客园’，下面是查询结果：这个时候我们看下浏览器中url地址，大概是这个样子的好老长，我们阅读全文

posted @ 2020-12-25 11:28 荆棘谷三季稻阅读(1872) 评论(0) 推荐(0)

爬虫-python（二）初识request

摘要：继续写。上一篇写了最简单的一个爬虫，这次我们改下url地址，换成糗百，修改完的代码如下： from urllib.request import urlopen # 发送请求，获取服务器给的响应 url = "https://www.qiushibaike.com/" response = urlop 阅读全文

posted @ 2020-12-24 17:57 荆棘谷三季稻阅读(227) 评论(0) 推荐(0)

爬虫-python（一）初识爬虫

摘要：开始写爬虫随笔，总结和分享技术，也希望对未来换工作有帮助。本系列随笔遵循两个原则，一是简洁，二是亲测可用。开干。 1. 环境准备 python 3.9.0 IDE：PyCharm 两者都可以从官网下载，安装简单，不再累述。 2. 最简单的爬虫爬虫最基本的流程是发送请求（get/post）-- 阅读全文

posted @ 2020-12-23 23:36 荆棘谷三季稻阅读(90) 评论(0) 推荐(0)

荆棘谷三季稻

12 2020 档案

公告