会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
荆棘谷三季稻
博客园
首页
新随笔
联系
订阅
管理
2021年1月15日
Centos 安装MongoDB
摘要: 1.用yum安装创建yum源文件: #cd /etc/yum.repos.d #vim mongodb-org.repo 添加以下内容: [mngodb-org] name=MongoDB Repository baseurl=http://mirrors.aliyun.com/mongodb/yu
阅读全文
posted @ 2021-01-15 23:06 荆棘谷三季稻
阅读(479)
评论(0)
推荐(0)
2021年1月14日
爬虫-Scrapy(八)Scrapy快读提取超链接
摘要: 前面写过用xpath 方式定位response对象中我们所需要的超链接地址,但如果超链接过多且位置规律性差就不太方便了,现在介绍一种快速提取和过滤超链接地址的方法 1.明确需求 查看豆瓣图书中首页中所有图书的超链接,先看首页长这样的 然后随便点击一本数,进入图书的详情页,是这样的 此时我们查看下浏览
阅读全文
posted @ 2021-01-14 00:30 荆棘谷三季稻
阅读(213)
评论(0)
推荐(0)
2021年1月6日
爬虫-Scrapy(七)抓取招聘信息技能关键词,生成词云图
摘要: 这个昨晚10点做到今天凌晨2点多,主要是安装wordcount 各种Duang Duang 的报错,建议需要安装的同学自己去下载对应的版本,不要太依赖pip的自动安装。 开搞 1.抓取招聘信息列表 找一个招聘网站,最好不用登录就可以浏览职位的那种,然后输入关键次,先查看下结果。 私心想着如果结果太多
阅读全文
posted @ 2021-01-06 16:31 荆棘谷三季稻
阅读(281)
评论(0)
推荐(0)
2021年1月5日
爬虫-Scrapy (六) 模拟登录
摘要: 开始写模拟登录,很复杂,先写个最简单的。 1.不登录抓取主页 现在找一个简单提交form表单登录的网站也不好找,这次用内网部署的Azkaban管理平台做个示例。 首先打开登录页面,是这样的 输入账号,密码登录后,会自动跳转到主页,是这样的 先记下主页的url,https://域名/index, 然后
阅读全文
posted @ 2021-01-05 14:25 荆棘谷三季稻
阅读(182)
评论(0)
推荐(0)
2021年1月1日
爬虫-Scrapy (五) 爬取美女图片
摘要: Scrapy 框架的piplelines下提供了现在图片和视频的类,这使得我们将页面中的图片下载到本地非常方便。 1.寻找目标 百度搜索‘美女’,就可以找到很多有美女图片的网站,这里不贴地址了,反正很多。我找个是这样个的一个网站 我们按F12看下页面源码结构 非常清晰,我们的目标就是爬取页面中的图片
阅读全文
posted @ 2021-01-01 23:04 荆棘谷三季稻
阅读(365)
评论(0)
推荐(0)
2020年12月29日
爬虫-Scrapy(四) pipeline将数据存储至mysql库
摘要: 1. mysql库环境准备 a.服务器,准备一台linux服务器,可以自己机器上装个虚拟化软件,也可以连公司的闲置服务器或者租赁云服务器,不贵的。 b.mysql,安装的5.7,官网应该有8了,但5.7还是最普遍的版本。 c.Navicat for Mysql,非常好用的mysql客户端工具。 安装
阅读全文
posted @ 2020-12-29 00:10 荆棘谷三季稻
阅读(413)
评论(0)
推荐(0)
2020年12月27日
爬虫-Scrapy(三) 翻页的实现
摘要: 1.翻页的实现 上一篇实现了单页的爬取,再加3行代码就可以实现翻页了。 基本思路是查找页面中‘下一页’按钮对应的href地址,然后回调parse方法实现循环,直至找不到'下一页'的链接为止。 代码: import scrapy import re from scpy1.items import Sc
阅读全文
posted @ 2020-12-27 18:44 荆棘谷三季稻
阅读(925)
评论(0)
推荐(0)
2020年12月26日
爬虫-Scrapy(二) 爬取糗百笑话-单页
摘要: 1. Scrapy 设置文件修改 配置文件就是项目根路径下的 settings,py ,改下面的配置信息 a.遵循人机协议设置成false,否则基本啥也爬不到 # Obey robots.txt rules ROBOTSTXT_OBEY = False b. 设置ua,不然大部分网址是爬不到的 #
阅读全文
posted @ 2020-12-26 00:06 荆棘谷三季稻
阅读(156)
评论(0)
推荐(0)
2020年12月25日
爬虫-Scrapy(一) Scrapy 安装和创建项目
摘要: 1. windows 下 Scrapy 的安装 用pip 安装,网上的教程非常多,这里就不详细写了。 注意安装过程中可能因为缺少依赖安装失败,这个时候有些教程说必须安装完整版的visual stdio,这玩意非常大,其实不需要,只需要安装合适版本的twisted就可以了,注意不要被误导了。 2.Sc
阅读全文
posted @ 2020-12-25 15:49 荆棘谷三季稻
阅读(150)
评论(0)
推荐(0)
爬虫-python(三) 百度搜索关键词后爬取搜索结果
摘要: 9点49,老婆孩子都睡着了, 继续搞。 第1篇写了访问百度并打印页面源码,似乎没什么实际意义,这次弄个有点用的,就是百度中输入指定关键词后搜索,然后获取搜索结果第一页(翻页后面会陆续写)。 比如我们输入‘博客园’,下面是查询结果: 这个时候我们看下浏览器中url地址 ,大概是这个样子的 好老长,我们
阅读全文
posted @ 2020-12-25 11:28 荆棘谷三季稻
阅读(1860)
评论(0)
推荐(0)
下一页
公告