会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
tulintao
博客园
首页
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
17
下一页
2019年11月4日
Go环境搭建
摘要: 1、选择对应的版本进行下载https://golang.google.cn/dl/ 2、下载完成之后进行安装 3、安装完成之后将/usr/local/go/bin目录添加到当前系统环境变量中 4、测试安装是否成功 package main import ( "fmt" ) func main() {
阅读全文
posted @ 2019-11-04 17:12 tulintao
阅读(143)
评论(0)
推荐(0)
2019年10月25日
scrapy-redis
摘要: scrapy-redis的源码并不多,因为它是利用Redis数据库重新实现了scrapy中的某些组件 对于一个分布式爬虫框架: 1、分配爬取的任务,为每个爬虫分配不重复的爬取任务 2、汇总爬取的数据,将所有爬取到的数据汇总到一个地方 scrapy-redis为多个爬虫分配爬取任务的方式是:让所有爬虫
阅读全文
posted @ 2019-10-25 14:06 tulintao
阅读(257)
评论(0)
推荐(0)
2019年10月24日
使用代理的爬虫
摘要: 信息源是搜狗微信,就爬到的数据保存到MySQL中 搜狗对微信公众号和文章做了整合,我们可以直接通过链接搜索到相关的公众号和文章 例如搜索NBA,搜索的结果的URL中有很多无关的GET请求的参数,手动将无关的请求参数去掉,其中只保留type和query,其中type表示的是搜索微信文章,query表示
阅读全文
posted @ 2019-10-24 20:12 tulintao
阅读(970)
评论(0)
推荐(0)
2019年10月22日
在Linux中使用selenium(环境部署)
摘要: 1、安装chrome 用下面的命令安装Google Chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 也可以先下载至本地,然后安装 wget https://dl
阅读全文
posted @ 2019-10-22 14:47 tulintao
阅读(13139)
评论(0)
推荐(2)
使用HTTP代理
摘要: HTTP代理服务器可以比作客户端与Web服务器网站之间的一个信息中转站,客户端发送的HTTP请求和Web服务器返回的HTTP响应通过代理服务器转发给对方, 爬虫程序在爬取某些网站的时候也需要使用代理,例如 由于网络环境因素,直接爬取的速度太慢了,使用代理提高爬取的速度 某些网站读用户的访问速度进行限
阅读全文
posted @ 2019-10-22 14:41 tulintao
阅读(655)
评论(0)
推荐(0)
scrapy模拟登录
摘要: 登录的实质就是朝着服务器发送含有登录表单数据的HTTP请求(通常都是POST)。 scrapy提供了一个FormRequest类,是Request的子类,专门用来构造含有表单数据的请求,FormRequest的构造器方法有一个formdata参数,接受字典形式的表单数据。 在spider中使用For
阅读全文
posted @ 2019-10-22 09:26 tulintao
阅读(263)
评论(0)
推荐(0)
2019年10月19日
scrapy中下载文件和图片
摘要: 下载文件是一种很常见的需求,例如当你在使用爬虫爬取网站中的图片、视频、word、pdf、压缩包等的时候 scrapy中提供了FilesPipeline和ImagesPipeline,专门用来下载文件和图片: 我们其实可以把这两个item pipeline看成是特殊的下载器,用户使用的时候只需要通过i
阅读全文
posted @ 2019-10-19 13:39 tulintao
阅读(2049)
评论(0)
推荐(0)
scrapy中使用LinkExtractor提取链接
摘要: le = LinkExtractor(restrict_css='ul.pager li.next') links = le.extract_links(response) 使用LinkExtractor的过程: 导入LinkExtractor,它是在scrapy中linkextractors中 创
阅读全文
posted @ 2019-10-19 10:25 tulintao
阅读(1339)
评论(0)
推荐(0)
在scrapy中将数据保存到mongodb中
摘要: 利用item pipeline可以实现将数据存入数据库的操作,可以创建一个关于数据库的item pipeline 需要在类属性中定义两个常量 DB_URL:数据库的URL地址 DB_NAME:数据库的名字 在Spider爬取的整个过程中,数据库的连接和关闭操作只需要进行一次就可以,应该在开始处理之前
阅读全文
posted @ 2019-10-19 09:00 tulintao
阅读(866)
评论(0)
推荐(0)
2019年10月18日
Item Pipeline
摘要: 在创建一个scrapy项目的时候,会自动生成一个pipeliens.py文件,它是用来放置用户自定义的item pipeline, 一个 item pipeline不需要继承特定的基类,只需要实现某些特定的方法,例如process_item、open_spider、close_spider 一个it
阅读全文
posted @ 2019-10-18 19:53 tulintao
阅读(267)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
17
下一页
公告