随笔分类 -  爬虫

摘要:有些网站需要登录后才能爬取到有用的信息,Scrapy先模拟登录,再进行信息爬取。登录实质理解登录的实质,跟踪一次登录操作http://example.webscraping.com/ 页面的表单对应的HTML的 《form》,log in会根据form元素的内容发送一... 阅读全文
posted @ 2018-07-17 11:43 oifengo 阅读(319) 评论(0) 推荐(0)
摘要:Scrapy从入门到精通系列前四篇已经讲了从网页中获取信息的方法,除此之外,爬虫也可以从网页中下载图片、视频、word、pdf、压缩包等FilesPipeline和ImagePipelineScarpy框架内部提供了这两个Item Pipeline专门用来下载文件和图... 阅读全文
posted @ 2018-07-15 15:14 oifengo 阅读(483) 评论(0) 推荐(0)
摘要:项目实战url = http://books.toscrape.com页面分析scrapy shell U R L> scrapy shell URL>可以使用户在交互式命令行下操作一个Scrapy,通常用来进行前期爬取实验,提高开发效率scrapy shell h... 阅读全文
posted @ 2018-07-05 13:55 oifengo 阅读(454) 评论(0) 推荐(0)
摘要:使用Item封装数据前两篇博客介绍了从页面中提取数据的方法,现在用item封装爬取到的数据Item和FieldScrapy提供了Item和Field类,可以用他们自定义数据类,封装爬取到的数据Item :自定义数据类(BookItem)的基类Field:描述自定义数据... 阅读全文
posted @ 2018-07-04 09:53 oifengo 阅读(755) 评论(0) 推荐(0)
摘要:t## 使用Selector提取数据 ## 从页面中提取数据是SPider最重要的的工作之一Selete对象从页面中提取数据的核心技术是HTTP文本解析,常用的文本解析模块:BeautifulSoup API简单 但解析速度慢lxml 由C语言编写的xml解析库(l... 阅读全文
posted @ 2018-07-01 20:22 oifengo 阅读(573) 评论(0) 推荐(0)
摘要:Scrapy简介Scrapy是一个用Python语言(基于Twisted框架)编写的开源网络爬虫框架.Scrapy安装linux:conda install scrapywin:略 Mac:没钱用 测试import scarpyprint(scrapy.version... 阅读全文
posted @ 2018-07-01 19:32 oifengo 阅读(504) 评论(0) 推荐(0)
摘要:Python标准库——urllib模块功能:打开URL和http协议之类python 3.x中urllib库和urilib2库合并成了urllib库。其中urllib2.urlopen()变成了urllib.request.urlopen()urllib2.Reque... 阅读全文
posted @ 2018-07-01 10:40 oifengo 阅读(554) 评论(0) 推荐(0)
摘要:因为Python无需编译直接执行,所以可以成为脚本脚本:简单的Python程序程序:大一点的、复杂的Python脚本爬虫:一种自动抓取互联网信息的程序爬虫的价值 基于爬取的数据进行分析,提取数据分析服务爬虫网络架构爬虫调度端:启动 运行 监控 1. ... 阅读全文
posted @ 2018-06-27 18:20 oifengo 阅读(278) 评论(0) 推荐(0)