爬虫 - 随笔分类 - oifengo

摘要：有些网站需要登录后才能爬取到有用的信息，Scrapy先模拟登录，再进行信息爬取。登录实质理解登录的实质，跟踪一次登录操作http://example.webscraping.com/ 页面的表单对应的HTML的《form》,log in会根据form元素的内容发送一... 阅读全文

posted @ 2018-07-17 11:43 oifengo 阅读(319) 评论(0) 推荐(0)

摘要：Scrapy从入门到精通系列前四篇已经讲了从网页中获取信息的方法，除此之外，爬虫也可以从网页中下载图片、视频、word、pdf、压缩包等FilesPipeline和ImagePipelineScarpy框架内部提供了这两个Item Pipeline专门用来下载文件和图... 阅读全文

posted @ 2018-07-15 15:14 oifengo 阅读(483) 评论(0) 推荐(0)

摘要：项目实战url = http://books.toscrape.com页面分析scrapy shell U R L> scrapy shell URL>可以使用户在交互式命令行下操作一个Scrapy，通常用来进行前期爬取实验，提高开发效率scrapy shell h... 阅读全文

posted @ 2018-07-05 13:55 oifengo 阅读(454) 评论(0) 推荐(0)

摘要：使用Item封装数据前两篇博客介绍了从页面中提取数据的方法，现在用item封装爬取到的数据Item和FieldScrapy提供了Item和Field类，可以用他们自定义数据类，封装爬取到的数据Item ：自定义数据类(BookItem)的基类Field：描述自定义数据... 阅读全文

posted @ 2018-07-04 09:53 oifengo 阅读(755) 评论(0) 推荐(0)

摘要：t## 使用Selector提取数据 ## 从页面中提取数据是SPider最重要的的工作之一Selete对象从页面中提取数据的核心技术是HTTP文本解析，常用的文本解析模块：BeautifulSoup API简单但解析速度慢lxml 由C语言编写的xml解析库(l... 阅读全文

posted @ 2018-07-01 20:22 oifengo 阅读(573) 评论(0) 推荐(0)

摘要：Scrapy简介Scrapy是一个用Python语言（基于Twisted框架）编写的开源网络爬虫框架.Scrapy安装linux:conda install scrapywin：略 Mac：没钱用测试import scarpyprint(scrapy.version... 阅读全文

posted @ 2018-07-01 19:32 oifengo 阅读(504) 评论(0) 推荐(0)

Python爬虫常用模块

摘要：Python标准库——urllib模块功能：打开URL和http协议之类python 3.x中urllib库和urilib2库合并成了urllib库。其中urllib2.urlopen()变成了urllib.request.urlopen()urllib2.Reque... 阅读全文

posted @ 2018-07-01 10:40 oifengo 阅读(554) 评论(0) 推荐(0)

简单的Python爬虫

摘要：因为Python无需编译直接执行，所以可以成为脚本脚本：简单的Python程序程序：大一点的、复杂的Python脚本爬虫：一种自动抓取互联网信息的程序爬虫的价值基于爬取的数据进行分析，提取数据分析服务爬虫网络架构爬虫调度端：启动运行监控 1. ... 阅读全文

posted @ 2018-06-27 18:20 oifengo 阅读(278) 评论(0) 推荐(0)

oifengo