随笔分类 - 爬虫
摘要:简介 Scrapy是爬取网站,提取结构性数据并存储的应用框架。对爬取过程中的请求、返回、解析、存储、调度等流程提供模块化支持。 items模块——定义需要爬取的数据字段 保存爬取到的数据的容器,python的字典类型。根据网站数据对item进行定义字段。 # items示例 import scrap
阅读全文
摘要:为什么要分析网站结构 在爬虫系统中,待抓取URL队列及队列中URL的排列顺序非常重要。这关系到能否遍历所有的目标页面,关系到抓取页面的先后问题。 树状结构 网站内容以树状结构组织,以一级、二级分类等一层层组织。 以豆瓣电影为例:https://www.douban.com/ 1)一级 首先要从电影分
阅读全文
摘要:urlretrieve方法 通过上节爬虫2,可以将结构化数据存入mysql等数据库,但脚本中还存在非结构化数据: # print(content.xpath('//*[@dd_name="大图"]/img/@src').pop()) # 图片 python的urlretrieve方法可实现将远程数据
阅读全文
摘要:也可以存入hive、HDFS,这里选择存在mysql。 一、安装mysql(python在pyspark一节已配置好) https://blog.csdn.net/zhouzezhou/article/details/52446608 安装后找不到bin目录解决方法 https://blog.csd
阅读全文
摘要:爬虫 1.获取HTML网页信息 import requests url = 'http://product.dangdang.com/29148702.html' headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) Appl
阅读全文