随笔分类 -  爬虫

摘要:简介 Scrapy是爬取网站,提取结构性数据并存储的应用框架。对爬取过程中的请求、返回、解析、存储、调度等流程提供模块化支持。 items模块——定义需要爬取的数据字段 保存爬取到的数据的容器,python的字典类型。根据网站数据对item进行定义字段。 # items示例 import scrap 阅读全文
posted @ 2020-12-23 21:42 foolangirl 阅读(108) 评论(0) 推荐(0)
摘要:为什么要分析网站结构 在爬虫系统中,待抓取URL队列及队列中URL的排列顺序非常重要。这关系到能否遍历所有的目标页面,关系到抓取页面的先后问题。 树状结构 网站内容以树状结构组织,以一级、二级分类等一层层组织。 以豆瓣电影为例:https://www.douban.com/ 1)一级 首先要从电影分 阅读全文
posted @ 2020-12-21 20:46 foolangirl 阅读(431) 评论(0) 推荐(0)
摘要:urlretrieve方法 通过上节爬虫2,可以将结构化数据存入mysql等数据库,但脚本中还存在非结构化数据: # print(content.xpath('//*[@dd_name="大图"]/img/@src').pop()) # 图片 python的urlretrieve方法可实现将远程数据 阅读全文
posted @ 2020-12-20 19:58 foolangirl 阅读(387) 评论(0) 推荐(0)
摘要:也可以存入hive、HDFS,这里选择存在mysql。 一、安装mysql(python在pyspark一节已配置好) https://blog.csdn.net/zhouzezhou/article/details/52446608 安装后找不到bin目录解决方法 https://blog.csd 阅读全文
posted @ 2020-12-19 20:20 foolangirl 阅读(410) 评论(0) 推荐(0)
摘要:爬虫 1.获取HTML网页信息 import requests url = 'http://product.dangdang.com/29148702.html' headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) Appl 阅读全文
posted @ 2020-12-13 19:27 foolangirl 阅读(304) 评论(0) 推荐(0)