爬虫 - 随笔分类 - foolangirl

爬虫5-Scrapy爬虫架构

摘要：简介 Scrapy是爬取网站，提取结构性数据并存储的应用框架。对爬取过程中的请求、返回、解析、存储、调度等流程提供模块化支持。 items模块——定义需要爬取的数据字段保存爬取到的数据的容器，python的字典类型。根据网站数据对item进行定义字段。 # items示例 import scrap 阅读全文

posted @ 2020-12-23 21:42 foolangirl 阅读(124) 评论(0) 推荐(0)

爬虫4-网站结构分析

摘要：为什么要分析网站结构在爬虫系统中，待抓取URL队列及队列中URL的排列顺序非常重要。这关系到能否遍历所有的目标页面，关系到抓取页面的先后问题。树状结构网站内容以树状结构组织，以一级、二级分类等一层层组织。以豆瓣电影为例：https://www.douban.com/ 1）一级首先要从电影分阅读全文

posted @ 2020-12-21 20:46 foolangirl 阅读(447) 评论(0) 推荐(0)

爬虫3-python爬取非结构化数据下载到本地

摘要：urlretrieve方法通过上节爬虫2，可以将结构化数据存入mysql等数据库，但脚本中还存在非结构化数据： # print(content.xpath('//*[@dd_name="大图"]/img/@src').pop()) # 图片 python的urlretrieve方法可实现将远程数据阅读全文

posted @ 2020-12-20 19:58 foolangirl 阅读(412) 评论(0) 推荐(0)

爬虫2-python爬取结构化数据存入mysql

摘要：也可以存入hive、HDFS，这里选择存在mysql。一、安装mysql（python在pyspark一节已配置好） https://blog.csdn.net/zhouzezhou/article/details/52446608 安装后找不到bin目录解决方法 https://blog.csd 阅读全文

posted @ 2020-12-19 20:20 foolangirl 阅读(424) 评论(0) 推荐(0)

爬虫1-python简单实践网页爬取+解析

摘要：爬虫 1.获取HTML网页信息 import requests url = 'http://product.dangdang.com/29148702.html' headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) Appl 阅读全文

posted @ 2020-12-13 19:27 foolangirl 阅读(338) 评论(0) 推荐(0)

x_lulu

随笔分类 - 爬虫

公告