1 2 3 4 1
上一页 1 2 3 4 5 6 ··· 15 下一页
摘要: scrapy框架之Selectors选择器 Selectors(选择器) 当您抓取网页时,您需要执行的最常见任务是从HTML源中提取数据。有几个库可以实现这一点: BeautifulSoup是Python程序员中非常流行的网络抓取库,它基于HTML代码的结构构建一个Python对象,并且处理相当糟糕 阅读全文
posted @ 2019-10-05 13:25 初级炼药师 阅读(194) 评论(0) 推荐(0) 编辑
摘要: scrapy框架之items项目 Items 主要目标是从非结构化来源(通常是网页)提取结构化数据。Scrapy爬虫可以将提取的数据作为Python语句返回。虽然方便和熟悉,Python dicts缺乏结构:很容易在字段名称中输入错误或返回不一致的数据,特别是在与许多爬虫的大项目。 要定义公共输出数 阅读全文
posted @ 2019-10-05 13:23 初级炼药师 阅读(151) 评论(0) 推荐(0) 编辑
摘要: scrapy框架之spider 爬取流程 Spider类定义如何爬取指定的一个或多个网站,包括是否要跟进网页里的链接和如何提取网页内容中的数据。 爬取的过程是类似以下步骤的循环: 1.通过指定的初始URL初始化Request,并指定回调函数。当Request下载完后,生成Response作为参数传给 阅读全文
posted @ 2019-10-05 13:22 初级炼药师 阅读(260) 评论(0) 推荐(0) 编辑
摘要: scrapy框架之shell scrapy shell scrapy shell是一个交互式shell,您可以在其中快速调试 scrape 代码,而不必运行spider。它本来是用来测试数据提取代码的,但实际上您可以使用它来测试任何类型的代码,因为它也是一个常规的Python shell。 shel 阅读全文
posted @ 2019-10-05 12:36 初级炼药师 阅读(362) 评论(0) 推荐(0) 编辑
摘要: scrapy框架之进阶 五大核心组件 - 引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) - 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下 阅读全文
posted @ 2019-10-05 12:34 初级炼药师 阅读(288) 评论(0) 推荐(0) 编辑
摘要: scrapy框架之基础 一、安装scrapy 安装失败看博客>>>scrapy安装失败解决方案 pip install wheel pip install twisted pip install pywin32 pip install scrapy 二、创建爬虫项目 scrapy startproj 阅读全文
posted @ 2019-10-05 12:33 初级炼药师 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 爬虫之获取猫眼电影10W评论 第一步 打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃!!!! 于是又上网查,终于看到一篇文章说到开发者模式可以直接 阅读全文
posted @ 2019-10-05 12:31 初级炼药师 阅读(612) 评论(0) 推荐(0) 编辑
摘要: 动态字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的。 现在貌似不少网站都有采用这种反爬机制,我们通过猫眼的实际情况来解释一下。 下图的是猫眼网页上的显示: 检查元素 阅读全文
posted @ 2019-10-05 12:27 初级炼药师 阅读(917) 评论(0) 推荐(1) 编辑
摘要: 破解字体加密 获取用户的url 找到目标用户 查看我们要获取的信息 检查网页源代码 发现该网站的字体是自定义的,我们在爬取时需要获取它的字体文件,根据它的编码格式进行解码; 通过http://fontstore.baidu.com/static/editor/index.html查看下载的字体文件, 阅读全文
posted @ 2019-10-05 12:25 初级炼药师 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 分析流程 有道翻译:http://fanyi.youdao.com/ 确定网页加载方式 找到真实的url地址 请求接口和请求参数中携带的sign 寻找sign的加密方式 复制sign全网页搜索这个变量 格式化后的HTML代码 找到sign 分析加密得请求参数是怎么生成得 浏览器版本号 # -*- c 阅读全文
posted @ 2019-10-05 12:24 初级炼药师 阅读(892) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 15 下一页