2020 年 6月 16 日随笔档案 - IT特工

2020年6月16日

摘要：爬虫的分类网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型通用网络爬虫：全网爬虫，爬取对象有种子URL扩展到整个网络聚焦网络爬虫：又称主题网络爬虫是指选择性地爬行那些与预先定义好的主体页面相关的网络爬虫增量式网络爬虫：对已爬取的网页进行增量式更新或只爬行新产生的或者已经发生变化网页的阅读全文

posted @ 2020-06-16 21:02 IT特工阅读(2190) 评论(0) 推荐(0)

Webmagic之使用Pipeline保存结果

摘要：使用Pipeline保存结果 WebMagic用于保存结果的组件叫做Pipeline.我们现在通过“控制台输出结果”，这件事也是通过一个内置的Pipeline完成的，它叫做ConsolePipeline 代码： package cn.itcast.webmagic;import us.codecra 阅读全文

posted @ 2020-06-16 17:45 IT特工阅读(877) 评论(0) 推荐(0)

Webmagci功能--获取链接

摘要：获取连接一个站点的页面是很多的，一开始不可能全部列举出来，于是如何发现后续的链接，是一个爬虫不可缺少的一部分获取链接(例子)： page.addTargetRequests(page.getHtml().css("div#news_div").links().regix(".*9$").all( 阅读全文

posted @ 2020-06-16 17:30 IT特工阅读(199) 评论(0) 推荐(0)

Webmagic功能--抽取元素

摘要：抽取元素Selectable 在webmagic中主要使用了三种抽取技术：Xpath、正则表达式和CSS选择器。另外对JSON格式的内容可以使用JsonPath进行解析 Xpath：详情了解查看w3cschool 下面是一个例子，获取属性class=mt的div标签，里面的h1标签的内容 page. 阅读全文

posted @ 2020-06-16 16:17 IT特工阅读(1394) 评论(0) 推荐(0)

Webmagic入门案例

摘要： webmagic 需要的依赖： <dependencies> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependen 阅读全文

posted @ 2020-06-16 15:35 IT特工阅读(434) 评论(0) 推荐(0)

IT特工

公告