b) 爬虫 - 随笔分类 - Lawliet__zmz

Node异步爬虫引出的异步流程控制的一些问题

摘要：前记：想写一个电影天堂的爬虫，因为node很长时间落下，就想用node去写一下。结果遇到了一些列的问题，这些问题归根到底就是异步流程控制的问题，在以前就一直会接触到很多回调地狱，Promise为什么会出现诸如此类的话题，现在终于是深刻体会到了！开始的代码是： const cheerio = re 阅读全文

posted @ 2018-06-27 17:10 Lawliet__zmz 阅读(153) 评论(0) 推荐(0)

Node爬虫爬博客园搜索

摘要：博客园右边有一个“找找看”的索引窗口，我们输入关键词，可以查到几万篇的相关的博客，这里用Node的爬虫来抓取给定关键词的查询的特定内容，实现翻页功能，抓取文章链接，作者，发布日期等信息。 Node适合高并发IO操作的程序，用来写爬虫速度最快了。这里我们把爬到的数据存储到数据库中。前奏： 1.che 阅读全文

posted @ 2017-10-19 14:07 Lawliet__zmz 阅读(307) 评论(0) 推荐(0)

Node 简单爬虫

摘要：以爬慕课网Hadoop进阶课程为例，用Node写一个简单的爬虫：先抓取这个网站的源码：然后分析这个页面的Dom，如图：每大章节都被一个chapter包围，抓取下来就是一个数组，对每个item，这张的大标题在strong里面，每章的小章节在video标签里，然后小标题就是J-media-item 阅读全文

posted @ 2017-09-24 16:44 Lawliet__zmz 阅读(186) 评论(0) 推荐(0)

Java jsoup多线程爬虫(爬豆瓣图书封面)

摘要：Java爬虫，就先爬个好爬的豆瓣读书的封面。 Java jsoup多线程爬虫(爬豆瓣图书封面) 利用线程池多线程爬，biubiubiu，速度超快。下载到指定的文件夹中。 App.java: 后续是不是可以翻页爬的，因为这个只是爬当前页面的，豆瓣读书网的书还有很多页，我们爬完这一页的，继续爬下一页？阅读全文

posted @ 2017-09-23 09:50 Lawliet__zmz 阅读(2556) 评论(0) 推荐(0)

爬新浪国内新闻网的某个新闻的评论

摘要：用开发人员工具右键检查“评论”的元素看到的只是一行span的代码，爬不到具体的评论内容。这时候猜想应该是通过JS增加上去的。我们通过寻找JS文件，可以找到然后点到header看获得方式为get和URL地址代码：扒出了评论数量阅读全文

posted @ 2017-04-21 21:11 Lawliet__zmz 阅读(147) 评论(0) 推荐(0)

简爬新浪新闻网

摘要：需要一个chrome浏览器插件，https://chrome.google.com/webstore/detail/infolite/ipjbadabbpedegielkhgpiekdlmfpgal，安装好后打开，可以看到网页块域的类名称import requestsfrom bs4 import ... 阅读全文

posted @ 2017-04-08 14:33 Lawliet__zmz 阅读(173) 评论(0) 推荐(0)

爬href链接

摘要：121a = ' I am a link 'soup2 = BeautifulSoup(a,'html.parser')print(soup2.select('a')[0]['href'])print(soup2.select('a')[0]['abc'])存储是以字典形式存储输出#456后序待补充... 阅读全文

posted @ 2017-04-07 21:03 Lawliet__zmz 阅读(166) 评论(0) 推荐(0)

Lawliet_ZMZ

同化完成....

随笔分类 - b) 爬虫

公告