随笔分类 - b) 爬虫
摘要:前记: 想写一个电影天堂的爬虫,因为node很长时间落下,就想用node去写一下。结果遇到了一些列的问题,这些问题归根到底就是异步流程控制的问题,在以前就一直会接触到很多回调地狱,Promise为什么会出现诸如此类的话题,现在终于是深刻体会到了! 开始的代码是: const cheerio = re
阅读全文
摘要:博客园右边有一个“找找看”的索引窗口,我们输入关键词,可以查到几万篇的相关的博客,这里用Node的爬虫来抓取给定关键词的查询的特定内容,实现翻页功能,抓取文章链接,作者,发布日期等信息。 Node适合高并发IO操作的程序,用来写爬虫速度最快了。这里我们把爬到的数据存储到数据库中。 前奏: 1.che
阅读全文
摘要:以爬慕课网Hadoop进阶课程为例,用Node写一个简单的爬虫: 先抓取这个网站的源码: 然后分析这个页面的Dom,如图: 每大章节都被一个chapter包围,抓取下来就是一个数组,对每个item,这张的大标题在strong里面,每章的小章节在video标签里,然后小标题就是J-media-item
阅读全文
摘要:Java爬虫,就先爬个好爬的豆瓣读书的封面。 Java jsoup多线程爬虫(爬豆瓣图书封面) 利用线程池多线程爬,biubiubiu,速度超快。 下载到指定的文件夹中。 App.java: 后续是不是可以翻页爬的,因为这个只是爬当前页面的,豆瓣读书网的书还有很多页,我们爬完这一页的,继续爬下一页?
阅读全文
摘要:用开发人员工具右键检查“评论”的元素看到的只是一行span的代码,爬不到具体的评论内容。这时候猜想应该是通过JS增加上去的。我们通过寻找JS文件,可以找到然后点到header看获得方式为get和URL地址代码:扒出了评论数量
阅读全文
摘要:需要一个chrome浏览器插件,https://chrome.google.com/webstore/detail/infolite/ipjbadabbpedegielkhgpiekdlmfpgal,安装好后打开,可以看到网页块域的类名称import requestsfrom bs4 import ...
阅读全文
摘要:121a = ' I am a link 'soup2 = BeautifulSoup(a,'html.parser')print(soup2.select('a')[0]['href'])print(soup2.select('a')[0]['abc'])存储是以字典形式存储输出#456后序待补充...
阅读全文

浙公网安备 33010602011771号