随笔分类 -  爬虫

摘要:看到过一篇文章介绍爬虫,想着可以用爬虫上教务网爬取期末成绩,利用闲着的时间仔细研究了一下Java爬虫,发现网上很少用Java写爬虫,很多都是python,没有接触过这个语言,不做过多的评价。通过进一步的查询得到一个重要的信息,Java有一个专门处理网页源代码的类,这不就是写爬虫的重点吗,通常Java... 阅读全文
posted @ 2017-11-10 21:29 In_new 阅读(1760) 评论(0) 推荐(0)
摘要:之前有看过一段时间爬虫,了解了爬虫的原理,以及一些实现的方法,本项目完成于半年前,一直放在那里,现在和大家分享出来。网络爬虫简单的原理就是把程序想象成为一个小虫子,一旦进去了一个大门,这个小虫子就像进入了新世界一样,只要符合他的口味的东西就会放在自己的袋子里,但是他还不满足,只要见到可以打开的门,他... 阅读全文
posted @ 2017-11-10 21:29 In_new 阅读(2030) 评论(0) 推荐(0)
摘要:现在好多的小说网站只提供阅读,并不提供下载服务,既然能够读,可以在网页上看,那么小说内容一定在网页的源代码中用浏览器,右键,查看元素,查看网页源代码,以及代码结构(火狐浏览器)依旧使用Jsoup技术获取网页源代码(Jsoup有个选择器,把带有某种属性的标签选择出来,可以指定属性值),之后进行解析提取... 阅读全文
posted @ 2017-11-10 21:29 In_new 阅读(1553) 评论(0) 推荐(0)