摘要:
今天在学习爬虫的时候想着学习一下利用jsoup模拟登录。下面分为有验证码和无验证码的情况进行讨论。 无验证码的情况 1.我们正常利用网页进行登录,利用浏览器自带的开发者工具查看一些登录信息 我们登录的时候需要携带自己的身份信息,也就是用户名和密码。也会携带一些浏览器的信息,所以我们可以通过Jsoup 阅读全文
posted @ 2018-04-18 22:57
QiaoZhi
阅读(11985)
评论(3)
推荐(1)
摘要:
今天在用Jsoup爬虫的时候两次遇到下面错误 第一次: 代码: 解决办法: 第二次: 代码: 解决办法: 阅读全文
posted @ 2018-04-18 22:52
QiaoZhi
阅读(2506)
评论(1)
推荐(0)
摘要:
上一篇简单的实现了获取url返回的内容,在这一篇就要第返回的内容进行提取,并将结果保存到html中。而且这个爬虫是基于python爬虫的java语言实现,其逻辑大致相同。 一 、 需求: 抓取主页面:百度百科Python词条 https://baike.baidu.com/item/Python/4 阅读全文
posted @ 2018-04-18 22:02
QiaoZhi
阅读(697)
评论(0)
推荐(0)
摘要:
简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息。然后我们可以将这些有用的信息保存到数据库或者保存到文件中。如果我们手工一个一个访问提取非常慢,所以我们需要编写程序去获取有用的信息,这也就是爬虫的作用。 一、概念: 网络爬虫,也叫网络蜘蛛(Web Spide 阅读全文
posted @ 2018-04-18 21:40
QiaoZhi
阅读(1800)
评论(0)
推荐(0)
摘要:
上一篇简单的实现了获取url返回的内容,在这一篇就要第返回的内容进行提取,并将结果保存到html中。 一 、 需求: 抓取主页面:百度百科Python词条 https://baike.baidu.com/item/Python/407313 分析上面的源码格式,便于提取: 关键词分析:位于class 阅读全文
posted @ 2018-04-18 21:28
QiaoZhi
阅读(8384)
评论(3)
推荐(0)
摘要:
简答的爬虫 简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息。然后我们可以将这些有用的信息保存到数据库或者保存到文件中。如果我们手工一个一个访问提取非常慢,所以我们需要编写程序去获取有用的信息,这也就是爬虫的作用。 一、概念: 网络爬虫,也叫网络蜘蛛(Web 阅读全文
posted @ 2018-04-18 20:49
QiaoZhi
阅读(1667)
评论(1)
推荐(0)

浙公网安备 33010602011771号