会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Qiao_Zhi
有远大抱负的人不可忽略眼前的工作!!!
新随笔
联系
订阅
管理
上一页
1
···
54
55
56
57
58
59
60
61
62
···
148
下一页
2018年4月19日
htmlunit爬虫工具使用--模拟浏览器发送请求,获取JS动态生成的页面内容
摘要: Htmlunit是一款模拟浏览抓取页面内容的java框架,具有js解析引擎(rhino),可以解析页面的js脚本,得到完整的页面内容,特殊适合于这种非完整页面的站点抓取。 下载地址: https://sourceforge.net/projects/htmlunit/files/htmlunit/
阅读全文
posted @ 2018-04-19 11:49 QiaoZhi
阅读(5862)
评论(0)
推荐(1)
2018年4月18日
利用Jsoup模拟跳过登录爬虫获取数据
摘要: 今天在学习爬虫的时候想着学习一下利用jsoup模拟登录。下面分为有验证码和无验证码的情况进行讨论。 无验证码的情况 1.我们正常利用网页进行登录,利用浏览器自带的开发者工具查看一些登录信息 我们登录的时候需要携带自己的身份信息,也就是用户名和密码。也会携带一些浏览器的信息,所以我们可以通过Jsoup
阅读全文
posted @ 2018-04-18 22:57 QiaoZhi
阅读(11965)
评论(3)
推荐(1)
jsoup抓取网页报错UnsupportedMimeTypeException
摘要: 今天在用Jsoup爬虫的时候两次遇到下面错误 第一次: 代码: 解决办法: 第二次: 代码: 解决办法:
阅读全文
posted @ 2018-04-18 22:52 QiaoZhi
阅读(2501)
评论(1)
推荐(0)
Java爬虫(二)
摘要: 上一篇简单的实现了获取url返回的内容,在这一篇就要第返回的内容进行提取,并将结果保存到html中。而且这个爬虫是基于python爬虫的java语言实现,其逻辑大致相同。 一 、 需求: 抓取主页面:百度百科Python词条 https://baike.baidu.com/item/Python/4
阅读全文
posted @ 2018-04-18 22:02 QiaoZhi
阅读(693)
评论(0)
推荐(0)
Java简单爬虫(一)
摘要: 简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息。然后我们可以将这些有用的信息保存到数据库或者保存到文件中。如果我们手工一个一个访问提取非常慢,所以我们需要编写程序去获取有用的信息,这也就是爬虫的作用。 一、概念: 网络爬虫,也叫网络蜘蛛(Web Spide
阅读全文
posted @ 2018-04-18 21:40 QiaoZhi
阅读(1792)
评论(0)
推荐(0)
python简单爬虫(二)
摘要: 上一篇简单的实现了获取url返回的内容,在这一篇就要第返回的内容进行提取,并将结果保存到html中。 一 、 需求: 抓取主页面:百度百科Python词条 https://baike.baidu.com/item/Python/407313 分析上面的源码格式,便于提取: 关键词分析:位于class
阅读全文
posted @ 2018-04-18 21:28 QiaoZhi
阅读(8324)
评论(3)
推荐(0)
python简单爬虫(一)python自带的urllib发送get请求和Post请求&代理handler使用&代理IP池使用
摘要: 简答的爬虫 简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息。然后我们可以将这些有用的信息保存到数据库或者保存到文件中。如果我们手工一个一个访问提取非常慢,所以我们需要编写程序去获取有用的信息,这也就是爬虫的作用。 一、概念: 网络爬虫,也叫网络蜘蛛(Web
阅读全文
posted @ 2018-04-18 20:49 QiaoZhi
阅读(1654)
评论(1)
推荐(0)
2018年4月17日
hdfs的datanode工作原理
摘要: datanode的作用: (1)提供真实文件数据的存储服务。 (2)文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一
阅读全文
posted @ 2018-04-17 23:04 QiaoZhi
阅读(2570)
评论(1)
推荐(0)
python切片
摘要: 切片实际上是取子集,类似于java和JS的substrig()方法的功能。为了截取指定部分的数据才产生切片的概念。 切片实际上是三个参数, 'abc'[start:end:step] 第一个参数是起始下标(取值的时候包含该下标),如果缺省该下标代表从0开始 第二个参数是结束下标(取值的时候不包含该下
阅读全文
posted @ 2018-04-17 19:52 QiaoZhi
阅读(567)
评论(0)
推荐(0)
python面向对象编程
摘要: 面向对象的概念: 类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。 类变量:类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实例变量使用。直接通过类名.属性访问的就是类成员。定义成员在方法外
阅读全文
posted @ 2018-04-17 19:47 QiaoZhi
阅读(275)
评论(0)
推荐(0)
上一页
1
···
54
55
56
57
58
59
60
61
62
···
148
下一页
公告