07 2019 档案

摘要:使用HABSE之前,要先安装一个zookeeper 我以前写的有https://www.cnblogs.com/wpbing/p/11309761.html 先简单介绍一下HBASE HBASE是一个数据库 可以提供数据的实时随机读写 他是一个nosql数据库,并不是结构化的,他只能粗略的进行一些查 阅读全文
posted @ 2019-07-27 10:48 踩在浪花上 阅读(730) 评论(0) 推荐(0)
摘要:关于mapreduce的一些注意细节 如果把mapreduce程序打包放到了liux下去运行, 命令java –cp xxx.jar 主类名 如果报错了,说明是缺少相关的依赖jar包 用命令hadoop jar xxx.jar 类名因为在集群机器上用 hadoop jar xx.jar mr.wc. 阅读全文
posted @ 2019-07-25 10:55 踩在浪花上 阅读(834) 评论(0) 推荐(0)
摘要:mapreduce是一个运算框架,让多台机器进行并行进行运算, 他把所有的计算都分为两个阶段,一个是map阶段,一个是reduce阶段 map阶段:读取hdfs中的文件,分给多个机器上的maptask,分文件的时候是按照文件的大小分的 比如每个maptask都会处理128M的文件大小,然后有个500 阅读全文
posted @ 2019-07-24 15:48 踩在浪花上 阅读(667) 评论(0) 推荐(0)
摘要:首先要在windows下解压一个windows版本的hadoop 然后在配置他的环境变量,同时要把hadoop的share目录下的hadoop下的相关jar包拷贝到esclipe 然后Build Path 下面上代码 练习:从一个文件里面不断地采集日志上传到hdfs里面 1.流程介绍 启动一个定时任 阅读全文
posted @ 2019-07-23 17:52 踩在浪花上 阅读(603) 评论(0) 推荐(0)
摘要:hdfs:分布式文件系统 有目录结构,顶层目录是: /,存的是文件,把文件存入hdfs后,会把这个文件进行切块并且进行备份,切块大小和备份的数量有客户决定。 存文件的叫datanode,记录文件的切块信息的叫namenode Hdfs的安装 准备四台linux服务器 先在hdp-01上进行下面操作 阅读全文
posted @ 2019-07-23 12:03 踩在浪花上 阅读(954) 评论(0) 推荐(0)
摘要:首先是工具介绍 Jsoup jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 HttpClient HTTP 协议可能是现在 Internet 上使用得最多、 阅读全文
posted @ 2019-07-22 13:00 踩在浪花上 阅读(6454) 评论(3) 推荐(3)