随笔档案「2019年7月」 - 踩在浪花上

Hadoop学习(6)-HBASE的安装和命令行操作和java操作

摘要：使用HABSE之前，要先安装一个zookeeper 我以前写的有https://www.cnblogs.com/wpbing/p/11309761.html 先简单介绍一下HBASE HBASE是一个数据库可以提供数据的实时随机读写他是一个nosql数据库，并不是结构化的，他只能粗略的进行一些查阅读全文

posted @ 2019-07-27 10:48 踩在浪花上阅读(734) 评论(0) 推荐(0)

Hadoop学习(4)-mapreduce的一些注意事项

摘要：关于mapreduce的一些注意细节如果把mapreduce程序打包放到了liux下去运行，命令java –cp xxx.jar 主类名如果报错了，说明是缺少相关的依赖jar包用命令hadoop jar xxx.jar 类名因为在集群机器上用 hadoop jar xx.jar mr.wc. 阅读全文

posted @ 2019-07-25 10:55 踩在浪花上阅读(844) 评论(0) 推荐(0)

Hadoop学习(3)-mapreduce快速入门加yarn的安装

摘要：mapreduce是一个运算框架，让多台机器进行并行进行运算，他把所有的计算都分为两个阶段，一个是map阶段，一个是reduce阶段 map阶段：读取hdfs中的文件，分给多个机器上的maptask，分文件的时候是按照文件的大小分的比如每个maptask都会处理128M的文件大小，然后有个500 阅读全文

posted @ 2019-07-24 15:48 踩在浪花上阅读(675) 评论(0) 推荐(0)

Hadoop学习(2)-java客户端操作hdfs及secondarynode作用

摘要：首先要在windows下解压一个windows版本的hadoop 然后在配置他的环境变量，同时要把hadoop的share目录下的hadoop下的相关jar包拷贝到esclipe 然后Build Path 下面上代码练习：从一个文件里面不断地采集日志上传到hdfs里面 1.流程介绍启动一个定时任阅读全文

posted @ 2019-07-23 17:52 踩在浪花上阅读(605) 评论(0) 推荐(0)

Hadoop学习(1)-hdfs安装及其一些操作

摘要：hdfs：分布式文件系统有目录结构，顶层目录是： /,存的是文件，把文件存入hdfs后，会把这个文件进行切块并且进行备份，切块大小和备份的数量有客户决定。存文件的叫datanode，记录文件的切块信息的叫namenode Hdfs的安装准备四台linux服务器先在hdp-01上进行下面操作阅读全文

posted @ 2019-07-23 12:03 踩在浪花上阅读(962) 评论(0) 推荐(0)

关于java爬虫以及一些实例

摘要：首先是工具介绍 Jsoup jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。 HttpClient HTTP 协议可能是现在 Internet 上使用得最多、阅读全文

posted @ 2019-07-22 13:00 踩在浪花上阅读(6460) 评论(3) 推荐(3)

SZUhg

07 2019 档案

公告