随笔分类 -  数据入门学习

摘要:Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,而Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。 下面使用在同一个局域网下的两台电脑搭建分布式计算的环境: 其中JDK、Hadoop、Spark都已经在两台电脑上安装好。 一台Ubuntu主机系统Master,IP地址 阅读全文
posted @ 2019-10-13 01:50 ZJdiem 阅读(1127) 评论(0) 推荐(0)
摘要://屏蔽日志 //Javaimport org.apache.log4j.Level;import org.apache.log4j.Logger;Logger.getLogger("org.apache.spark").setLevel(Level.WARN);Logger.getLogger(" 阅读全文
posted @ 2019-10-06 13:52 ZJdiem 阅读(248) 评论(0) 推荐(0)
摘要:使用以下命令进行mysql安装: sudo apt-get update #更新软件源 sudo apt-get install mysql-server #安装mysql 由于安装时,mysql并未提示输入密码,导致启动mysql时输入密码报错ERROR 1698 (28000): Access 阅读全文
posted @ 2019-10-05 14:45 ZJdiem 阅读(1411) 评论(0) 推荐(0)
摘要:首先,把Hadoop命令加入到PATH环境变量中,直接通过start-dfs.sh开启Hadoop,也可以直接通过hdfs命令访问HDFS中的内容,方便平时的操作。 配置PATH环境变量 vim ~/.bashrc,进入编辑,在最前面加入如下单独一行 export PATH=$PATH:/usr/l 阅读全文
posted @ 2019-08-15 19:49 ZJdiem 阅读(1764) 评论(0) 推荐(0)
摘要:HBase是一个分布式、面向列的数据库,可以用来存储非结构化和半结构化的松散数据,具有高可靠、高性能、面向列、可伸缩的特性。通过行键(RowKey)、列族(ColumnFamily)、列(Column)、时间戳(TimeTape)四个维度对数据进行定位。 首先启动Hadoop:切换目录,cd /us 阅读全文
posted @ 2019-08-08 03:48 ZJdiem 阅读(312) 评论(0) 推荐(0)
摘要:文件/文件夹操作: cd命令:切换目录 cd /usr/locsl :切换到目录 /usr/local cd .. :去到 ./ 的上层目录 cd ~ :回到主文件夹 mkdir命令:新建文件夹 mkdir a :新建a文件夹 mkdir -p a1/a2/a3/a4 :创建多级目录a1/a2/a3 阅读全文
posted @ 2019-08-04 02:18 ZJdiem 阅读(258) 评论(0) 推荐(0)