随笔分类 - 数据入门学习
摘要:Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,而Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。 下面使用在同一个局域网下的两台电脑搭建分布式计算的环境: 其中JDK、Hadoop、Spark都已经在两台电脑上安装好。 一台Ubuntu主机系统Master,IP地址
阅读全文
摘要://屏蔽日志 //Javaimport org.apache.log4j.Level;import org.apache.log4j.Logger;Logger.getLogger("org.apache.spark").setLevel(Level.WARN);Logger.getLogger("
阅读全文
摘要:使用以下命令进行mysql安装: sudo apt-get update #更新软件源 sudo apt-get install mysql-server #安装mysql 由于安装时,mysql并未提示输入密码,导致启动mysql时输入密码报错ERROR 1698 (28000): Access
阅读全文
摘要:首先,把Hadoop命令加入到PATH环境变量中,直接通过start-dfs.sh开启Hadoop,也可以直接通过hdfs命令访问HDFS中的内容,方便平时的操作。 配置PATH环境变量 vim ~/.bashrc,进入编辑,在最前面加入如下单独一行 export PATH=$PATH:/usr/l
阅读全文
摘要:HBase是一个分布式、面向列的数据库,可以用来存储非结构化和半结构化的松散数据,具有高可靠、高性能、面向列、可伸缩的特性。通过行键(RowKey)、列族(ColumnFamily)、列(Column)、时间戳(TimeTape)四个维度对数据进行定位。 首先启动Hadoop:切换目录,cd /us
阅读全文
摘要:文件/文件夹操作: cd命令:切换目录 cd /usr/locsl :切换到目录 /usr/local cd .. :去到 ./ 的上层目录 cd ~ :回到主文件夹 mkdir命令:新建文件夹 mkdir a :新建a文件夹 mkdir -p a1/a2/a3/a4 :创建多级目录a1/a2/a3
阅读全文