hadoop,spark,mllib大数据开发 - 随笔分类 - 鎏鑫岁月

Failed to start Docker Application Container Engine

摘要：然后就可以了吧阅读全文

posted @ 2017-07-14 11:56 鎏鑫岁月阅读(3889) 评论(0) 推荐(0)

摘要：1、mapreduce任务可以用linux上的crontab来执行定时任务用crontab执行定时任务时注意：手动运行脚本会执行，可是定时就不行。原因：应该重新指定环境变量 2、spark任务还可以用sparkStreamingContext来设置，spark任务执行时间间隔，来执行定时任务。两阅读全文

posted @ 2016-09-20 14:44 鎏鑫岁月阅读(2566) 评论(0) 推荐(0)

java.lang.NoSuchMethodError问题处理

摘要：http://blog.csdn.net/alivetime/article/details/6288446 http://blog.csdn.net/wzq294328238/article/details/48054525 当设置了extraClassPath后，在spark上运行spark-s 阅读全文

posted @ 2016-09-12 10:54 鎏鑫岁月阅读(199) 评论(0) 推荐(0)

HBASE

摘要：一、HBase相关概念 HFile是HBase专用的HDFS文件格式。域服务器中的HFile实现负责从HDFS读取HFile，以及将HFile写入到HDFS。分布式的HBase实例依赖于处在运行状态的Zookeeper集群。默认情况下，HBase管理一个Zookeeper集群（HBase将Zoo 阅读全文

posted @ 2016-09-05 12:25 鎏鑫岁月阅读(201) 评论(0) 推荐(0)

搭建spark+hadoop平台

摘要：1、安装jdk 2、安装scala，更改/etc/profile 加入： export SCALA_HOME=/root/bigData/scala-2.11.8 export PATH=${SCALA_HOME}/bin:$PATH source /etc/profile 生效测试：直接输入sc 阅读全文

posted @ 2016-09-02 00:34 鎏鑫岁月阅读(779) 评论(0) 推荐(0)

HDFS

摘要：HDFS：Hadoop分布式文件系统特性：1、可扩展，高性能，适用于特定类型的应用，不是通用的分布式文件系统。 2、HDFS针对高速流式读取，对随机查找性能差 3、支持写入、删除、追加和读取，不支持更新。它假定的应用场景是数据一次性写入HDFS，然后多次读取（访问模型）。 4、HDFS不提供本地数阅读全文

posted @ 2016-08-30 11:27 鎏鑫岁月阅读(199) 评论(0) 推荐(0)

spark从hbase读取数据以及zookeeper坑

摘要：1、遇到错误，认真查看日志，这才是解决问题的王道啊！不过很多时候，尤其是开始摸索的时候，一下要接触的东西太多了，学东西也太赶了，加上boss不停的催进度，结果欲速则不达，最近接触大数据，由于平台是别人搭建的，搭没搭好不知道，也不清楚细节，出了问题也不知道是自己这边的还是平台的问题。有的时候就是小问阅读全文

posted @ 2016-08-25 11:01 鎏鑫岁月阅读(7898) 评论(0) 推荐(0)

hadoop+spark+hbase

摘要：spark web UI: http://xxx.xx.xxx:8180/ HBASE web: http://10.3.9.135:16010/master-status HADOOP: xxx.xx.xxx:8088 Hadoop资源管理 xxx.xx.xxx:50070 HDFS文件管理，节点阅读全文

posted @ 2016-08-24 09:37 鎏鑫岁月阅读(222) 评论(0) 推荐(0)

HBase命行及读取

摘要：列出表：list 获取表描述：describe 'CityWeather' 例子：这里只有一列，列族名为cf，qualifier是在插入数据时指定的所以没有在表的描述里面浏览表：scan ‘CityWeather’ , {VERSIONS => 10}浏览最近更新的前十个版本 scan ‘Cit 阅读全文

posted @ 2016-08-22 11:22 鎏鑫岁月阅读(784) 评论(0) 推荐(0)

java 打包与运行

摘要：问题1：java -jar xxx.jar，运行jar包没有主属性清单解决：打开压缩包打开文件夹META-INF，找到MANIFEST.MF文件，增加： Main-Class: hadoop.HdfsTest（注意：冒号后面要有个空格，不然会提示invalid or corrupt jarfile 阅读全文

posted @ 2016-08-22 09:49 鎏鑫岁月阅读(526) 评论(0) 推荐(0)

hadoop

摘要：上传文件到hdfs上：hadoop fs -put 本地 hdfs目录阅读全文

posted @ 2016-08-19 16:14 鎏鑫岁月阅读(119) 评论(0) 推荐(0)

Spark+hadoop+mllib及相关概念与操作笔记

摘要：Spark+hadoop+mllib及相关概念与操作笔记作者： lw 版本： 0.1 时间： 2016-07-18 1、调研相关注意事项 a) 理解调研调研的意义在于了解当前情况，挖掘潜在的问题，解决存在的疑问，并得到相应的方案。 b) 调研流程首先明确和梳理现有的疑问是什么，要通过调研解决什阅读全文

posted @ 2016-08-09 17:24 鎏鑫岁月阅读(633) 评论(0) 推荐(0)

spark 随意笔记

摘要：Spark comes with several sample programs. Scala, Java, Python and R examples are in the examples/src/main directory. To run one of the Java or Scala s 阅读全文

posted @ 2016-07-20 10:24 鎏鑫岁月阅读(229) 评论(0) 推荐(0)

hadoop 基本操作命令

摘要：HDFS原理由nameNode记录，由dataNode存储，存储方式应该可以配置，但是要存储与查看要通过命令，而不能直接查看（粗略理解，肯定在磁盘上是可以看到的三，不过在哪里喃，还没切看）推送文件到HDFS hadoop fs -put 本地集群 eg: hadoop fs -put /lw.t 阅读全文

posted @ 2016-07-19 16:02 鎏鑫岁月阅读(164) 评论(0) 推荐(0)

mllib文档笔记1

摘要：spark.mllib contains the original API built on top of RDDs. spark.mllib 包含原始API构建于RDD之上。spark.ml provides higher-level API built on top of DataFrames 阅读全文

posted @ 2016-07-19 13:56 鎏鑫岁月阅读(388) 评论(0) 推荐(0)

鎏鑫岁月

随笔分类 - hadoop,spark,mllib大数据开发

公告