随笔分类 -  hadoop,spark,mllib大数据开发

摘要:然后就可以了吧 阅读全文
posted @ 2017-07-14 11:56 鎏鑫岁月 阅读(3884) 评论(0) 推荐(0)
摘要:1、mapreduce任务可以用linux上的crontab来执行定时任务 用crontab执行定时任务时注意:手动运行脚本会执行,可是定时就不行。原因:应该重新指定环境变量 2、spark任务还可以用sparkStreamingContext来设置,spark任务执行时间间隔,来执行定时任务。 两 阅读全文
posted @ 2016-09-20 14:44 鎏鑫岁月 阅读(2563) 评论(0) 推荐(0)
摘要:http://blog.csdn.net/alivetime/article/details/6288446 http://blog.csdn.net/wzq294328238/article/details/48054525 当设置了extraClassPath后,在spark上运行spark-s 阅读全文
posted @ 2016-09-12 10:54 鎏鑫岁月 阅读(196) 评论(0) 推荐(0)
摘要:一、HBase相关概念 HFile是HBase专用的HDFS文件格式。域服务器中的HFile实现负责从HDFS读取HFile,以及将HFile写入到HDFS。 分布式的HBase实例依赖于处在运行状态的Zookeeper集群。 默认情况下,HBase管理一个Zookeeper集群(HBase将Zoo 阅读全文
posted @ 2016-09-05 12:25 鎏鑫岁月 阅读(198) 评论(0) 推荐(0)
摘要:1、安装jdk 2、安装scala,更改/etc/profile 加入: export SCALA_HOME=/root/bigData/scala-2.11.8 export PATH=${SCALA_HOME}/bin:$PATH source /etc/profile 生效 测试:直接输入sc 阅读全文
posted @ 2016-09-02 00:34 鎏鑫岁月 阅读(775) 评论(0) 推荐(0)
摘要:HDFS:Hadoop分布式文件系统 特性:1、可扩展,高性能,适用于特定类型的应用,不是通用的分布式文件系统。 2、HDFS针对高速流式读取,对随机查找性能差 3、支持写入、删除、追加和读取,不支持更新。它假定的应用场景是数据一次性写入HDFS,然后多次读取(访问模型)。 4、HDFS不提供本地数 阅读全文
posted @ 2016-08-30 11:27 鎏鑫岁月 阅读(197) 评论(0) 推荐(0)
摘要:1、遇到错误,认真查看日志,这才是解决问题的王道啊! 不过很多时候,尤其是开始摸索的时候,一下要接触的东西太多了,学东西也太赶了,加上boss不停的催进度,结果欲速则不达,最近接触大数据,由于平台是别人搭建的,搭没搭好不知道,也不清楚细节,出了问题也不知道是自己这边的还是平台的问题。有的时候就是小问 阅读全文
posted @ 2016-08-25 11:01 鎏鑫岁月 阅读(7895) 评论(0) 推荐(0)
摘要:spark web UI: http://xxx.xx.xxx:8180/ HBASE web: http://10.3.9.135:16010/master-status HADOOP: xxx.xx.xxx:8088 Hadoop资源管理 xxx.xx.xxx:50070 HDFS文件管理,节点 阅读全文
posted @ 2016-08-24 09:37 鎏鑫岁月 阅读(221) 评论(0) 推荐(0)
摘要:列出表:list 获取表描述:describe 'CityWeather' 例子: 这里只有一列,列族名为cf,qualifier是在插入数据时指定的所以没有在表的描述里面 浏览表:scan ‘CityWeather’ , {VERSIONS => 10}浏览最近更新的前十个版本 scan ‘Cit 阅读全文
posted @ 2016-08-22 11:22 鎏鑫岁月 阅读(776) 评论(0) 推荐(0)
摘要:问题1:java -jar xxx.jar,运行jar包没有主属性清单 解决:打开压缩包打开文件夹META-INF,找到MANIFEST.MF文件,增加: Main-Class: hadoop.HdfsTest(注意:冒号后面要有个空格,不然会提示invalid or corrupt jarfile 阅读全文
posted @ 2016-08-22 09:49 鎏鑫岁月 阅读(522) 评论(0) 推荐(0)
摘要:上传文件到hdfs上:hadoop fs -put 本地 hdfs目录 阅读全文
posted @ 2016-08-19 16:14 鎏鑫岁月 阅读(119) 评论(0) 推荐(0)
摘要:Spark+hadoop+mllib及相关概念与操作笔记 作者: lw 版本: 0.1 时间: 2016-07-18 1、调研相关注意事项 a) 理解调研 调研的意义在于了解当前情况,挖掘潜在的问题,解决存在的疑问,并得到相应的方案。 b) 调研流程 首先明确和梳理现有的疑问是什么,要通过调研解决什 阅读全文
posted @ 2016-08-09 17:24 鎏鑫岁月 阅读(628) 评论(0) 推荐(0)
摘要:Spark comes with several sample programs. Scala, Java, Python and R examples are in the examples/src/main directory. To run one of the Java or Scala s 阅读全文
posted @ 2016-07-20 10:24 鎏鑫岁月 阅读(226) 评论(0) 推荐(0)
摘要:HDFS原理由nameNode记录,由dataNode存储,存储方式应该可以配置,但是要存储与查看要通过命令,而不能直接查看(粗略理解,肯定在磁盘上是可以看到的三,不过在哪里喃,还没切看) 推送文件到HDFS hadoop fs -put 本地 集群 eg: hadoop fs -put /lw.t 阅读全文
posted @ 2016-07-19 16:02 鎏鑫岁月 阅读(164) 评论(0) 推荐(0)
摘要:spark.mllib contains the original API built on top of RDDs. spark.mllib 包含原始API构建于RDD之上。spark.ml provides higher-level API built on top of DataFrames 阅读全文
posted @ 2016-07-19 13:56 鎏鑫岁月 阅读(385) 评论(0) 推荐(0)