随笔分类 -  spark

the ever!
摘要:转自 1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0): 对于稠密向量:很直观,你要创建什么,就加入什么,其函数声明为 阅读全文
posted @ 2016-04-23 09:25 nolonely 阅读(4598) 评论(0) 推荐(0)
摘要:RDD操作 1.对一个数据为{1,2,3,3}的RDD进行基本的RDD转化操作 map() {1,2,3} 2.对数据分别为{1,2,3}和{3,4,5}的RDD进行针对两个RDD的转化操作 3.对一个数据为{1,2,3,3}的RDD进行基本的RDD行动操作 rdd.aggregate((0,0)) 阅读全文
posted @ 2016-04-17 22:55 nolonely 阅读(5738) 评论(1) 推荐(0)
摘要:Scala允许使用三个引号来进行多行字符引用:(引自) 1.正则表达式: 与正则表达式相关的类是scala.util.matching.Regex类,要构造一个Regex对象,使用String类的r方法即可,如果正则表达式中包含反斜杠或引号之类的需要转义的字符,那么最好是使用原始(raw)字符串,以 阅读全文
posted @ 2016-04-17 19:05 nolonely 阅读(689) 评论(0) 推荐(0)
摘要:1.drop,dropRight,dropWhile drop: drop(n: Int): List[A] 丢弃前n个元素,返回剩下的元素 dropRight: dropRight(n: Int): List[A] 丢弃最后n个元素,返回剩下的元素 dropWhile: dropWhile(p: 阅读全文
posted @ 2016-04-14 15:15 nolonely 阅读(1164) 评论(1) 推荐(0)
摘要:1.在spark的伪分布式环境下安装HBASE (1)版本:我使用的spark版本是1.3.0,使用的hbase版本是hbase-0.94.16 (2)解压,tar zxvf hbase-0.94.16.tar.gz 到我的目录中, 还有一点需要修改权限:设置hbase-0.94.16所在用户为ha 阅读全文
posted @ 2016-04-14 11:01 nolonely 阅读(440) 评论(0) 推荐(0)
摘要:在我学习hive的时候,按照官网上的demo, // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("CREATE TABLE 阅读全文
posted @ 2016-04-09 11:25 nolonely 阅读(313) 评论(0) 推荐(0)
摘要:1.在spark SQL的一个test中 无论是registerAsTable还是registerTempTable 都会有问题,经过查找各种资料,采用如下的方式: val sqlCon=new org.apache.spark.sql.SQLContext(sc) import sqlContex 阅读全文
posted @ 2016-03-16 20:40 nolonely 阅读(510) 评论(0) 推荐(0)
摘要:(1)编译前的准备工作,安装jdk,解压maven,解压spark,解压scala并配置相关的环境变量 export JAVA_HOME=/opt/module/jdk1.6.0_45 export PATH=$PATH:$JAVA_HOME/bin export MAVEN_HOME=/opt/m 阅读全文
posted @ 2015-11-17 17:05 nolonely 阅读(367) 评论(0) 推荐(0)