spark - 随笔分类 - nolonely

spark向量

摘要：转自 1、本地向量MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：对于稠密向量：很直观，你要创建什么，就加入什么，其函数声明为阅读全文

posted @ 2016-04-23 09:25 nolonely 阅读(4599) 评论(0) 推荐(0)

RDD操作

摘要：RDD操作 1.对一个数据为{1，2，3，3}的RDD进行基本的RDD转化操作 map() {1,2,3} 2.对数据分别为{1，2，3}和{3，4，5}的RDD进行针对两个RDD的转化操作 3.对一个数据为{1，2，3，3}的RDD进行基本的RDD行动操作 rdd.aggregate((0,0)) 阅读全文

posted @ 2016-04-17 22:55 nolonely 阅读(5738) 评论(1) 推荐(0)

scala知识点（二）

摘要：Scala允许使用三个引号来进行多行字符引用：（引自） 1.正则表达式：与正则表达式相关的类是scala.util.matching.Regex类，要构造一个Regex对象，使用String类的r方法即可，如果正则表达式中包含反斜杠或引号之类的需要转义的字符，那么最好是使用原始（raw）字符串，以阅读全文

posted @ 2016-04-17 19:05 nolonely 阅读(693) 评论(0) 推荐(0)

scala知识点（一）

摘要：1.drop,dropRight,dropWhile drop: drop(n: Int): List[A] 丢弃前n个元素，返回剩下的元素 dropRight: dropRight(n: Int): List[A] 丢弃最后n个元素，返回剩下的元素 dropWhile: dropWhile(p: 阅读全文

posted @ 2016-04-14 15:15 nolonely 阅读(1164) 评论(1) 推荐(0)

hbase on spark

摘要：1.在spark的伪分布式环境下安装HBASE (1)版本：我使用的spark版本是1.3.0，使用的hbase版本是hbase-0.94.16 (2)解压，tar zxvf hbase-0.94.16.tar.gz 到我的目录中，还有一点需要修改权限：设置hbase-0.94.16所在用户为ha 阅读全文

posted @ 2016-04-14 11:01 nolonely 阅读(440) 评论(0) 推荐(0)

hive on spark

摘要：在我学习hive的时候，按照官网上的demo， // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("CREATE TABLE 阅读全文

posted @ 2016-04-09 11:25 nolonely 阅读(313) 评论(0) 推荐(0)

spark 1.3.0下的问题

摘要：1.在spark SQL的一个test中无论是registerAsTable还是registerTempTable 都会有问题，经过查找各种资料，采用如下的方式： val sqlCon=new org.apache.spark.sql.SQLContext(sc) import sqlContex 阅读全文

posted @ 2016-03-16 20:40 nolonely 阅读(514) 评论(0) 推荐(0)

spark（一） build

摘要：（1）编译前的准备工作，安装jdk，解压maven，解压spark，解压scala并配置相关的环境变量 export JAVA_HOME=/opt/module/jdk1.6.0_45 export PATH=$PATH:$JAVA_HOME/bin export MAVEN_HOME=/opt/m 阅读全文

posted @ 2015-11-17 17:05 nolonely 阅读(367) 评论(0) 推荐(0)

nolonely

很多时候不是我们做不好，而是没有竭尽全力......

随笔分类 - spark