随笔分类 - spark
the ever!
摘要:转自 1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0): 对于稠密向量:很直观,你要创建什么,就加入什么,其函数声明为
阅读全文
摘要:RDD操作 1.对一个数据为{1,2,3,3}的RDD进行基本的RDD转化操作 map() {1,2,3} 2.对数据分别为{1,2,3}和{3,4,5}的RDD进行针对两个RDD的转化操作 3.对一个数据为{1,2,3,3}的RDD进行基本的RDD行动操作 rdd.aggregate((0,0))
阅读全文
摘要:Scala允许使用三个引号来进行多行字符引用:(引自) 1.正则表达式: 与正则表达式相关的类是scala.util.matching.Regex类,要构造一个Regex对象,使用String类的r方法即可,如果正则表达式中包含反斜杠或引号之类的需要转义的字符,那么最好是使用原始(raw)字符串,以
阅读全文
摘要:1.drop,dropRight,dropWhile drop: drop(n: Int): List[A] 丢弃前n个元素,返回剩下的元素 dropRight: dropRight(n: Int): List[A] 丢弃最后n个元素,返回剩下的元素 dropWhile: dropWhile(p:
阅读全文
摘要:1.在spark的伪分布式环境下安装HBASE (1)版本:我使用的spark版本是1.3.0,使用的hbase版本是hbase-0.94.16 (2)解压,tar zxvf hbase-0.94.16.tar.gz 到我的目录中, 还有一点需要修改权限:设置hbase-0.94.16所在用户为ha
阅读全文
摘要:在我学习hive的时候,按照官网上的demo, // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("CREATE TABLE
阅读全文
摘要:1.在spark SQL的一个test中 无论是registerAsTable还是registerTempTable 都会有问题,经过查找各种资料,采用如下的方式: val sqlCon=new org.apache.spark.sql.SQLContext(sc) import sqlContex
阅读全文
摘要:(1)编译前的准备工作,安装jdk,解压maven,解压spark,解压scala并配置相关的环境变量 export JAVA_HOME=/opt/module/jdk1.6.0_45 export PATH=$PATH:$JAVA_HOME/bin export MAVEN_HOME=/opt/m
阅读全文

浙公网安备 33010602011771号