随笔分类 -  spark

摘要:1、概念 特征升维 2、code package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.PolynomialExpansion import org.apache. 阅读全文
posted @ 2020-01-16 10:24 我是属车的 阅读(514) 评论(0) 推荐(0)
摘要:1、概念 主成分分析(PCA) 特征抽取通常用于提高计算效率,降低维度灾难。 主成分分析(PCA)是一种用于探索高维数据结构的技术。PCA可以把具有相关性的高维变量合成线性无关的低维变量。新的低维数据集尽可能保留原始数据的变量。 当数据集不同维度上的方差分布不均匀的时候,PCA最有用。(如果是一个球 阅读全文
posted @ 2020-01-15 17:05 我是属车的 阅读(665) 评论(0) 推荐(0)
摘要:1、概念 n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n 的字节片段序列。 每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间, 阅读全文
posted @ 2020-01-15 15:25 我是属车的 阅读(718) 评论(0) 推荐(0)
摘要:1、概念 独热编码(One-Hot Encoding) * 将表示为标签索引的分类特征映射到二进制向量,该向量最多具有一个单一的单值,该单值表示所有特征值集合中特定特征值的存在。 * 此编码允许期望连续特征(例如逻辑回归)的算法使用分类特征。 * 对于字符串类型的输入数据,通常首先使用StringI 阅读全文
posted @ 2020-01-14 15:21 我是属车的 阅读(3465) 评论(0) 推荐(0)
摘要:1、概念 逻辑回归是预测分类相应的常用方法。广义线性回归的一个特例是预测结果的概率。在spark.ml逻辑回归中,可以使用二项逻辑回归来预测二元结果,或者可以使用多项逻辑回归来预测多类结果。使用该family参数在这两种算法之间选择,或者保持不设置(缺省auto),Spark将推断出正确的变量。 通 阅读全文
posted @ 2020-01-10 16:52 我是属车的 阅读(3749) 评论(0) 推荐(0)
摘要:1、StringIndexer 标签索引器,它将标签的字符串列映射到标签索引的ML列。 如果输入列为数字,则将其强制转换为字符串并为字符串值编制索引。 索引在[0,numLabels)中。 索引构建的顺序为标签的频率,优先编码频率较大的标签,所以出现频率最高的标签为0号 默认情况下,按标签频率排序, 阅读全文
posted @ 2020-01-10 11:30 我是属车的 阅读(1137) 评论(0) 推荐(0)
摘要:1、概念 提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别(离散值)特征(index categorical features categorical features )进行编号。它能够自动判断那些特征是离散值型的特征,并对他们进行编号,具体做法是通过 阅读全文
posted @ 2020-01-10 11:04 我是属车的 阅读(798) 评论(0) 推荐(0)
摘要:1、概念 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量 阅读全文
posted @ 2020-01-09 17:01 我是属车的 阅读(582) 评论(0) 推荐(0)
摘要:1、概念 * word2vector 是google开源的一个生成词向量的工具, * 以语言模型为优化目标,迭代更新训练文本中的词向量,最终收敛获得词向量。 * 词向量可以作为文本分析中重要的特征,在分类问题、标注问题等场景都有着重要的应用价值。 * 由于是用向量表示,而且用较好的训练算法得到的词向 阅读全文
posted @ 2020-01-09 16:49 我是属车的 阅读(662) 评论(0) 推荐(0)
摘要:1、概念 TF-IDF (Term frequency-inverse document frequency)TF-IDF(HashingTF and IDF)“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示 阅读全文
posted @ 2020-01-09 16:27 我是属车的 阅读(1574) 评论(0) 推荐(0)
摘要:1、概念 稀疏向量和密集向量都是向量的表示方法 密集向量和稀疏向量的区别: 密集向量的值就是一个普通的Double数组 而稀疏向量由两个并列的 数组indices和values组成 例如:向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0],用稀疏格式表示为(4, 阅读全文
posted @ 2020-01-06 17:23 我是属车的 阅读(915) 评论(0) 推荐(0)
摘要:1、业务目标,通过训练模型给待处理数据打上标签 给定训练样本中对包含hello的字符串文本打上标签1,否则打上0. 期望,通过训练模型用机器学习的方式对待测试数据做同样的操作。 2、训练样本sample.txt 三列(id,文本,标签),hello文本标签为1 0,why hello world J 阅读全文
posted @ 2020-01-03 16:03 我是属车的 阅读(796) 评论(0) 推荐(0)
摘要:流数据的窗口操作:窗口操作,即把几个批次的数据整合到一个窗口里计算,并且窗口根据步长不断滑动。 本质:把小批次,小颗粒的数据任意进行大批次和大颗粒的数据统计,意味着批次采集周期不用设置太大,可以通过滑动窗口来调整数据出现的粒度。 code: package com.home.spark.stream 阅读全文
posted @ 2019-12-25 17:26 我是属车的 阅读(1438) 评论(0) 推荐(0)
摘要:package com.home.spark.streaming import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.SparkConf import org.apache.s 阅读全文
posted @ 2019-12-25 16:11 我是属车的 阅读(3163) 评论(0) 推荐(0)
摘要:1、spark集成的KafkaUtils.createStream已经过期,这个是Spark Integration For Kafka 0.8里集成的。 替代的是Spark Integration For Kafka 0.10,已经没有createStream函数,采用createDirectSt 阅读全文
posted @ 2019-12-25 13:49 我是属车的 阅读(855) 评论(0) 推荐(0)
摘要:自定义用户函数有两种方式,区别:是否使用强类型,参考demo:https://github.com/asker124143222/spark-demo 1、不使用强类型,继承UserDefinedAggregateFunction package com.home.spark import org. 阅读全文
posted @ 2019-12-24 17:30 我是属车的 阅读(1394) 评论(0) 推荐(0)
摘要:1、sparksql是Spark用来处理结构化数据的一个模块,它提供了两个抽象DataFrame和DataSet并且作为分布式SQL查询引擎的作用。 Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效 阅读全文
posted @ 2019-12-24 17:25 我是属车的 阅读(379) 评论(0) 推荐(0)
摘要:1、读取mysql数据。从mysql读取的时候需要传入数据边界,数据类型是long,一般建议主键列,如果是时间列,需要转换成时间戳。 参考demo:https://github.com/asker124143222/spark-demo package com.home.spark import j 阅读全文
posted @ 2019-12-24 16:48 我是属车的 阅读(2257) 评论(0) 推荐(0)
摘要:1、map是对数据1对1的遍历,传输效率相对比较差,相比起mapPartitions不会出现内存溢出 2、mapPartitions 对一个rdd里所有分区遍历 效率优于map算子,减少了发送到执行器执行的交互次数,mapPartitions是批量将分区数据一次发送 但是执行器内存不够的则可能会出现 阅读全文
posted @ 2019-12-24 16:35 我是属车的 阅读(2615) 评论(0) 推荐(0)
摘要:1、spark在yarn模式下提交作业需要启动hdfs集群和yarn,具体操作参照:hadoop 完全分布式集群搭建 2、spark需要配置yarn和hadoop的参数目录 3、将spark整个目录分发到hdfs集群中每台机器上,分发命令可以参考:linux rsync 如果不想用rsync也可以直 阅读全文
posted @ 2019-10-17 14:07 我是属车的 阅读(820) 评论(0) 推荐(0)