我是属车的

2020年1月10日

摘要： 1、概念提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别（离散值）特征（index categorical features categorical features ）进行编号。它能够自动判断那些特征是离散值型的特征，并对他们进行编号，具体做法是通过阅读全文

posted @ 2020-01-10 11:04 我是属车的阅读(799) 评论(0) 推荐(0)

2020年1月9日

Spark CountVectorizer

摘要： 1、概念 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时，CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量阅读全文

posted @ 2020-01-09 17:01 我是属车的阅读(585) 评论(0) 推荐(0)

Spark word2vector

摘要： 1、概念 * word2vector 是google开源的一个生成词向量的工具， * 以语言模型为优化目标，迭代更新训练文本中的词向量，最终收敛获得词向量。 * 词向量可以作为文本分析中重要的特征，在分类问题、标注问题等场景都有着重要的应用价值。 * 由于是用向量表示，而且用较好的训练算法得到的词向阅读全文

posted @ 2020-01-09 16:49 我是属车的阅读(665) 评论(0) 推荐(0)

Spark TF-IDF

摘要： 1、概念 TF-IDF (Term frequency-inverse document frequency)TF-IDF(HashingTF and IDF)“词频－逆向文件频率”（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。词语由t表示阅读全文

posted @ 2020-01-09 16:27 我是属车的阅读(1575) 评论(0) 推荐(0)

2020年1月6日

spark 密集向量和稀疏向量

摘要： 1、概念稀疏向量和密集向量都是向量的表示方法密集向量和稀疏向量的区别：密集向量的值就是一个普通的Double数组而稀疏向量由两个并列的数组indices和values组成例如：向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0]，用稀疏格式表示为(4, 阅读全文

posted @ 2020-01-06 17:23 我是属车的阅读(920) 评论(0) 推荐(0)

2020年1月3日

spark 机器学习（ml pipeline）

摘要： 1、业务目标，通过训练模型给待处理数据打上标签给定训练样本中对包含hello的字符串文本打上标签1，否则打上0. 期望，通过训练模型用机器学习的方式对待测试数据做同样的操作。 2、训练样本sample.txt 三列（id，文本，标签）,hello文本标签为1 0,why hello world J 阅读全文

posted @ 2020-01-03 16:03 我是属车的阅读(796) 评论(0) 推荐(0)

2019年12月25日

spark窗口操作

摘要：流数据的窗口操作：窗口操作，即把几个批次的数据整合到一个窗口里计算，并且窗口根据步长不断滑动。本质：把小批次，小颗粒的数据任意进行大批次和大颗粒的数据统计，意味着批次采集周期不用设置太大，可以通过滑动窗口来调整数据出现的粒度。 code: package com.home.spark.stream 阅读全文

posted @ 2019-12-25 17:26 我是属车的阅读(1444) 评论(0) 推荐(0)

spark更新数据状态（updateStateByKey）

摘要： package com.home.spark.streaming import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.SparkConf import org.apache.s 阅读全文

posted @ 2019-12-25 16:11 我是属车的阅读(3168) 评论(0) 推荐(0)

spark集成kafka数据源

摘要： 1、spark集成的KafkaUtils.createStream已经过期，这个是Spark Integration For Kafka 0.8里集成的。替代的是Spark Integration For Kafka 0.10，已经没有createStream函数，采用createDirectSt 阅读全文

posted @ 2019-12-25 13:49 我是属车的阅读(857) 评论(0) 推荐(0)

2019年12月24日

sparksql 自定义用户函数（UDF）

摘要：自定义用户函数有两种方式，区别：是否使用强类型，参考demo：https://github.com/asker124143222/spark-demo 1、不使用强类型，继承UserDefinedAggregateFunction package com.home.spark import org. 阅读全文

posted @ 2019-12-24 17:30 我是属车的阅读(1396) 评论(0) 推荐(0)

公告