会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
我是属车的
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
23
下一页
2020年1月10日
Spark VectorIndexer
摘要: 1、概念 提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别(离散值)特征(index categorical features categorical features )进行编号。它能够自动判断那些特征是离散值型的特征,并对他们进行编号,具体做法是通过
阅读全文
posted @ 2020-01-10 11:04 我是属车的
阅读(798)
评论(0)
推荐(0)
2020年1月9日
Spark CountVectorizer
摘要: 1、概念 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量
阅读全文
posted @ 2020-01-09 17:01 我是属车的
阅读(583)
评论(0)
推荐(0)
Spark word2vector
摘要: 1、概念 * word2vector 是google开源的一个生成词向量的工具, * 以语言模型为优化目标,迭代更新训练文本中的词向量,最终收敛获得词向量。 * 词向量可以作为文本分析中重要的特征,在分类问题、标注问题等场景都有着重要的应用价值。 * 由于是用向量表示,而且用较好的训练算法得到的词向
阅读全文
posted @ 2020-01-09 16:49 我是属车的
阅读(663)
评论(0)
推荐(0)
Spark TF-IDF
摘要: 1、概念 TF-IDF (Term frequency-inverse document frequency)TF-IDF(HashingTF and IDF)“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示
阅读全文
posted @ 2020-01-09 16:27 我是属车的
阅读(1574)
评论(0)
推荐(0)
2020年1月6日
spark 密集向量和稀疏向量
摘要: 1、概念 稀疏向量和密集向量都是向量的表示方法 密集向量和稀疏向量的区别: 密集向量的值就是一个普通的Double数组 而稀疏向量由两个并列的 数组indices和values组成 例如:向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0],用稀疏格式表示为(4,
阅读全文
posted @ 2020-01-06 17:23 我是属车的
阅读(915)
评论(0)
推荐(0)
2020年1月3日
spark 机器学习(ml pipeline)
摘要: 1、业务目标,通过训练模型给待处理数据打上标签 给定训练样本中对包含hello的字符串文本打上标签1,否则打上0. 期望,通过训练模型用机器学习的方式对待测试数据做同样的操作。 2、训练样本sample.txt 三列(id,文本,标签),hello文本标签为1 0,why hello world J
阅读全文
posted @ 2020-01-03 16:03 我是属车的
阅读(796)
评论(0)
推荐(0)
2019年12月25日
spark窗口操作
摘要: 流数据的窗口操作:窗口操作,即把几个批次的数据整合到一个窗口里计算,并且窗口根据步长不断滑动。 本质:把小批次,小颗粒的数据任意进行大批次和大颗粒的数据统计,意味着批次采集周期不用设置太大,可以通过滑动窗口来调整数据出现的粒度。 code: package com.home.spark.stream
阅读全文
posted @ 2019-12-25 17:26 我是属车的
阅读(1438)
评论(0)
推荐(0)
spark更新数据状态(updateStateByKey)
摘要: package com.home.spark.streaming import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.SparkConf import org.apache.s
阅读全文
posted @ 2019-12-25 16:11 我是属车的
阅读(3164)
评论(0)
推荐(0)
spark集成kafka数据源
摘要: 1、spark集成的KafkaUtils.createStream已经过期,这个是Spark Integration For Kafka 0.8里集成的。 替代的是Spark Integration For Kafka 0.10,已经没有createStream函数,采用createDirectSt
阅读全文
posted @ 2019-12-25 13:49 我是属车的
阅读(855)
评论(0)
推荐(0)
2019年12月24日
sparksql 自定义用户函数(UDF)
摘要: 自定义用户函数有两种方式,区别:是否使用强类型,参考demo:https://github.com/asker124143222/spark-demo 1、不使用强类型,继承UserDefinedAggregateFunction package com.home.spark import org.
阅读全文
posted @ 2019-12-24 17:30 我是属车的
阅读(1395)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
23
下一页
公告