Tanglement - 博客园

2020年11月2日

摘要：用户自定义函数 UDF函数在操作关系型数据库时，Spark支持大部分常用SQL函数，而有些函数Spark官方并没有支持，需要根据业务自行创建。这些函数成为用户自定义函数(user defined function, UDF)。接受一个参数，返回一个结果。即一进一出的函数。实例实现一个UDF，阅读全文

posted @ 2020-11-02 15:45 Tanglement 阅读(1012) 评论(0) 推荐(0) 编辑

2020年10月27日

Spark读写不同格式数据

摘要： Spark读写不同个数数据 SPark读取数据读取文本文件格式 val inputTextFile = sc.textFile(path) 可以通过/*.txt读取多个文件。读取JSON文件格式和文本文件读取函数一样 val inputJsonFIle = sc.textFIle("path/ 阅读全文

posted @ 2020-10-27 09:34 Tanglement 阅读(587) 评论(0) 推荐(0) 编辑

2020年9月24日

DataStream API使用

摘要： DataStream编程模型 DataStream API主要可以分为三个部分，DataSource模块、Transformation模块以及DataSink模块，其中Sources模块主要定义了数据接入功能，主要是将各种外部数据接入至Flink系统中，并将数据转换成对应的DataStream数据集阅读全文

posted @ 2020-09-24 09:21 Tanglement 阅读(358) 评论(0) 推荐(0) 编辑

2020年9月19日

Flink初识和编程模型

摘要： Flink初识 Flink同时支持高吞吐、低延迟和exactly-once语义的实时计算能力，同时提供了基于流式计算引擎处理批量数据的计算能力，真正意义上实现了批流统一。使用Hadoop MapReduce进行批量数据的处理，使用Apache Storm进行实时数据的处理。这种架构在一定程度上解阅读全文

posted @ 2020-09-19 20:10 Tanglement 阅读(173) 评论(0) 推荐(0) 编辑

2020年8月10日

树的遍历

摘要： LeetCode上的三道关于树的遍历题目： 144二叉树的前序遍历 94二叉树的中序遍历 145二叉树的后序遍历递归解法递归是最容易的。递归是函数自身调用自身，涉及到保护现场（变量入栈，记录地址等），时间和空间开销较大，而这操作都是在栈上，调用层级太多很容易溢出。其与迭代最大的区别就是是否会栈阅读全文

posted @ 2020-08-10 10:41 Tanglement 阅读(207) 评论(0) 推荐(0) 编辑

2020年8月2日

《上下文感知协同过滤推荐系统的矩阵分解技术综述》学习笔记

摘要：《Matrix Factorization Techniques for Context-Aware Collaborative Filtering Recommender System: A Survey》，2018年，在dblp可下载。摘要协同过滤推荐系统通过学习过去用户项目关系来预测用户在阅读全文

posted @ 2020-08-02 16:13 Tanglement 阅读(587) 评论(0) 推荐(0) 编辑

2020年8月1日

《一种结合主题模型的推荐算法》学习笔记

摘要：于2019年6月发表于计算机应用研究。作者，西南交通大学的曹占伟。摘要传统协同过滤推荐算法存在冷启动、数据稀疏以及相似度度量准确性的问题（这里作者指出还有一个相似度度量准确性的问题，普遍是冷启动和数据稀疏）。基于LDA主题模型对文本隐式主题挖掘很有效（我把这个理解为挖掘上下文信息以处理冷启动）阅读全文

posted @ 2020-08-01 21:07 Tanglement 阅读(397) 评论(0) 推荐(0) 编辑

2020年7月28日

协同过滤推荐

摘要：推荐系统中的个性化推荐一定要有用户模型或用户记录。需要获取用户信息，有两种获取途径显式获取和隐式获取。协同过滤（CF，Collaborative Filtering）协同过滤推荐方法的主要思想是，利用已有用户群过去的行为或意见预测当前用户最可能喜欢哪些东西或对哪些东西感兴趣。输入数据只有用户- 阅读全文

posted @ 2020-07-28 15:01 Tanglement 阅读(241) 评论(0) 推荐(0) 编辑

2020年7月17日

《并行机器学习算法基础体系前沿进展综述》学习笔记

摘要： 2017年发表在计算机工程于应用。摘要总结和分析了传统机器学习算法在海量数据场景霞出现的若干问题，基于当代并行机分类回顾了国内外并行机器学习算法的研究现状，并归纳总结了并行机器学习算法在各种基础体系下存在的问题。引言传统机器学习算法在海量数据下计算代价高、延迟性高、无法处理所有数据，从根本上阅读全文

posted @ 2020-07-17 09:49 Tanglement 阅读(414) 评论(1) 推荐(0) 编辑

2020年7月16日

《分布式机器学习平台与算法综述》学习笔记

摘要： 2019年3月发表于计算机科学。可在知网下载。本文内容摘要分布式机器学习的核心思想“分而治之”。分布式机器学习是机器学习的研究领域之一。分布式机器学习的主流平台有Spark、MXNet、Petuum、TensorFlow及PyTorch。本文对这些平台深入总结，分析对比其特性。其次，从数据并行阅读全文

posted @ 2020-07-16 17:00 Tanglement 阅读(814) 评论(0) 推荐(0) 编辑

公告