摘要:关于hive数据仓库的调优方式有很多种,留篇博客用来方便记忆... 1、设置本地模式 在hive0.7版本之后就开始支持任务执行选择本地模式(local mode),尽管hive是基于hadoop集群来做大数据处理的,但是有时会出现输入的数据量非常小,其查询出发执行任务的消耗时间远远大于job执行时
阅读全文
摘要:ALS算法中文名又称为最小二乘法,在机器学习中,ALS特指使用最小二乘法求解的协同过滤算法中的一种 ALS算法在构建spark推荐系统时,是用的最多的协同过滤算法,集成到了spark中ml库和mllib库中(ml库算法接口基于DataFrames,mllib库算法接口基于RDDs,ml库使用越来越普
阅读全文
摘要:机器学习分为:监督学习,无监督学习,半监督学习 按算法分类:分类算法,聚类算法,对于无监督学习,应用最广的是“聚类” Kmeans算法属于无监督学习(聚类),对于训练样本的标记信息是未知的 1、Kmeans算法思想 Kmeans算法又称为K均值算法,其原理为:先从样本集中随机选取K个样本作为簇中心(
阅读全文
摘要:在数据分析和挖掘的过程中,为了知道个体间差异的大小,我们需要去评价个体之间的相似性,数据的挖掘方法可以分为分类和聚类,如KNN和KMeans. 而衡量个体差异的方法主要分为两种,距离度量——欧式距离,相似度度量——余弦距离。 1、欧式距离 衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。
阅读全文
摘要:PR算法(佩奇等级) PR算法是早期构建搜索系统的链接分析算法,用于衡量特定网页相对于搜索引擎索引中其他网页而言的重要程度 一个页面的PR值越高,则对于其他网页则越重要 如图: 由图通过迭代公式Vn=T·Vn-1,得到一个稳定的PR,矩阵如下: 但是有的点只有入度,没有出度,或者存在自环现象,引入公
阅读全文
摘要:配置完环境变量source之后,linux的ls vi命令均失效,报错如下: 解决方法 1.输入 export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin并进行source 来确保命令暂时使用 export PATH=/usr/bin:/usr
阅读全文
摘要:1、第三方SDK(又可称前端数据采集) 通过这种 SDK 只能够采集到一些基本的用户行为数据,比如设备的基本信息,用户执行的基本操作等。但是服务端、数据库中的数据并没有采集 客户端 SDK 还有一个问题就是经常觉得统计的不准,和自己的业务数据库数据对不上,出现丢数据的情况。这是前端数据采集的先天缺陷
阅读全文
摘要:一、图的概念 图是由顶点集合(vertex)以及顶点间的关系集合——边(edge)组成的一种网状数据结构,通常表示为二元组:Graph=(V,E) 图按方向可分为有向图和无向图(spak通常为有向图) 度:一个顶点所有边的数量 出度:指从当前顶点指向其他顶点的边的数量 入度:其他顶点指向当前顶点的边
阅读全文
摘要:spark访问mysql: 导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.4</version> </dependency> <!
阅读全文
摘要:异常:java.sql.SQLException: The server time zone value 'EDT' is unrecognized or represents more than one time zone. You must configure either the server
阅读全文
摘要:关于线程的通讯:有三种方式 1#synchronized实现1a2b3c交替执行 public class Test { static Thread t1=null,t2=null; public static void main(String[] args) { //1a2b3c4d交替执行 fi
阅读全文