阿飞飞飞

学而时习之

导航

10 2020 档案

hive性能调优的几种方式
摘要:关于hive数据仓库的调优方式有很多种,留篇博客用来方便记忆... 1、设置本地模式 在hive0.7版本之后就开始支持任务执行选择本地模式(local mode),尽管hive是基于hadoop集群来做大数据处理的,但是有时会出现输入的数据量非常小,其查询出发执行任务的消耗时间远远大于job执行时 阅读全文

posted @ 2020-10-28 00:07 阿飞飞飞 阅读(798) 评论(0) 推荐(0)

机器学习——ALS算法
摘要:ALS算法中文名又称为最小二乘法,在机器学习中,ALS特指使用最小二乘法求解的协同过滤算法中的一种 ALS算法在构建spark推荐系统时,是用的最多的协同过滤算法,集成到了spark中ml库和mllib库中(ml库算法接口基于DataFrames,mllib库算法接口基于RDDs,ml库使用越来越普 阅读全文

posted @ 2020-10-22 10:02 阿飞飞飞 阅读(2832) 评论(0) 推荐(0)

机器学习——Kmeans算法
摘要:机器学习分为:监督学习,无监督学习,半监督学习 按算法分类:分类算法,聚类算法,对于无监督学习,应用最广的是“聚类” Kmeans算法属于无监督学习(聚类),对于训练样本的标记信息是未知的 1、Kmeans算法思想 Kmeans算法又称为K均值算法,其原理为:先从样本集中随机选取K个样本作为簇中心( 阅读全文

posted @ 2020-10-21 09:45 阿飞飞飞 阅读(1309) 评论(0) 推荐(0)

机器学习——欧式距离和余弦距离
摘要:在数据分析和挖掘的过程中,为了知道个体间差异的大小,我们需要去评价个体之间的相似性,数据的挖掘方法可以分为分类和聚类,如KNN和KMeans. 而衡量个体差异的方法主要分为两种,距离度量——欧式距离,相似度度量——余弦距离。 1、欧式距离 衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。 阅读全文

posted @ 2020-10-20 22:45 阿飞飞飞 阅读(3004) 评论(0) 推荐(0)

SparkGraphX中的PR算法和pregel迭代算法
摘要:PR算法(佩奇等级) PR算法是早期构建搜索系统的链接分析算法,用于衡量特定网页相对于搜索引擎索引中其他网页而言的重要程度 一个页面的PR值越高,则对于其他网页则越重要 如图: 由图通过迭代公式Vn=T·Vn-1,得到一个稳定的PR,矩阵如下: 但是有的点只有入度,没有出度,或者存在自环现象,引入公 阅读全文

posted @ 2020-10-16 10:06 阿飞飞飞 阅读(348) 评论(0) 推荐(0)

关于linux下,ls vi等命令失效的解决方法(配置下环境变量出现问题)
摘要:配置完环境变量source之后,linux的ls vi命令均失效,报错如下: 解决方法 1.输入 export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin并进行source 来确保命令暂时使用 export PATH=/usr/bin:/usr 阅读全文

posted @ 2020-10-16 09:07 阿飞飞飞 阅读(1108) 评论(0) 推荐(0)

mysql数据迁移和热备
该文被密码保护。

posted @ 2020-10-14 09:31 阿飞飞飞

埋点的三种方式
摘要:1、第三方SDK(又可称前端数据采集) 通过这种 SDK 只能够采集到一些基本的用户行为数据,比如设备的基本信息,用户执行的基本操作等。但是服务端、数据库中的数据并没有采集 客户端 SDK 还有一个问题就是经常觉得统计的不准,和自己的业务数据库数据对不上,出现丢数据的情况。这是前端数据采集的先天缺陷 阅读全文

posted @ 2020-10-13 15:22 阿飞飞飞 阅读(1142) 评论(0) 推荐(0)

Spark GraphX
摘要:一、图的概念 图是由顶点集合(vertex)以及顶点间的关系集合——边(edge)组成的一种网状数据结构,通常表示为二元组:Graph=(V,E) 图按方向可分为有向图和无向图(spak通常为有向图) 度:一个顶点所有边的数量 出度:指从当前顶点指向其他顶点的边的数量 入度:其他顶点指向当前顶点的边 阅读全文

posted @ 2020-10-11 19:23 阿飞飞飞 阅读(160) 评论(0) 推荐(0)

spark访问mysql、spark访问hive
摘要:spark访问mysql: 导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.4</version> </dependency> <! 阅读全文

posted @ 2020-10-11 00:04 阿飞飞飞 阅读(223) 评论(0) 推荐(0)

异常"java.sql.SQLException: The server time zone value 'EDT' is unrecognized or represents more than one time zone."的问题解决方案
摘要:异常:java.sql.SQLException: The server time zone value 'EDT' is unrecognized or represents more than one time zone. You must configure either the server 阅读全文

posted @ 2020-10-10 23:40 阿飞飞飞 阅读(683) 评论(0) 推荐(0)

线程通讯三种方式
摘要:关于线程的通讯:有三种方式 1#synchronized实现1a2b3c交替执行 public class Test { static Thread t1=null,t2=null; public static void main(String[] args) { //1a2b3c4d交替执行 fi 阅读全文

posted @ 2020-10-06 18:19 阿飞飞飞 阅读(326) 评论(0) 推荐(0)