2020 年 10月随笔档案 - 阿飞飞飞

hive性能调优的几种方式

摘要：关于hive数据仓库的调优方式有很多种，留篇博客用来方便记忆... 1、设置本地模式在hive0.7版本之后就开始支持任务执行选择本地模式(local mode)，尽管hive是基于hadoop集群来做大数据处理的，但是有时会出现输入的数据量非常小，其查询出发执行任务的消耗时间远远大于job执行时阅读全文

posted @ 2020-10-28 00:07 阿飞飞飞阅读(798) 评论(0) 推荐(0)

机器学习——ALS算法

摘要：ALS算法中文名又称为最小二乘法，在机器学习中，ALS特指使用最小二乘法求解的协同过滤算法中的一种 ALS算法在构建spark推荐系统时，是用的最多的协同过滤算法，集成到了spark中ml库和mllib库中(ml库算法接口基于DataFrames,mllib库算法接口基于RDDs,ml库使用越来越普阅读全文

posted @ 2020-10-22 10:02 阿飞飞飞阅读(2832) 评论(0) 推荐(0)

机器学习——Kmeans算法

摘要：机器学习分为：监督学习，无监督学习，半监督学习按算法分类：分类算法，聚类算法，对于无监督学习，应用最广的是“聚类” Kmeans算法属于无监督学习(聚类)，对于训练样本的标记信息是未知的 1、Kmeans算法思想 Kmeans算法又称为K均值算法，其原理为：先从样本集中随机选取K个样本作为簇中心( 阅读全文

posted @ 2020-10-21 09:45 阿飞飞飞阅读(1309) 评论(0) 推荐(0)

机器学习——欧式距离和余弦距离

摘要：在数据分析和挖掘的过程中，为了知道个体间差异的大小，我们需要去评价个体之间的相似性，数据的挖掘方法可以分为分类和聚类，如KNN和KMeans. 而衡量个体差异的方法主要分为两种，距离度量——欧式距离，相似度度量——余弦距离。 1、欧式距离衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。阅读全文

posted @ 2020-10-20 22:45 阿飞飞飞阅读(3004) 评论(0) 推荐(0)

SparkGraphX中的PR算法和pregel迭代算法

摘要：PR算法（佩奇等级） PR算法是早期构建搜索系统的链接分析算法，用于衡量特定网页相对于搜索引擎索引中其他网页而言的重要程度一个页面的PR值越高，则对于其他网页则越重要如图：由图通过迭代公式Vn=T·Vn-1,得到一个稳定的PR，矩阵如下：但是有的点只有入度，没有出度，或者存在自环现象，引入公阅读全文

posted @ 2020-10-16 10:06 阿飞飞飞阅读(348) 评论(0) 推荐(0)

关于linux下，ls vi等命令失效的解决方法(配置下环境变量出现问题)

摘要：配置完环境变量source之后，linux的ls vi命令均失效，报错如下：解决方法 1.输入 export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin并进行source 来确保命令暂时使用 export PATH=/usr/bin:/usr 阅读全文

posted @ 2020-10-16 09:07 阿飞飞飞阅读(1108) 评论(0) 推荐(0)

mysql数据迁移和热备

该文被密码保护。

posted @ 2020-10-14 09:31 阿飞飞飞

埋点的三种方式

摘要：1、第三方SDK（又可称前端数据采集）通过这种 SDK 只能够采集到一些基本的用户行为数据，比如设备的基本信息，用户执行的基本操作等。但是服务端、数据库中的数据并没有采集客户端 SDK 还有一个问题就是经常觉得统计的不准，和自己的业务数据库数据对不上，出现丢数据的情况。这是前端数据采集的先天缺陷阅读全文

posted @ 2020-10-13 15:22 阿飞飞飞阅读(1142) 评论(0) 推荐(0)

Spark GraphX

摘要：一、图的概念图是由顶点集合(vertex)以及顶点间的关系集合——边(edge)组成的一种网状数据结构，通常表示为二元组:Graph=(V,E) 图按方向可分为有向图和无向图(spak通常为有向图) 度：一个顶点所有边的数量出度：指从当前顶点指向其他顶点的边的数量入度：其他顶点指向当前顶点的边阅读全文

posted @ 2020-10-11 19:23 阿飞飞飞阅读(160) 评论(0) 推荐(0)

spark访问mysql、spark访问hive

摘要：spark访问mysql: 导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.4</version> </dependency> <! 阅读全文

posted @ 2020-10-11 00:04 阿飞飞飞阅读(223) 评论(0) 推荐(0)

异常"java.sql.SQLException: The server time zone value 'EDT' is unrecognized or represents more than one time zone."的问题解决方案

摘要：异常：java.sql.SQLException: The server time zone value 'EDT' is unrecognized or represents more than one time zone. You must configure either the server 阅读全文

posted @ 2020-10-10 23:40 阿飞飞飞阅读(683) 评论(0) 推荐(0)

线程通讯三种方式

摘要：关于线程的通讯：有三种方式 1#synchronized实现1a2b3c交替执行 public class Test { static Thread t1=null,t2=null; public static void main(String[] args) { //1a2b3c4d交替执行 fi 阅读全文

posted @ 2020-10-06 18:19 阿飞飞飞阅读(326) 评论(0) 推荐(0)

阿飞飞飞

导航

公告

10 2020 档案